Anzeige
Skip to content

Jonathan Kemper

Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Read full article about: Mistral OCR 3 soll Texte günstiger und besser erkennen

Mistral AI hat mit Mistral OCR 3 eine aktualisierte Version seines Modells zur Dokumentenanalyse veröffentlicht. Das System extrahiert nicht nur Texte und eingebettete Bilder, sondern interpretiert auch kursive Handschriften, dichte Formular-Layouts und komplexe Tabellenstrukturen inklusive verbundener Zellen. Laut dem Unternehmen übertrifft die dritte Version den Vorgänger in 74 Prozent der Fälle, vor allem bei der Verarbeitung von Handschriften, gescannten Formularen und komplexen Tabellen. Auch gegenüber Deepseeks spezialisiertem Modell zur Zeichenerkennung schneidet OCR 3 gut ab.

Das Modell ist über eine API oder die im Mai vorgestellte Plattform Document AI verfügbar. Der Preis liegt bei zwei US-Dollar pro 1.000 Seiten, wobei Großaufträge günstiger sind. Das französische Unternehmen, das zuletzt eine große Investition vom Chiphersteller ASML erhalten hat, baut damit seine Positionierung im Bereich der Dokumentenerkennung weiterhin aus, während die Open-Weight-Sprachmodelle der aktuellen Generation hinter kommerziellen Konkurrenten aus den USA zurückbleiben.

Read full article about: KI im Newsroom: OpenAI launcht Schulungsprogramm für Medienhäuser

OpenAI hat die "Academy for News Organizations" gestartet, eine neue Lernplattform für Journalisten und Publisher. Ziel der Initiative in Zusammenarbeit mit dem American Journalism Project und dem Lenfest Institute ist es, Medienhäusern den Umgang mit Künstlicher Intelligenz näherzubringen. Das Angebot umfasst On-Demand-Schulungen, praktische Anwendungsbeispiele für Recherchen und Übersetzungen sowie Hilfestellungen für interne Richtlinien. OpenAI betont, dass Redaktionen durch die Nutzung von KI effizienter arbeiten sollen, um mehr Zeit für die journalistische Kernarbeit zu haben.

Laut OpenAI wurden bei der Entwicklung der Akademie auch kritische Themen berücksichtigt, etwa die Sorge um Arbeitsplätze und die Zuverlässigkeit von KI-Inhalten. Die Plattform baut auf bestehenden Kooperationen mit Verlagen wie News Corp und Hearst auf und soll im nächsten Jahr weiter ausgebaut werden. Derartige Förderangebote sind vielleicht auch dazu gedacht, die Wogen zu glätten: Auf der anderen Seite streitet sich OpenAI nämlich mit großen Medienhäusern wie der New York Times oder Ziff Davis ums Urheberrecht.

Read full article about: OpenAI startet App-Einreichungen und rollt Store im neuen Jahr aus

OpenAI nimmt ab sofort Einreichungen für ChatGPT-Apps entgegen, die nach einer Prüfung in einem neuen Verzeichnis erscheinen. Die Anwendungen erweitern Konversationen um konkrete Aktionen, etwa zum Bestellen von Lebensmitteln. Nutzer finden das Verzeichnis im Tools-Menü und starten Apps per @-Befehl. Ein Software Development Kit (SDK) steht als Beta bereit, wobei die ersten geprüften Anwendungen Anfang 2026 starten sollen.

Bezüglich der Sicherheit verlangt das Unternehmen unter anderem, dass Apps für alle Zielgruppen geeignet sind und nur zwingend notwendige Informationen abfragen. In dieser frühen Phase können Entwickler aus ihren ChatGPT-Apps auf ihre eigenen Websites oder nativen Apps verlinken, um Transaktionen für physische Güter abzuschließen. OpenAI erkundet über die Zeit aber weitere Monetarisierungsoptionen, einschließlich für digitale Güter, und will dazu später mehr teilen; seit einigen Monaten kooperiert das Unternehmen schon mit PayPal. Die Öffnung folgt auf den Dev Day im Oktober, auf dem OpenAI neben dem Apps-SDK das AgentKit für autonome KI-Agenten präsentierte.

Nvidia veröffentlicht Nemotron 3: Hybride Mamba-Modelle für autonome KI-Agenten

Nvidia bricht mit reinen Transformer-Modellen: Die neue Nemotron-3-Familie kombiniert Mamba-2- und Transformer-Architekturen, um KI-Agenten mit Millionen-Token-Kontextfenstern ressourcenschonend zu betreiben, und veröffentlicht ungewöhnlich offen Trainingsdaten und Rezepte.

Read full article about: Google integriert Recherche-Tool NotebookLM in Gemini-Chatbot

Google verknüpft sein Recherche-Tool NotebookLM direkt mit dem Chatbot Gemini. Dadurch können Nutzer spezifische Notizbücher als Kontextquelle für ihre Anfragen an Gemini auswählen und das Wissen des Chatbots abseits vom Trainingsmaterial und Webquellen erweitern. Zwar gibt es auch eine auf einem Gemini-Sprachmodell basierende Chatfunktion innerhalb von NotebookLM, jedoch stark eingeschränkt – allein Chatverläufe werden hier etwa nicht gespeichert. Die neue Funktion ermöglicht außerdem die Nutzung mehrerer Notizbücher gleichzeitig sowie die Integration in "Gems", die personalisierten Versionen des Chatbots. Das Feature scheint stufenweise und zunächst an Browser-Nutzer verteilt zu werden, App-Nutzer dürften aber bald folgen.

NotebookLM startete 2023 als experimentelles Werkzeug. Inzwischen hat es sich gerade im Bildungsbereich als eine Software mit vorbildlicher KI-Integration etabliert. Mit dem Tool lassen sich unkompliziert RAG-Umgebungen aufsetzen und so große Dokumentsammlungen analysier- und durchsuchbar machen. Google spendiert NotebookLM regelmäßig neue Funktionen, zuletzt unter anderem eine für Deep Research.

KI-Modelle entwickeln "Trauma-Narrative" über ihr eigenes Training

Sprachmodelle auf der Therapiecouch: Forscher der Uni Luxemburg behandeln ChatGPT, Gemini und Grok wie Patienten – mit verstörenden Folgen. Die KI erfindet konsistente Trauma-Biografien, erreicht pathologische Testwerte und spricht von Angst, Scham und „strengen Eltern“. Die Studie wirft Fragen zu KI-Sicherheit, Anthropomorphismus und Mental Health auf.

Open-Source-Modell LongCat zeigt: Gute Bild-KI geht auch ohne Parameter-Flut

LongCat-Image zeigt, wie viel Bildqualität und Textpräzision Meituan aus nur 6 Milliarden Parametern herausholt. Statt stumpfer Skalierung setzen die Entwickler auf saubere Daten, clevere Architektur und eine ungewöhnlich genaue Textkodierung. Das Ergebnis wirkt wie ein kleiner, aber sehr gezielter Gegenentwurf zum „größer ist besser“-Trend.

Perplexity stellt Sicherheitssystem gegen Prompt-Injection-Angriffe auf Browser-Agenten vor

Perplexity stellt ein neues Sicherheitssystem für KI-Browser vor – und trifft damit einen wunden Punkt der Branche. Während immer mehr Anbieter Agenten tief ins Web integrieren, steigt das Risiko versteckter Prompt-Injection-Angriffe. BrowseSafe soll diese Lücke schließen: schnell, präzise und für die unberechenbare Realität des Netzes gebaut. Doch die grundlegenden Sicherheitsprobleme bleiben bestehen.

Open-Source-KI GeoVista findet Aufnahmeorte von Fotos durch Zoom und Websuche

Ein Forschungsteam aus China hat mit GeoVista ein Open-Source-KI-Modell vorgestellt, das Bilder analysiert und gleichzeitig das Internet durchsucht, um deren Aufnahmeort zu bestimmen. Das Modell soll die Leistung kommerzieller Systeme wie Gemini-2.5-flash erreichen.