Anzeige
Skip to content

Open-Source-Modell LongCat zeigt: Gute Bild-KI geht auch ohne Parameter-Flut

LongCat-Image zeigt, wie viel Bildqualität und Textpräzision Meituan aus nur 6 Milliarden Parametern herausholt. Statt stumpfer Skalierung setzen die Entwickler auf saubere Daten, clevere Architektur und eine ungewöhnlich genaue Textkodierung. Das Ergebnis wirkt wie ein kleiner, aber sehr gezielter Gegenentwurf zum „größer ist besser“-Trend.

Read full article about: OpenAI schafft Sperrfrist für Aktien ab, um die Risikobereitschaft zu erhöhen

OpenAI will die Risikobereitschaft seiner Angestellten erhöhen. Dazu hat das Unternehmen laut Wall Street Journal eine Regelung abgeschafft, nach der neue Mitarbeiter mindestens sechs Monate im Unternehmen bleiben mussten, bevor ihre Aktienanteile übertragen wurden. Die Änderung soll Mitarbeitern die Angst nehmen, entlassen zu werden, bevor sie ihre ersten Anteile erhalten. OpenAI hatte die Frist erst im April von zwölf auf sechs Monate verkürzt.

Der Schritt zeigt den harten Wettbewerb um KI-Talente: Meta, Google und Anthropic locken Spitzenforscher mit Gehaltspaketen von bis zu 100 Millionen Dollar. OpenAI gibt dieses Jahr rund sechs Milliarden Dollar für aktienbasierte Vergütungen aus, fast die Hälfte des erwarteten Umsatzes. Die hohen Personalkosten drücken weiter auf die Margen in einem ohnehin schon hart umkämpften Markt.

Read full article about: Google Translate startet Live-Übersetzung per Kopfhörer als Android-Beta – Gemini erhält Tonfall und Rhythmus

Google integriert Gemini in Google Translate für bessere Textübersetzungen und startet eine Beta für Echtzeit-Sprachübersetzung über Kopfhörer. Gemini versteht nun Redewendungen, lokale Ausdrücke und Slang besser und überträgt sie natürlicher, statt sie wörtlich zu übersetzen. Die verbesserte Textübersetzung startet in den USA und Indien für Englisch und fast 20 Sprachen, darunter Spanisch, Hindi, Chinesisch, Japanisch und Deutsch. Die App ist für Android und iOS sowie im Web verfügbar.

Die Live-Übersetzung nutzt Geminis Sprache-zu-Sprache-Fähigkeiten und behält Tonfall, Betonung und Rhythmus des Sprechers bei. Die Beta ist zunächst auf Android in den USA, Mexiko und Indien verfügbar und unterstützt über 70 Sprachen. iOS und weitere Länder folgen 2026.

Zusätzlich erweitert Google die Sprachlern-Tools um fast 20 neue Länder, darunter Deutschland, Indien, Schweden und Taiwan.

Read full article about: Skills-System bei OpenAI entdeckt: ChatGPT soll Aufgaben mit Modulen effizienter lösen

OpenAI hat offenbar das von Anthropic im Oktober eingeführte Skills-System adaptiert. Darauf deutet ein Fund des Nutzers Elias Judin hin, der entsprechende Hinweise veröffentlichte.

Er stieß auf Verzeichnisse wie „pdfs" und „spreadsheets", die jeweils Dateien mit dem Namen „skill.md" enthielten. Diese Dateien enthalten Anweisungen für den Umgang mit Dokumenten und Tabellen. Ein Skill besteht im Kern aus einem Ordner mit einer Markdown-Datei und optionalen Ressourcen wie Skripten. Jedes KI-Werkzeug mit Dateisystemzugriff kann diese nutzen. Bei OpenAI tauchte die Unterstützung für Skills im Codex-CLI-Tool und in ChatGPT selbst auf.

Screenshot Github

Die Struktur legt nahe, dass OpenAI die Werkzeuge der KI nun ähnlich wie Apps oder Module organisiert, um spezifische Aufgaben zu lösen. Judin dokumentierte seine Entdeckung, die er nach eigenen Angaben mit einem „5.2 pro"-Modell machte, bei Github.

Das modulare Skill-System wurde erstmals von Anthropic im Oktober vorgestellt, damit der KI-Assistent Claude spezialisierte Aufgaben durch automatisch geladene Skripte und Ressourcen effizienter erledigen kann.

Read full article about: OpenAI behauptet, Sora-App für Android in nur 28 Tagen mit KI-Hilfe entwickelt zu haben

OpenAI behauptet, dass die Sora Android-App dank der Code-KI Codex in nur 28 Tagen entwickelt wurde. Laut einem Bericht der OpenAI-Mitarbeiter Patrick Hum und RJ Marsan nutzte ein kleines Team von vier Ingenieuren eine frühe Version des Modells GPT-5.1-Codex, um die Anwendung zu erstellen. Dabei wurden rund fünf Milliarden Token verbraucht.

Die KI übernahm laut den Autoren den Großteil der Schreibarbeit, indem sie beispielsweise bestehenden iOS-Code in Android-Code übersetzte. Die menschlichen Entwickler konzentrierten sich hingegen auf die Architektur, Planung und Überprüfung der Ergebnisse. Codex habe dabei wie ein neuer, erfahrener Kollege agiert, der jedoch klare Anweisungen benötigte. Trotz der kurzen Entwicklungszeit läuft die App laut OpenAI zu 99,9 % stabil. Eine detaillierte Beschreibung des Vorgehens gibt es im Blog von OpenAI.

Read full article about: Columbia-Universität startet Tracker für KI-Deals und Klagen von Medienunternehmen

KI verändert die Medienwelt; manche Medienunternehmen machen mit, andere wehren sich gegen mutmaßliche Copyright-Verletzungen, einige machen beides. Das Tow Center der Columbia University dokumentiert diese Dynamik nun in einem speziellen "AI Deals and Disputes Tracker". Das Werkzeug, Teil des Projekts "Platforms and Publishers", überwacht systematisch Entwicklungen zwischen Nachrichtenverlagen und KI-Unternehmen. Erfasst werden dabei Klagen, geschäftliche Deals sowie finanzielle Zuschüsse, die auf öffentlich zugänglichen Informationen basieren.

via Tow

Die Übersicht wird laut Tow Center jeweils am Monatsanfang aktualisiert; der letzte dokumentierte Stand datiert vom 12. Dezember 2025. Ziel ist es, einen Überblick über die rechtlichen und wirtschaftlichen Verschiebungen im Markt zu geben. Für die Zusammenstellung ist Klaudia Jaźwińska verantwortlich, die auch Hinweise zu fehlenden Entwicklungen entgegennimmt.

Read full article about: Google verbessert "Search Live" mit neuer KI-Stimme

Google stellt seine neue Such-Stimme für "Search Live" vor. Dank eines neuen Gemini-Modells für Audio klingen die Antworten nun natürlicher und flüssiger, teilt Google in seinem Blog mit. Search Live ermöglicht Gespräche in Echtzeit und zeigt dabei passende Webseiten an. Die Funktion ist Teil des sogenannten "AI Mode" der Google-Suche.

Die Aktualisierung wird in der kommenden Woche für alle Search-Live-Nutzer in den USA verfügbar sein. Nutzer können die Google-App auf Android oder iOS öffnen, auf das Live-Symbol tippen und ihre Frage laut stellen.

Das langfristige Ziel ist für Google, wie auch für OpenAI, einen nützlichen Alltagsassistenten zu entwickeln, der dem Nutzer möglichst viele Aufgaben einfach per Sprachbefehl abnehmen kann.