Anzeige
Short

Das KI-Startup ElevenLabs hat mit Flash ein neues ultraschnelles Sprachsynthese-Modell vorgestellt. Flash erzeugt Sprache in nur 75 Millisekunden plus Anwendungs- und Netzwerklatenz. Das Modell eignet sich besonders für Echtzeit-Sprachagenten mit geringer Latenz. Es ist in der Conversational AI Plattform von ElevenLabs sowie über die API mit den IDs "eleven_flash_v2" und "eleven_flash_v2_5" verfügbar. Flash v2 unterstützt nur Englisch, v2.5 hingegen 32 Sprachen. Beide Modelle kosten 1 Credit pro 2 Zeichen. Laut ElevenLabs übertrifft Flash in Blindtests vergleichbare Modelle mit ultraniedriger Latenz. Die Audioqualität und emotionale Tiefe liegt etwas unter den langsameren Turbo-Modellen.

Short

o2? Can't do! OpenAI hat bei der Namenswahl für sein neues o1-Modell ein Problem: Die Bezeichnung "o2" könnte zu Konflikten mit dem britischen Telekommunikationsanbieter O2 führen. Daher nennt das Unternehmen die nächste Version "o3". OpenAI soll derzeit viele Ressourcen in die Weiterentwicklung des ersten "Reasoning"-Modells o1 investieren. Ein neues, großes LLM mit dem Codenamen "Orion" soll dafür synthetische Trainingsdaten generieren. Microsoft zeigte kürzlich mit dem neuen Phi-4-Modell, wie synthetische Daten in das KI-Training eingebunden werden können, um zumindest in Benchmarks hervorragende Ergebnisse zu erzielen. Der Mit-Erfinder der Phi-Reihe, Sébastien Bubeck, arbeitet mittlerweile bei OpenAI.

Short

Google könnte den ultimativen A/B-Test für KI vs. klassische Suche ausrollen. Das Unternehmen plant offenbar, seinen Milliarden Suchnutzern die Option zu geben, in einen "AI-Modus" zu wechseln, der dem eigenen Gemini-Chatbot ähnlich sieht. Der Schritt ist eine Reaktion auf KI-Konkurrenten wie ChatGPT, die Nutzer mit direkten Antworten locken, anstatt eine Liste von Website-Links anzuzeigen. Der Button würde sich neben den spezifischen Suchen nach Bildern, Produkten, Videos und so weiter einreihen. Die Funktion wäre interessant, da Google so schnell herausfinden könnte, welchen Modus die Suchenden bevorzugen. Allerdings könnte sie auch den kartellrechtlichen Druck auf Google weiter erhöhen, wenn Kritiker argumentieren, dass Google seine marktbeherrschende Stellung ausnutzt, um sich auch bei KI-Chatbots als führend zu etablieren. Das Unternehmen steht bereits unter Beobachtung der US-Justiz.

Bild: via Android Authority
Anzeige
Anzeige
Short

OpenAI kündigt neue Funktionen für seine ChatGPT Desktop-Anwendungen an. Mit Updates für die Funktion "Work with Apps" kann ChatGPT nun Inhalte direkt aus verschiedenen Anwendungen wie Terminals, IDEs und Texteditoren lesen. Beispielsweise können Commits in einem Git-Repository analysiert oder Code für Xcode generiert werden. ChatGPT unterstützt auch Texte aus Apple Notes, Notion und Quip. Die Funktion liest den Inhalt direkt aus der Anwendung, kann aber nicht in die Anwendung schreiben. Der Benutzer muss den Inhalt also weiterhin manuell kopieren. Neu ist auch, dass der Advanced Voice Mode nun Inhalte aus der App vorlesen und Fragen dazu beantworten kann. Das Update ist ab sofort für macOS verfügbar, eine Windows-Version folgt. Unterstützt werden derzeit Apple Notes, Notion, TextEdit, Quip, Xcode, VS Code (inklusive Code, Code Insiders, VSCodium, Cursor, Windsurf), Jetbrains (inklusive Android Studio, IntelliJ, PyCharm, WebStorm, PHPStorm, CLion, Rider, RubyMine, AppCode, GoLand, DataGrip), TextEdit, Terminal, iTerm, Warp und Prompt.

Anzeige
Anzeige
Anzeige
Anzeige
Google News