Anzeige
Short

Luma hat Ray2 vorgestellt, ein neues KI-Modell für die Videogenerierung. Ray2 wurde laut Luma mit der zehnfachen Rechenleistung von Ray1 trainiert und nutzt eine neue multimodale Architektur. Das Modell soll realistische Videos mit natürlichen, kohärenten Bewegungen und ultrarealistischen Details erzeugen sowie logische Ereignissequenzen darstellen. Die Text-zu-Video-Generierung ist ab sofort in der Dream Machine von Luma für zahlende Abonnenten verfügbar. Bild-zu-Video-, Video-zu-Video- und Bearbeitungsfunktionen sollen bald folgen. Ray2 wird in Kürze auch über die Luma-API verfügbar sein.

Video: Luma AI

Short

Die KI-Avatar-Plattform Synthesia erhält 180-Millionen-US-Dollar-Finanzierung in einer Series-D-Runde. Das 2017 gegründete Unternehmen ermöglicht mit seiner Plattform die Erstellung von KI-generierten Videos und Avataren. Synthesia generiert laut eigenen Angaben monatlich Millionen von KI-Video-Minuten und arbeitet mit 60 Prozent der Fortune-100-Unternehmen zusammen. Mit dem frischen Kapital will Synthesia neue interaktive und personalisierte Videos ermöglichen, die KI-Avatare mit Large Language Models und einem neuen Videoplayer kombinieren.

Short

OpenAI kauft Inhalte von Axios für ChatGPT. Im Gegenzug finanziert OpenAI die Expansion von Axios in vier US-Städte, und Axios erhält Zugang zur OpenAI-Technologie. Hier kommt mein üblicher Disclaimer: Diese und ähnliche Deals mögen gut für die von OpenAI ausgewählten Medienunternehmen sein. Aber sie sind wahrscheinlich auch eine Katastrophe für die Medienvielfalt, und mittel- bis langfristig könnten sie die Medienbranche in eine noch stärkere Abhängigkeit von Tech-Unternehmen treiben, wenn sie ihre eigenen Publikationsplattformen zugunsten von KI-Chatbots aufgeben. Der Journalismusprofessor Jeff Jarvis bezeichnete die Zahlungen von OpenAI kürzlich als Schweigegeld, um weitere Urheberrechtsklagen zu verhindern. OpenAI hat nach eigenen Angaben fast 20 Deals mit Verlagen abgeschlossen und hat damit Zugang zu den Inhalten von mehr als 160 Nachrichtenportalen.

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Short

Das Open-Source-Sprachmodell Kokoro wurde auf HuggingFace veröffentlicht. Mit 82 Millionen Parametern kann es Stimmen erzeugen, die an das Niveau kommerzieller Anbieter wie Eleven Labs heranreichen, wie die Ergebnisse der TTS Spaces Arena zeigen. Kokoro unterstützt amerikanisches und britisches Englisch und wurde mit weniger als 100 Stunden Audiomaterial trainiert. Aktuell sind 10 Stimmen verfügbar. Es hat aber Einschränkungen, wie fehlende Stimmklon-Fähigkeiten und weitere Sprachen sind bisher nicht geplant. Der Quellcode für die Inferenz steht unter MIT-Lizenz zur Verfügung, während das Modell selbst unter Apache 2.0 lizenziert ist.

Google News