Anzeige
Skip to content

Kling AI Videogenerator 2.6 kann jetzt Stimmen und Bewegungen präzise steuern

In kaum einem anderen Bereich war der KI-Fortschritt in diesem Jahr so deutlich spürbar wie bei der Videogenerierung. Mit neuen Funktionen für Kling 2.6 legt das chinesische Unternehmen Kuaishou zum Jahresende nach. Das beeindruckt technisch und zeigt, wie eng das KI-Wettrennen ist: international sowie zwischen großen Namen und weniger bekannten Playern.

Read full article about: Nvidia will mit NitroGen universelle KI-Agenten für alle Welten erschaffen

Nvidia hat ein neues Grundlagenmodell für Gaming-Agenten veröffentlicht. NitroGen ist ein offenes Vision-Action-Modell, das auf 40.000 Stunden Gameplay-Videos von mehr als 1.000 Spielen trainiert wurde. Die Forscher nutzten eine bisher kaum erschlossene Ressource: YouTube- und Twitch-Videos mit sichtbaren Controller-Overlays. Mit Template-Matching und einem feinabgestimmten SegFormer-Modell extrahierten sie daraus die Spieler-Eingaben.

NitroGen basiert auf dem Robotik-Modell GR00T N1.5 und ist laut den Forschern das erste Modell, das zeigt, dass Robotik-Grundlagenmodelle als universelle Agenten in virtuellen Umgebungen mit unterschiedlicher Physik und Grafik funktionieren können. Das Modell beherrscht verschiedene Genres: Action-RPGs, Plattformer, Roguelikes und mehr. Bei unbekannten Spielen erreicht es bis zu 52 Prozent bessere Erfolgsraten als Modelle, die von Grund auf trainiert werden.

Die Forscher von Nvidia, Stanford, Caltech und anderen Universitäten haben den Datensatz, die Modellgewichte, das Paper und den Code öffentlich zugänglich gemacht.

Read full article about: Neues KI-Modell von Alibaba macht statische Bilder nachträglich editierbar

Alibabas KI-Einheit Qwen hat ein neues Bild-Editierungsmodell veröffentlicht. Qwen-Image-Layered zerlegt Bilder in mehrere einzelne Ebenen mit transparentem Hintergrund (RGBA-Ebenen). Jede Ebene kann dann unabhängig bearbeitet werden, ohne andere Bildinhalte zu beeinflussen.

Das Modell ermöglicht einfache Bearbeitungen wie Größenänderung, Neupositionierung und Farbänderung einzelner Elemente. Nutzer können etwa den Hintergrund umfärben, Personen austauschen, Texte ändern oder Objekte löschen, verschieben und vergrößern.

Ein Bild kann wahlweise in 3 oder 8 Ebenen zerlegt werden. Zudem lässt sich die Zerlegung beliebig oft wiederholen – jede Ebene kann erneut in weitere Ebenen aufgeteilt werden. Das Qwen-Team bezeichnet den Ansatz als Brücke zwischen normalen Bildern und strukturierten, bearbeitbaren Darstellungen.

Das Qwen-Team stellt den Code bereit. Die Modelle sind auf Hugging Face und ModelScope verfügbar. Weitere Infos liefern der Blog sowie der technische Bericht. Wer es testen will, findet Demos auf Hugging Face und ModelScope.

Read full article about: ChatGPT lässt sich jetzt im Ton anpassen: OpenAI führt neue Personalisierungsoptionen ein

OpenAI ermöglicht Nutzern ab sofort, den Kommunikationsstil von ChatGPT anzupassen. In den "Personalisierung"-Einstellungen lassen sich verschiedene Eigenschaften wie Wärme, Enthusiasmus, die Verwendung von Überschriften und Listen sowie Emojis einstellen. Jede Eigenschaft kann auf "More" oder "Less" gesetzt werden. Zusätzlich gibt es einen Basis-Stil, etwa "effizient" für prägnant formulierte Antworten.

OpenAI erklärt, dass diese Einstellungen nur den Ton und Stil der Gespräche beeinflussen, nicht jedoch die eigentlichen Fähigkeiten des Chatbots. Sehr wahrscheinlich funktioniere diese Vorgaben als Anhängsel der "individuellen Hinweise", die sich im selben Fenster einstellen lassen.

Read full article about: FunctionGemma: Googles lokale Mini-KI steuert Apps und Spiele per Sprache

Google hat FunctionGemma veröffentlicht, eine spezialisierte Version des kleinen Sprachmodells Gemma 3 270M. Das Modell wurde basierend auf dem im August vorgestellten Basismodell gezielt für das sogenannte "Function Calling" erweitert. Damit kann die KI nicht nur Texte generieren, sondern konkrete Befehle an Software weitergeben, um Kalendereinträge zu erstellen oder Spielelemente zu steuern. Über die AI Edge Gallery lässt sich auf Android-Geräten ein Farming-Minispiel ausprobieren, das Prompts wie "Plant the sunflower seed in plot 8" umsetzt. Hier gibt es eine Demo mit Physikrätseln, die sich durch natürliche Sprache direkt im Browser lösen lassen.

Da das Modell sehr kompakt ist, läuft es direkt auf Endgeräten wie Smartphones, was die Datensicherheit erhöht und Verzögerungen minimiert. Laut Google lässt sich die Zuverlässigkeit durch weiteres Training von 58 auf 85 Prozent steigern. FunctionGemma dient als Brücke zwischen natürlicher Sprache und Software und kann auch als "Verkehrsleiter" fungieren, der komplexe Anfragen an größere Modelle weiterleitet. Das Modell ist ab sofort auf Plattformen wie Hugging Face und Kaggle verfügbar.

Read full article about: OpenAI weitet Zugang zu günstigerem ChatGPT-Tarif "Go" deutlich aus

OpenAI hat die Verfügbarkeit seines günstigen Abonnements ChatGPT Go massiv ausgeweitet. Nach dem Start im August in Indien ist das Abo nun in über 70 weiteren Ländern verfügbar, darunter viele in Europa und Südamerika, wie aus einem aktualisierten Hilfe-Dokument hervorgeht. In Deutschland kostet der Zugang 8 Euro monatlich. Neben dem erweiterten Zugriff auf das Flaggschiff-Modell umfasst das Abo auch mehr Möglichkeiten zur Bildgenerierung, Datei-Analyse und Datenauswertung sowie ein größeres Kontextfenster für längere Gespräche. Nutzer können zudem Projekte organisieren und eigene GPTs erstellen. Nicht enthalten sind hingegen der Zugriff auf Sora, die API oder ältere Modelle wie GPT-4o.

Dem breiteren Rollout geht auch eine Sparmaßnahme voran: OpenAI hat den automatischen Modell-Router für Nutzer der kostenlosen Version und des Go-Abos kürzlich entfernt. Anfragen werden nun standardmäßig vom schnelleren GPT-5.2 Instant beantwortet. Nutzer müssen die leistungsfähigeren Reasoning-Modelle nun manuell auswählen, während der automatische Router nur noch in den teureren Tarifen aktiv bleibt.

Read full article about: Meta plant neue KI-Modelle Mango und Avocado für 2026

Meta entwickelt unter den Codenamen "Mango" und "Avocado" neue KI-Modelle für Bilder, Videos und Text. Die Veröffentlichung ist für die erste Jahreshälfte 2026 geplant, berichtet das Wall Street Journal unter Berufung auf interne Aussagen von Metas KI-Chef Alexandr Wang. Wang erklärte in einem internen Q&A mit Produktchef Chris Cox, dass "Mango" auf visuelle Inhalte fokussiert ist, während das Sprachmodell "Avocado" besonders gut im Programmieren sein soll. Zudem erforscht Meta sogenannte Weltmodelle, die ihre Umgebung visuell erfassen.

Hintergrund ist eine Umstrukturierung, bei der CEO Mark Zuckerberg persönlich Forscher von OpenAI abwarb und die Abteilung "Meta Superintelligence Labs" unter Wangs Leitung gründete. Der Markt für Bildgenerierung ist zudem umkämpft. Gerade erst hatte Google mit Nano Banana Pro ein beeindruckendes Modell mit präziser Promptbefolgung veröffentlicht, wenige Wochen später legte OpenAI mit GPT Image 1.5 nach. Zuletzt hatte Meta im April die vierte Generation seiner Llama-Reihe vorgestellt und arbeitet für den Videofeed Vibes mit Midjourney und Black Forest Labs zusammen.

Read full article about: Anthropic veröffentlicht Agent Skills als offenen Standard für KI-Plattformen

Anthropic veröffentlicht "Agent Skills" als offenen Standard unter agentskills.io. Damit sollen Skills plattformübergreifend funktionieren – dieselbe Fähigkeit soll sowohl in Claude als auch in anderen KI-Plattformen nutzbar sein. Anthropic vergleicht den Ansatz mit dem Model Context Protocol (MCP) und arbeitet nach eigenen Angaben bereits mit Partnern aus dem Ökosystem zusammen.

Gleichzeitig erweitert das Unternehmen die Skills-Funktion für Claude. Skills sind wiederholbare Arbeitsabläufe, die den KI-Assistenten an bestimmte Aufgaben anpassen. Administratoren von Team- und Enterprise-Plänen können Skills nun zentral verwalten und für alle Nutzer bereitstellen. Einzelne Nutzer können diese trotzdem deaktivieren.

Zudem wurde das Erstellen von Skills vereinfacht: Nutzer beschreiben ihre Anforderungen, Claude hilft beim Aufbau. Unter claude.com/connectors stellt Anthropic ein Verzeichnis mit Partner-Skills von Notion, Canva, Figma und Atlassian bereit. Die technische Dokumentation für Entwickler findet sich unter platform.claude.com/docs. Skills sind über Claude-Apps, Claude Code und die Entwickler-API verfügbar.