Anzeige
Skip to content
Read full article about: Waymo plant offenbar tiefere Integration von Googles Gemini-Modellen in seine Flotte

Hier ist was für alle Prompt-Ingenieure: Jane Manchun Wong hat den System-Prompt für Waymos unveröffentlichten Gemini-KI-Assistenten entdeckt. Die Technikerin fand im Code der Waymo-App eine über 1.200 Zeilen lange Spezifikation, die das Verhalten des KI-Assistenten in selbstfahrenden Fahrzeugen definiert.

Der Assistent basiert (noch) auf Gemini 2.5 Flash und soll Fahrgäste während der Fahrt unterstützen. Er kann Fragen beantworten, die Klimaanlage steuern und Musik wechseln, darf aber das Fahrzeug nicht lenken oder die Route ändern. Die Anweisungen trennen klar zwischen dem KI-Assistenten (Gemini) und dem autonomen Fahrsystem (Waymo Driver).

Waymos System-Prompt zeigt das Trigger-Instruction-Response-Muster: Ein Auslöser definiert die Situation, die Anweisung das gewünschte Verhalten, Beispiele zeigen falsche und richtige Antworten. | Bild: Jane Manchun Wong

Der Prompt nutzt primär ein Trigger-Instruction-Response-Muster: Jede Regel definiert einen Auslöser, eine Handlungsanweisung und oft konkrete Beispielantworten. Falsche und richtige Antworten werden direkt gegenübergestellt, um das gewünschte Verhalten zu verdeutlichen. Für mehrdeutige Anfragen gilt: erst klären, dann schlussfolgern, zuletzt ablenken. Harte Grenzen setzen Verbotslisten mit Ausweichantworten durch. Mehr Details gibt es in Wongs Analyse.

Read full article about: Salesforce-Manager: Vertrauen in große Sprachmodelle ist im letzten Jahr gesunken

Laut Führungskräften von Salesforce ist das Vertrauen in große Sprachmodelle (LLMs) in diesem Jahr gesunken. Das Unternehmen setzt bei seinem KI-Produkt Agentforce nun verstärkt auf einfache, regelbasierte Automatisierung und reduziert in manchen Anwendungsfällen die Abhängigkeit von generativer KI, berichtet The Information.

"Wir alle hatten vor einem Jahr mehr Vertrauen in das LLM", sagte Sanjna Parulekar, Senior Vice President für Produktmarketing bei Salesforce. Probleme seien die inhärente Zufälligkeit und Unvorhersehbarkeit von LLMs sowie deren Tendenz, bei vielen Anweisungen einzelne zu ignorieren. Ein weiteres Problem ist der sogenannte "Drift": KI-Agenten verlieren ihre ursprünglichen Ziele aus den Augen, sobald Nutzer ablenkende Fragen stellen – ein auch durch Salesforce-Studien belegtes Phänomen.

Ein Salesforce-Sprecher widersprach der Darstellung, dass das Unternehmen bei LLMs zurückrudere. Man gehe lediglich bewusster damit um, wo und wie man Sprachmodelle einsetze. Salesforce zufolge ist das KI-Angebot Agentforce aktuell auf Kurs, jährlich über 500 Millionen Dollar umzusetzen. Die Software ermöglicht es, deterministische Regeln um die Fähigkeiten von Sprachmodellen zu bauen.

Read full article about: Bericht: OpenAI könnte gesponserte Inhalte direkt in ChatGPT-Antworten einbauen

OpenAIs Werbepläne in ChatGPT werden konkreter. Mitarbeiter diskutieren laut The Information verschiedene Werbeformate für den Chatbot. Eine Option: KI-Modelle könnten gesponserte Inhalte bevorzugt in Antworten einbauen. Bei einer Frage nach Mascara-Empfehlungen würde dann etwa eine Sephora-Werbung erscheinen. Interne Entwürfe zeigen zudem Werbung in einer Seitenleiste neben dem Antwortfenster.

Eine weitere Variante sieht vor, Anzeigen erst im zweiten Schritt zu zeigen, wenn Nutzer mehr Informationen wünschen. Fragt jemand nach einer Barcelona-Reise und klickt auf einen Vorschlag wie die Sagrada Família, könnten gesponserte Links zu Tourangeboten erscheinen. Ein Sprecher bestätigte, dass das Unternehmen prüft, wie Werbung im Produkt aussehen könnte, ohne das Vertrauen der Nutzer zu enttäuschen.

OpenAI-CEO Sam Altman bezeichnete in der Vergangenheit durch Werbung beeinflusste KI-Antworten als dystopische Zukunft, insbesondere wenn diese Empfehlungen sich aus bisherigen, privaten Gesprächen mit dem Chatbot ergeben. Genau daran soll OpenAI angeblich arbeiten: Werbung auf Basis der ChatGPT-Memory-Funktion, die persönliche Gesprächsverläufe für zielgerichtete Anzeigen nutzen könnte.

Read full article about: Qwen verbessert Bildbearbeitungsmodell für höhere Konsistenz bei Personen

Qwen verbessert sein kürzlich veröffentlichtes Bildbearbeitungsmodell. Das chinesische KI-Unternehmen hat Qwen-Image-Edit-2511 auf Hugging Face veröffentlicht, eine erweiterte Version des Vorgängers Qwen-Image-Edit-2509. Die wichtigste Neuerung ist eine stark verbesserte Konsistenz bei der Bearbeitung von Personen. Das Modell kann laut Qwen nun kreative Änderungen an Porträts vornehmen und dabei die Identität der abgebildeten Person besser bewahren. Auch Gruppenfotos mit mehreren Personen lassen sich jetzt besser bearbeiten.

Qwen

Weitere Verbesserungen betreffen die Lichtsteuerung, neue Blickwinkel, industrielles Produktdesign und geometrische Berechnungen. Qwen hat zudem beliebte LoRAs (kleine Zusatzmodelle) aus der Community direkt ins Basismodell eingebaut. Das Modell steht unter der Apache-2.0-Lizenz zur Verfügung. Eine Demo ist auf Hugging Face abrufbar, das Modell kann auch über Qwen Chat kostenlos getestet werden.

Read full article about: GitHub-Repository bietet mehr als 50 anpassbare Claude Skills

Auf GitHub gibt’s eine umfassende Sammlung von "Claude Skills". Diese Skills sind anpassbare Workflows, die Anthropics KI-Assistenten Claude beibringen, bestimmte Aufgaben wiederholt und standardisiert auszuführen. Die Sammlung umfasst mehr als 50 Skills in neun Kategorien: Dokumentenverarbeitung (Word, PDF, PowerPoint), Entwicklungstools (Playwright, AWS, Git), Datenanalyse, Business und Marketing, Kommunikation, kreative Medien, Produktivität, Projektmanagement sowie Sicherheit.

Nutzer können Skills in Claude.ai über die Einstellungen hinzufügen, in Claude Code im Konfigurationsordner ablegen oder per API einbinden. Jeder Skill besteht aus einem Ordner mit einer SKILL.md-Datei. Das Repository steht unter Apache-2.0-Lizenz und nimmt Beiträge entgegen.

Da Skills letztlich nur eine Sammlung von Prompts in einem Ordner sind, gilt: Wer viel aus KI herausholen will, muss die Prompts individualisieren. Inspiration lässt sich dennoch holen. Da Skills sich als Standard zu etablieren scheinen, lohnt es sich auch über Claude.ai hinaus, sich mit dem Thema zu befassen.

Read full article about: KI-Coding-Modell GLM-4.7 merkt sich Gedankengänge über lange Dialoge

Zhipu AI stellt mit GLM-4.7 ein auf autonomes Programmieren spezialisiertes KI-Modell vor, das dank "Preserved Thinking" Gedankengänge über lange Dialoge speichert. Diese neue Funktion ergänzt das seit GLM-4.5 bekannte "Interleaved Thinking", bei dem die KI vor Aktionen pausiert. Im Vergleich zum Vorgänger GLM-4.6 erzielt das Modell deutliche Leistungssteigerungen, etwa 73,8 Prozent im SWE-bench Verified. Neben reinem Code generiert GLM-4.7 laut Anbieter auch ästhetisch ansprechendere Webseiten und Präsentationen ("Vibe Coding"). Im Blogbeitrag stellt Zhipu einige Webseiten vor, die aus einem einzigen Prompt entstanden sein sollen.

In mehreren Benchmarks wird das Kopf-an-Kopf-Rennen mit kommerziellen, westlichen Anbietern wie OpenAI und Anthropic deutlich.

Das Modell ist über die Z.ai-Plattform, OpenRouter sowie als lokaler Download auf Hugging Face verfügbar und lässt sich direkt in Coding-Tools wie Claude Code integrieren. Z.ai wirbt dabei mit einem Kampfpreis von einem Siebtel der Kosten vergleichbarer Modelle.

Read full article about: Stimmen-Klonen aus drei Sekunden Audio: Qwen veröffentlicht neue TTS-Modelle

Das Qwen-Team von Alibaba Cloud hat zwei neue KI-Modelle veröffentlicht, die Stimmen per Textbefehl entwerfen oder klonen. Das Modell Qwen3-TTS-VD-Flash erlaubt es Nutzern, Stimmen durch detaillierte Beschreibungen zu generieren und dabei Eigenschaften wie Emotionen und Sprechtempo exakt festzulegen, etwa: "Male, middle-aged, booming baritone - hyper-energetic infomercial voice with rapid-fire delivery and exaggerated pitch rises, dripping with salesmanship". Es soll laut Hersteller in Tests besser abschneiden als OpenAIs im Frühjahr eingeführte API für GPT-4o-mini-tts.

Ergänzend kopiert das Modell Qwen3-TTS-VC-Flash Stimmen anhand von nur drei Sekunden Audio-Material und gibt diese in zehn Sprachen, darunter Deutsch, wieder. Qwen gibt an, dass die Fehlerrate dabei geringer ist als bei Elevenlabs oder MiniMax. Die KI verarbeitet auch komplexe Texte und kann sogar Tierstimmen imitieren oder Stimmen aus Aufnahmen extrahieren. Beide Modelle sind über die API von Alibaba Cloud verfügbar. Demos stehen sowohl für das Design- als auch das Klon-Modell auf Hugging Face bereit.