Der chinesische Technologiekonzern Baidu hat auf seiner World Conference neue KI-Produkte vorgestellt. Im Mittelpunkt stehen eine Kamera-Brille auf LLM-Basis und ein Bildgenerator, der präziser arbeiten soll als bisherige Systeme.
Baidu-CEO Robin Li stellte auf der Baidu World Conference mehrere neue KI-Produkte vor. Eines davon ist I-RAG, eine Text-zu-Bild-Technologie, die laut Li das Problem von "Halluzinationen" bei der Bilderzeugung reduzieren soll, bei denen Bilder vom Eingabetext abweichen oder nicht vorhandene Elemente enthalten.
Wie Reuters und die Financial Times berichten, soll I-RAG mit Hilfe von Baidus Suchfunktionen und Retrieval-Augmented Generation (RAG) die Genauigkeit der erzeugten Bilder verbessern. Dabei geht es vor allem um eine bessere Übereinstimmung zwischen eingegebenem Text und generiertem Bild.
Li verwendet den Begriff Halluzinationen hier offenbar im Sinne dessen, was Hersteller von Bildmodellen normalerweise als "Prompt Alignment" beschreiben, also wie gut ein Modell einen Prompt versteht und visualisiert. Im Zusammenhang mit KI werden unter Halluzinationen in der Regel Falschaussagen von Textgeneratoren verstanden, die als Fakten präsentiert werden.
Li präsentierte auch aktuelle Nutzungszahlen der KI-Plattform Ernie, die das Unternehmen als chinesische Alternative zu ChatGPT sieht: Das System verarbeitet mittlerweile 1,5 Milliarden Nutzeranfragen pro Tag.
Ob und wie viel Wachstum sich dahinter verbirgt, ist schwer zu sagen: Im Mai war die Rede von 200 Millionen Aufrufen pro Tag die Rede. In jedem Fall ist es eine viel geringere Nutzung als bei ChatGPT. Neben dem Angebot für Endnutzer will Baidu mit KI-Diensten auch das eigene Cloud- und API-Angebot stärken.
KI-Brille soll als persönlicher Assistent dienen
Baidus Hardware-Sparte Xiaodu stellte eine neue Brille mit integriertem KI-Assistenten vor. Nach Angaben von Xiaodu-Chef Li Ying soll die mit Kameras ausgestattete und auf dem Sprachmodell Ernie basierende Brille als "persönlicher Assistent" dienen.
Das Gerät ermöglicht es den Trägern, Fotos und Videos aufzunehmen sowie per Sprache zu interagieren. Zu den Funktionen gehören die Verfolgung des Kalorienverbrauchs, Musikwiedergabe und die Beantwortung von Fragen zur Umgebung. Das Konzept erinnert an die KI-Funktionen in Metas Smart-Brillen.
Die vollständige Baidu World 2024 Show kann man hier ansehen. Der Trailer für das Gerät beginnt bei 02:05:26.
Überdies kündigte Baidu den Code-Generator Miaoda an, der ebenfalls auf dem hauseigenen Sprachmodell basiert. Das Tool soll die Entwicklung von Softwareanwendungen ohne umfangreiche Programmierkenntnisse ermöglichen.