Inhalt
summary Zusammenfassung

Das chinesische KI-Unternehmen SenseTime hat auf der World Artificial Intelligence Conference sein neues multimodales KI-Modell SenseNova 5o und das verbesserte LLM SenseNova 5.5 vorgestellt.

Anzeige

SenseNova 5o ist laut SenseTime das erste multimodale Echtzeitmodell Chinas, das multimodale KI-Interaktion auf dem Niveau von GPT-4o bietet. Es verarbeitet Audio-, Text-, Bild- und Videodaten, und Benutzer können mit dem Modell wie in einem Gespräch interagieren.

Laut Sensetime ist es besonders für Echtzeitgespräche und Spracherkennung geeignet. Die von SenseTime gezeigte Demo erinnerte an die GPT-4o-Demo von OpenAI Anfang Mai, inklusive der Vision-Fähigkeiten. So kann das Modell etwa einzelne Objekte erkennen und beschreiben.

Video: via Sensetime

Anzeige
Anzeige

Allerdings zeigte OpenAI neben Sprache viele weitere multimodale Fähigkeiten, insbesondere bei der Bilderzeugung, die Sensetime für SenseNova nicht erwähnt.

SenseTime aktualisiert auch sein großes Sprachmodell SenseNova. Die neue Version 5.5 erreicht laut SenseTime zwei Monate nach ihrer Einführung eine Leistungssteigerung von 30 Prozent gegenüber der Version 5.0.

Für das Training nutzte SenseTime nach eigenen Angaben mehr als zehn Terabyte hochwertiger Daten, darunter viele synthetisch generierte Argumentationsketten zur Verbesserung der Denkfähigkeiten.

Mit deutlich verbesserten Fähigkeiten im mathematischen Denken (+31,5 %), in Englisch (+53,8 %) und im Prompt-Following (+26,8 %) liegen die Interaktivität und viele Kernindikatoren laut Sensetime auf dem Niveau von GPT-4o.

Bild: via Sensetime

Derzeit kommt das SenseNova Large Model laut SenseTime bei mehr als 3.000 Regierungs- und Unternehmenskunden in Branchen wie Technologie, Gesundheitswesen, Finanzen und Programmierung zum Einsatz.

Empfehlung

SenseTime investiert auch in die Entwicklung von Edge-basierten LLMs, die schnell und kostengünstig sind. Mit SenseChat Lite-5.5 wurde die Inferenzzeit auf 0,19 Sekunden reduziert, 40 Prozent schneller als Version 5.0, und die Inferenzgeschwindigkeit wurde um 15 Prozent auf 90,2 Wörter pro Sekunde erhöht.

Der KI-Avatar-Videogenerator Vimi, der Teil von SenseNova 5.5 ist, soll aus einem einzigen Foto bis zu einminütige Clips mit präziser Steuerung von Mimik, Beleuchtung und Hintergrund erzeugen.

Video: via Sensetime

SenseTime CEO Dr. Xu Li sieht 2024 als entscheidendes Jahr für Large Models, die sich von unimodalen zu multimodalen Modellen entwickeln würden. SenseTime konzentriere sich auf die Steigerung der Interaktivität von KI-Modellen. Der CEO verspricht beispiellose Veränderungen in der Mensch-KI-Interaktion.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

SenseTime aus Hongkong gehört zu den am besten finanzierten KI-Unternehmen. Das 2014 gegründete Unternehmen hat in den letzten Jahren vor allem mit visueller Überwachungssoftware via Gesichtserkennung für Schlagzeilen gesorgt.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das chinesische KI-Unternehmen SenseTime hat auf der World Artificial Intelligence Conference sein neues multimodales KI-Modell SenseNova 5o vorgestellt, das laut SenseTime Chinas erstes multimodales Echtzeitmodell der GPT-4o-Klasse ist.
  • Es verarbeitet Audio-, Text-, Bild- und Videodaten, um mit den Benutzern so zu interagieren, als befänden sie sich in einem Gespräch. Darüber hinaus wurde das LLM SenseNova 5.5 in Schlüsselbereichen wie mathematisches Denken, Englisch und Prompt Following verbessert.
  • SenseTime investiert auch in die Entwicklung von kantenbasierten LLMs wie SenseChat Lite-5.5 für schnelle und kostengünstige Inferenzen und den Vimi AI Avatar Video Generator, der aus einem einzigen Foto bis zu einminütige Clips mit präziser Steuerung erzeugen kann.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!