Inhalt
summary Zusammenfassung

Das japanische Start-up Rhymes AI hat Aria veröffentlicht, das nach eigenen Angaben weltweit erste quelloffene, multimodale Mixture-of-Experts-Modell. Aria soll bei vergleichbarer Größe mit offenen und kommerziellen spezialisierten Modellen gleichauf sein oder sie übertreffen.

Anzeige

Rhymes AI, ein KI-Start-up mit Sitz in Tokio, hat sein erstes KI-Modell Aria als Open-Source-Software veröffentlicht. Laut dem Unternehmen ist Aria das weltweit erste quelloffene, multimodale Mixture-of-Experts-(MoE)-Modell.

Ein nativ multimodales Modell definiert Rhymes AI als eines, das bei vergleichbarer Kapazität über mehrere Eingabemodalitäten wie Text, Code, Bild und Video hinweg die Verständnisfähigkeiten spezialisierter Modelle erreicht oder übertrifft.

MoE-Modelle ersetzen die Feed-Forward-Schichten eines Transformers durch mehrere spezialisierte Experten. Für jeden Input-Token wählt ein Router-Modul eine Teilmenge der Experten aus, wodurch die Anzahl der aktiven Parameter pro Token reduziert und die Recheneffizienz erhöht wird. Bekannte Vertreter dieser Klasse sind etwa Mixtral 8x7B und DeepSeek-V2. Auch GPT-4 baut mutmaßlich auf dieser Architektur auf.

Anzeige
Anzeige
Aufbau von Arias multimodalem MoE-Decoder.
Bild: Rhymes AI

Der MoE-Decoder von Aria aktiviert 3,5 Milliarden Parameter pro Texttoken und verfügt insgesamt über 24,9 Milliarden Parameter. Ein leichtgewichtiger visueller Encoder mit 438 Millionen Parametern wandelt visuelle Eingaben variabler Länge, Größe und Seitenverhältnis in visuelle Token um. Aria hat ein multimodales Kontextfenster von 64.000 Token.

Rhymes AI hat Aria in vier Phasen vortrainiert: zunächst nur mit Textdaten, dann mit einer Mischung aus Text und multimodalen Daten, gefolgt von Training mit langen Sequenzen und schließlich mit einem Finetuning.

Vierstufiges Flowchart zum Training von Aria.
Bild: Rhymes AI

Insgesamt wurde Aria mit 6,4 Billionen Texttoken und 400 Milliarden multimodalen Token vortrainiert. Das Material stammt unter anderem aus den bekannten Datensätzen von Common Crawl und LAION und wurde teilweise synthetisch angereichert.

Im Vergleich zu Modellen wie Pixtral-12B und Llama-3.2-11B zeigt Aria laut Benchmarks eine überlegene Leistung bei einer Vielzahl von multimodalen, sprachlichen und Programmieraufgaben, und das bei geringeren Inferenzkosten aufgrund der geringeren Anzahl aktivierter Parameter. Darüber hinaus soll Aria auch mit proprietären Modellen wie GPT-4o und Gemini-1.5 bei verschiedenen multimodalen Aufgaben mithalten können.

Benchmark-Vergleiche zwischen Aria und anderen ähnlich großen Open-Source- und kommerziellen Modellen.
Bild: Rhymes AI

Aria erzielt laut Rhymes AI auch bei langen multimodalen Eingaben wie Videos mit Untertiteln oder mehrseitigen Dokumenten gute Ergebnisse. Im Gegensatz zu anderen Open-Source-Modellen soll Aria lange Videos besser verstehen als GPT-4o mini und lange Dokumente besser als Gemini 1.5 Flash.

Empfehlung
Benchmark-Vergleiche zwischen Aria und anderen ähnlich großen Open-Source- und kommerziellen Modellen für Eingaben mit langem Kontext.
Bild: Rhymes AI

Rhymes AI kooperiert mit AMD

Rhymes AI hat den Quellcode von Aria unter der Apache-2.0-Lizenz auf GitHub zur Verfügung gestellt, die sowohl die akademische als auch die kommerzielle Nutzung erlaubt. Um die Einführung zu erleichtern, hat das Unternehmen außerdem ein Trainingsframework veröffentlicht, mit dem sich Aria mit nur einer einzigen GPU auf einer Vielzahl von Datenquellen und -formaten feinabstimmen lässt.

Rhymes AI wurde von ehemaligen Google-KI-Expert:innen gegründet. Ähnliches Ziel wie das einiger anderer aufstrebender KI-Unternehmens ist es, leistungsstarke Modelle zu entwickeln, die für alle zugänglich sind. Das Unternehmen hat 30 Millionen US-Dollar Startkapital erhalten.

Um die Leistung seiner Modelle durch den Einsatz von AMD-Hardware zu optimieren, ist Rhymes AI eine Partnerschaft mit dem Chiphersteller eingegangen. Auf der Konferenz "Advancing AI 2024" von AMD hat Rhymes AI seine für Consumer entwickelte Suchanwendung BeaGo vorgestellt, die auf AMDs MI300X-Beschleuniger läuft und laut Rhymes AI umfassende KI-Suchergebnisse für Text und Bilder liefert.

Video: Rhymes AI

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

In einem Video vergleicht sich BeaGo mit Perplexity und Gemini. Die aktuell kostenlos für iOS und Android verfügbare App beherrscht neben der Suchmaschinenanbindung aktuell jedoch offenbar nur Text- und englische Spracheingabe. Außerdem schlägt sie KI-Zusammenfassungen zu aktuellen Nachrichten vor und verlinkt dabei auf verschiedene Onlineartikel.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das japanische Start-up Rhymes AI hat mit Aria das nach eigenen Angaben weltweit erste quelloffene, multimodale Mixture-of-Experts-(MoE)-Modell veröffentlicht, das bei vergleichbarer Größe mit spezialisierten Modellen gleichauf sein oder sie übertreffen soll.
  • Aria wurde in vier Phasen mit insgesamt 6,4 Billionen Texttoken und 400 Milliarden multimodalen Token vortrainiert und zeigt in Benchmarks eine überlegene Leistung bei multimodalen, sprachlichen und Programmieraufgaben, auch bei langen Eingaben wie Videos mit Untertiteln oder mehrseitigen Dokumenten.
  • Rhymes AI hat den Quellcode von Aria unter einer Open-Source-Lizenz veröffentlicht und kooperiert mit AMD, um die Leistung seiner Modelle durch den Einsatz von AMD-Hardware zu optimieren, wie bei der für Consumer entwickelten Suchanwendung BeaGo.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!