Inhalt
summary Zusammenfassung

Sprachmodelle können im Vergleich zu Menschen extrem schnell Texte generieren. Doch manchen, wie dem Start-up Groq, ist das nicht schnell genug.

Um noch höhere Geschwindigkeiten bei der KI-Ausführung zu erreichen, hat Groq eine spezielle Hardware entwickelt: LPUs (Language Processing Unit).

Diese LPUs wurden speziell für die Ausführung von Sprachmodellen entwickelt und bieten eine Geschwindigkeit von bis zu 500 Token pro Sekunde. Zum Vergleich: Die relativ schnellen LLMs Gemini Pro und GPT-3.5 schaffen je nach Last, Prompt, Kontext und Ausspielung zwischen 30 und 50 Token pro Sekunde.

Der erste "GroqChip" der LPU-Systemkategorie verwendet eine "Tensor-Streaming-Architektur", die laut Groq auf Leistung, Effizienz, Geschwindigkeit und Genauigkeit ausgelegt ist.

Anzeige
Anzeige

Nach Angaben des Start-ups bietet der Chip im Gegensatz zu herkömmlichen Grafikchips (GPUs) eine vereinfachte Architektur, die eine konstante Latenz und einen konstanten Durchsatz ermöglichen. Insbesondere für Echtzeit-KI-Anwendungen wie Games kann das ein Vorteil sein.

Bild: Groq

Außerdem sind LPUs laut Groq energieeffizienter. Sie reduzieren den Aufwand für die Verwaltung mehrerer Threads und vermeiden die Unterauslastung von Kernen, wodurch mehr Berechnungen pro Watt durchgeführt werden können.

Das Chip-Design von Groq ermöglicht die Verbindung mehrerer TSPs ohne die traditionellen Engpässe, die bei GPU-Clustern auftreten. Laut Groq macht dies das System skalierbar und vereinfacht die Hardwareanforderungen für große KI-Modelle.

Die Systeme von Groq unterstützen gängige Machine-Learning-Frameworks, was die Integration in bestehende KI-Projekte erleichtern soll. Groq verkauft die eigene Hardware und bietet auch eine Cloud-API mit Open-Source-Modellen wie Mixtral an. Ihr könnt die Geschwindigkeit von Groq hier mit Mixtral und Llama testen.

 

Empfehlung

LPUs könnten die Bereitstellung von KI-Anwendungen verbessern und in diesem Bereich eine Alternative zu den derzeit stark nachgefragten A100- und H100-Chips von Nvidia darstellen.

Das gilt allerdings nur für die Inferenz, also die Ausführung von KI-Modellen. Für das Training der Modelle benötigen Unternehmen derzeit weiter die bisher gängige Hardware von Nvidia oder ähnliche Chips.

Bild: Groq

Groq wurde 2016 von Jonathan Ross gegründet, der bei Google an den TPU-Chips mitarbeitete.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das Start-up Groq hat eine spezielle Hardware namens Language Processing Unit (LPU) entwickelt, um die Geschwindigkeit der Ausführung von KI-Sprachmodellen zu steigern. Diese LPUs können bis zu 500 Token pro Sekunde verarbeiten.
  • Der "GroqChip", der erste Chip seiner Art in der LPU-Systemkategorie, basiert auf einer "Tensor-Streaming-Architektur", die für hohe Leistung und Effizienz konzipiert ist.
  • LPUs sind kompatibel mit gängigen Machine-Learning-Frameworks und könnten eine Alternative zu den gefragten Nvidia-Chips bieten, allerdings zunächst nur für die Inferenzphase, also die Anwendung fertig trainierter KI-Modelle.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!