IBM integriert die Inferenz-Technologie des Start-ups Groq in seine watsonx-Plattform. Groq verspricht fünfmal schnellere Verarbeitung als mit herkömmlichen GPUs.
IBM und Groq haben eine Partnerschaft angekündigt, die IBM-Kunden Zugang zu Groqs Inferenz-Technologie GroqCloud über watsonx Orchestrate verschaffen soll. Laut der Ankündigung soll die Integration schnellere und günstigere KI-Inferenz für Unternehmenskunden ermöglichen.
Groq setzt auf eine proprietäre LPU-Architektur (Language Processing Unit) statt auf herkömmliche GPUs. Das Unternehmen behauptet, GroqCloud sei über fünfmal schneller und kosteneffizienter als traditionelle GPU-Systeme. IBM nennt als Anwendungsfälle Healthcare-Szenarien, bei denen tausende Patientenfragen gleichzeitig verarbeitet werden sollen, sowie HR-Automatisierung im Retail-Bereich.
Geschwindigkeit für KI-Agenten
Die Partnerschaft plant zudem, RedHat Open-Source-vLLM-Technologie mit Groqs LPU-Architektur zu kombinieren. IBM Granite Modelle sollen ebenfalls auf GroqCloud unterstützt werden. Der Zugang zu GroqCloud-Fähigkeiten soll für IBM-Kunden ab sofort verfügbar sein.
"Viele große Unternehmen haben eine Reihe von Optionen bei der KI-Inferenz, wenn sie experimentieren, aber wenn sie in die Produktion gehen wollen, müssen sie sicherstellen, dass komplexe Workflows erfolgreich eingesetzt werden können", sagt Rob Thomas, SVP Software bei IBM.
Groq wurde 2016 gegründet und hat nach eigenen Angaben über zwei Millionen Entwickler als Nutzer. Das Unternehmen positioniert sich als Alternative zu GPU-basierter Inferenz und bezeichnet sich als Teil des "American AI Stack". Die Partnerschaft zielt darauf ab, die Skalierung von KI-Agenten von der Pilotphase in die Produktion zu erleichtern. Besonders in regulierten Branchen wie Healthcare, Finance, Government, Retail und Manufacturing seien Geschwindigkeit, Kosten und Zuverlässigkeit kritische Faktoren.