OpenAI entwickelt mit AMD, Intel, Broadcom, Microsoft und Nvidia ein neues Netzwerkprotokoll für KI-Supercomputer
OpenAI hat zusammen mit AMD, Broadcom, Intel, Microsoft und NVIDIA ein neues Netzwerkprotokoll namens MRC (Multipath Reliable Connection) entwickelt.
Es soll die Datenübertragung zwischen GPUs in großen KI-Supercomputern schneller und stabiler machen und damit insbesondere das KI-Training verbessern.
MRC verteilt Datenpakete gleichzeitig über Hunderte Pfade statt über einen einzigen, wodurch Engpässe im Netzwerk nahezu vermieden werden. Bei Ausfällen einzelner Verbindungen leitet das Protokoll den Datenverkehr in Mikrosekunden um – bisher dauerte das Sekunden.
Dadurch können Trainingsläufe auch bei Hardware-Fehlern weiterlaufen, ohne dass GPUs untätig warten. Statt drei oder vier Ebenen von Netzwerk-Switches benötigt MRC nur zwei Ebenen, um über 100.000 GPUs zu verbinden, was Strom und Kosten spart.

MRC ist bereits in OpenAIs größten NVIDIA-GB200-Supercomputern im Einsatz, darunter am Stargate-Standort in Abilene sowie in Microsofts Fairwater-Supercomputern. Während des Trainings eines aktuellen Modells für ChatGPT und Codex mussten vier Switches neu gestartet werden – dank MRC ohne Abstimmung mit dem Trainingsteam.
Die MRC-Spezifikation wurde heute über das Open Compute Project (OCP) veröffentlicht, ein begleitendes Forschungspapier ist ebenfalls verfügbar. An der Entwicklung waren neben OpenAI auch AMD, Broadcom, Intel, Microsoft und Nvidia beteiligt.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren