Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Wer KI-Algorithmen verwendet, ist dabei oftmals mit Beschränkungen bei der Rechenleistung gängiger CPUs konfrontiert. Neue KI-Hardwareoptionen können hier bessere Ergebnisse ermöglichen. Wir stellen einige der wichtigsten Methoden vor.

KI-Algorithmen werden immer häufiger in Alltagsanwendungen, in Unternehmen und in der kritischen Infrastruktur eingesetzt. Ihre Performance im Trainings- oder Inferenzstadium eines Algorithmus wird durch die Rechenleistung der zentralen Rechen- und Steuereinheit (engl.: central processing unit, kurz: CPU) vorgegeben, wo die mathematischen Berechnungen stattfinden.

Mit der Entwicklung und Verbreitung von KI-Algorithmen geht auch die Zunahme an Möglichkeiten einher, die datenintensiven Berechnungen effizienter durchzuführen. Insbesondere neue Grafikprozessoren (engl.: graphics processing unit, GPU) und KI-Beschleuniger wie Googles TPUs können KI-Algorithmen einen Speed-Boost geben.

Alternativen zum Standard-CPU

Eine gewöhnliche Prozessoreinheit, das Herzstück jedes Computers, erhält Befehle in Kombinationen aus 0 und 1, die sie sodann intern berechnet und zur Ausführung an die jeweiligen angeschlossenen Rechenwerke und Peripheriegeräte weitergibt. Die sogenannte Taktung der Prozessoreinheit gibt dabei die Geschwindigkeit vor, in der die Rechenvorgänge verarbeitet werden können.

Anzeige
Anzeige

Werden bestimmte Rechenvorgänge häufiger ausgeführt, lohnt es sich, speziell darauf ausgelegte Prozessoren zu verwenden, um die Berechnungen effizienter auszuführen. Das ist vorrangig bei KI-Algorithmen der Fall, in denen meist sehr große Datenmengen über längere Zeiträume in die Berechnungen einfließen. Die spezialisierte Hardware setzt in der Regel weder zusätzliche Algorithmen ein, noch verwendet sie einen anderen Recheneinsatz – der Unterschied liegt lediglich in der verbesserten Rechenleistung.

Auf der eigenen Grafikkartenkonferenz GTC stellt Nvidia das neueste Mitglied der dedizierten KI-Hardware-Familie für den Rand der Cloud vor.
Nvidia bietet unter anderem mit der Jetson-Chip-Familie auch KI-Hardware speziell für die Robotik an. | Bild: Nvidia

Viele der für KI-Algorithmen eingesetzten Prozessoren ermöglichen beispielsweise, neue KI-Modelle schneller zu erstellen, indem sie Rechenprozesse auf mehrere Prozessoreinheiten gleichzeitig – also parallel – verteilen. Das ist auch der Vorteil der GPUs, die ursprünglich für Grafikberechnungen ausgelegt sind.

Da die Rechenoperationen der Bildverarbeitung jedoch denen von neuronalen Netzen ähneln, eignen sich GPUs auch für viele KI-Berechnungen. Oftmals wird dabei insbesondere die Art und Weise, wie große Datenmengen im Chip ankommen und diesen wieder verlassen, den spezifischen Anforderungen entsprechend angepasst.

KI-Hardware für unterschiedliche Anforderungen

Die Hardwareanforderungen für Training und Inferenz sind unterschiedlich hoch – vorwiegend das Training, bei dem Algorithmen in Millionen und Milliarden von Datenpunkten Muster erkennen, profitiert von der Parallelisierung. Wurde das Modell einmal erstellt, sinken die Rechenanforderungen.

Einige CPU-Hersteller entwickeln daher sogenannte KI-Inferenzchips, die ausschließlich für das Ausführen der Modelle gedacht sind. Grundsätzlich profitieren jedoch auch fertig trainierte Modelle von parallelen Architekturen.

Empfehlung

Während traditionelle PCs in ihrer Anordnung eine Trennung zwischen Speicher und CPU vorsehen, verbauen GPU-Hersteller Speicher mit hohen Zugriffsgeschwindigkeiten direkt auf die Platine. So lassen sich rechenintensive KI-Modelle direkt auf dem Grafikkarten-Speicher laden und ausführen. Durch die Einsparung der sonst benötigten Zeit für die Anordnung und den Transfer der Daten können die arithmetischen Berechnungen wesentlich schneller vonstattengehen.

Abseits der weit verbreiteten GPUs und CPUs gibt es mittlerweile auch kompakte KI-Chips, die etwa in der Edge in Smartphones oder Automatisierungssystemen verbaut sind und häufig vorkommende Aufgaben wie Spracherkennung effizienter und mit weniger Stromverbrauch erledigen können.

Außerdem experimentieren einige Forschende mit analogen elektrischen Schaltkreisen, die sich in ihrer Methodik jedoch stark von den Schaltkreisen in herkömmlichen CPUs unterscheiden. Hier schafft die besondere Bauweise einen großen Vorteil, Aufgaben schneller, genauer, strom- sowie platzsparend berechnen lassen.

Beispiele für KI-Hardware

Grafikprozessoren oder GPUs sind noch immer die verbreitetste KI-Hardware, die für die Verarbeitung insbesondere von Aufgaben des Maschinellen Lernens umgenutzt werden. Durch den bereits erwähnten Vorteil der umfangreichen Parallelisierung bieten GPUs häufig mehrere hundertfach schnellere Rechenzeiten als CPUs.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Auf das maschinelle Lernen angepasste Architekturen vernachlässigen die Displayfähigkeit, der die Grafik beim Gaming ursprünglich dient, zugunsten der Beschleunigung von KI-Lernalgorithmen. Zu ihnen zählen etwa Angebote von Nvidia wie die A100- oder H100-Systeme oder Produkte von AMD. Nvidia bestimmt dabei den Markt und die Produkte des Techkonzerns sind in Supercomputern überall auf der Welt verbaut.

Einige Unternehmen wie Google entwickeln zusätzlich eigene Hardware, die auf KI-Anwendungen spezialisiert sind. Googles TPUs (engl: tensor processing unit) gibt es mittlerweile in der vierten Generation.

Überdies gibt es KI-Chips, die genau auf unterschiedliche Teile des ML-Prozesses zugeschnitten sind – etwa auf die Handhabung großer Datenmengen, die Bearbeitung neuer Dateninputs, oder auf einen effizienten Einsatz in Geräten mit begrenzten Platz- oder Batterie-Ressourcen wie Smartphones.

Aber auch herkömmliche CPUs werden vermehrt den Anforderungen von ML-Aufgaben angepasst, indem ihre internen Berechnungen mit weniger Genauigkeit, dafür aber weitaus schneller durchgeführt werden

Außerdem ermöglichen viele Cloud-Serviceprovider, rechenintensive Vorgänge parallel über dutzende oder hunderte Prozessoren auf mehreren Maschinen durchzuführen.

Die wichtigsten Herstellerfirmen für KI-Hardware

Einen Großteil der GPUs für Maschinelles Lernen produzieren die Firmen Nvidia und AMD. Nvidia ermöglicht etwa durch den Einsatz sogenannter „Tensor Cores“ präzisere Rechenoperationen beim Training von ML-Modellen.

Die H100-Karten unterstützen zudem mit der Transformer Engine die Mischung verschiedener Genauigkeiten. AMD bietet mit der CDNA-2- und den 2023 erscheinenden CDNA-3-Architektur einen eigenen Ansatz, um GPUs den Anforderungen des Maschinellen Lernens anzupassen.

Google stellt mit den bereits erwähnten TPUs eine eigene Hardware zur Beschleunigung von ML-Berechnungen her. Sie können hauptsächlich über Googles Cloud-Plattform gemietet werden, wobei eine Reihe zugehöriger Tools und Bibliotheken den Gebrauch erleichtern soll.

Google TPUv3-Server
Ein Google Cloud-Server mit TPU v3-Chips für das KI-Training. | Bild: Google

Alle Google Services, die maschinelles Lernen verwenden, basieren auf TPUs. Das TPU-Design findet sich auch in einigen Smartphones der Google-Pixel-Produktlinie wieder. Hier werden die Berechnungen für ML-Aufgaben wie Spracherkennung, Live-Übersetzungen oder Bildbearbeitung meist lokal ausgeführt.

Alle großen Cloud-Unternehmen wie Amazon, Oracle, IBM und Microsoft haben GPUs oder andere KI-Hardware installiert. Amazon hat mit Graviton zusätzlich eine eigene Chipserie entwickelt, die auf der ARM-Architektur beruht und Berechnungen unter Einbüßen von Genauigkeit, jedoch zugunsten von Schnelligkeit ausführt.

Amazons SageMaker zählt mit Google’s CoLab oder AutoML, Microsofts Machine Learning Studio sowie IBMs Watson Studio zudem zu einer neuen Kategorie Frontend-Anwendungen, bei denen sich spezielle Hardware ohne das Wissen der Kund:innen hinter einem Interface verbergen kann.

KI-Chips werden inzwischen auch von zahlreichen Start-ups produziert: Zu ihnen zählen etwa D-Matrix, ein kalifornisches Unternehmen, das die arithmetischen Berechnungen näher an den im Arbeitsspeicher befindlichen Daten vornehmen lässt; eine Technologie, die man „in-memory computing“ (IMC) nennt.

Ein Ausschnitt des riesigen Cerebras Chips, ein bronzefarbenes, strukturiertes Muster mit Punkten, die untereinander verbunden sind
Cerebras Super-Chip soll die KI-Performance explodieren lassen. | Bild: Cerebras

Einen ähnlichen Ansatz, bei dem die Berechnungen sogar direkt in den RAM-Zellen stattfinden – sogenanntes „at memory computing“ – entwickelt derzeit das Start-up Untether. Mit dieser Methodik wird in nur einer Chipkarte eine erheblich hohe Rechenleistung von zwei Petaops erzielt.

Weitere Start-ups wie Graphcore, Cerebras oder Celestial entwickeln ebenfalls in-memory computing, Chips mit unterschiedlichen Bauweisen oder sogar lichtbasierte Logiksysteme, mit denen sich KI-Berechnungen weitaus schneller ausführen lassen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • KI-Algorithmen haben oft Einschränkungen bei der Rechenleistung von gängigen CPUs.
  • Neue Hardware-Optionen können die KI-Performance verbessern, wie zum Beispiel Grafikprozessoren (GPUs) und KI-Beschleuniger wie Googles TPUs.
  • Für Training- und Inferenz-Stufen von KI-Algorithmen gibt es unterschiedliche Hardware-Anforderungen, wobei spezialisierte Hardware für beide Stufen benötigt werden kann.
Sarah ist Mathematikerin, Programmiererin und Teilzeit-Philosophin. Ihr Fokus liegt auf den ethischen und gesellschaftlichen Zukunftsfragen von Künstlicher Intelligenz.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!