Eine Untersuchung des Cybersicherheits-Start-ups Lasso Security zeigt, dass mehr als 1.500 HuggingFace-API-Token frei zugänglich sind, darunter auch solche von Meta.
Eine kürzlich durchgeführte Untersuchung der für Entwickler wichtigen Plattform HuggingFace hat ergeben, dass mehr als 1.500 API-Token frei zugänglich sind. Laut Lasso Security, einem Start-up-Unternehmen, das sich auf Cybersicherheit für Sprachmodelle und andere generative KI-Modelle spezialisiert hat, macht dies Millionen von Nutzern von Meta Llama, Bloom und Pythia anfällig für potenzielle Angriffe.
HuggingFace ist eine wichtige Ressource für Entwickler, die an KI-Projekten, etwa mit Sprachmodellen, arbeiten. Die Plattform bietet eine umfangreiche Bibliothek von KI-Modellen und Datensätzen, darunter auch die weit verbreiteten Llama-Modelle von Meta.
Die HuggingFace-API ermöglicht es Entwicklern und Organisationen über API-Token, Modelle zu integrieren und Repositories oder Dateien darin zu lesen, zu erstellen, zu verändern und zu löschen. Wer die API-Token kennt, erhält somit oft einen weitreichenden Zugriff.
Lasso Security erhält vollen Zugriff auf Meta-Repositories
Das Team durchsuchte GitHub- und HuggingFace-Repositories mit deren Suchfunktion nach offengelegten API-Tokens. Gemäß den Best Practices, etwa von OpenAI, sollten API-Token aus genau diesem Grund nicht direkt im Code hinterlegt werden.
Das Team von Lasso Security fand bei seiner Suche 1.681 Token und konnte Accounts von großen Organisationen wie Meta, Microsoft, Google und VMware aufdecken. Die Daten ermöglichten dem Team auch vollen Zugriff auf die weit verbreiteten Repositories von Meta Llama, Bloom, Pythia und HuggingFace.
Die Offenlegung einer so großen Anzahl von API-Tokens berge erhebliche Risiken für Organisationen und ihre Nutzer. Lasso nennt einige der wichtigsten Gefahren, die mit offengelegten API-Tokens verbunden sind:
1. Supply-Chain-Schwachstellen: Wenn potenzielle Angreifer vollen Zugriff auf Konten wie Meta Llama2, BigScience Workshop und EleutherAI erhielten, könnten sie bestehende Modelle manipulieren und sie möglicherweise in bösartige Entitäten umwandeln, so das Team. Dies könnte Millionen von Nutzern betreffen, die sich auf diese grundlegenden Modelle für ihre Anwendungen verlassen.
2. Training Data Poisoning: Mit Schreibzugriff auf 14 Datensätze mit zehntausenden und hunderttausenden Downloads pro Monat könnten Angreifer vertrauenswürdige Datensätze manipulieren, die Integrität von darauf basierenden KI-Modellen beeinträchtigen und weitreichende Folgen haben.
3. Modell-Diebstahl: Das Team gibt an, sich mit der Methode Zugang zu mehr als zehntausend privaten KI-Modellen und mehr als 2.500 Datensätzen verschafft zu haben, was zu potenziellen wirtschaftlichen Verlusten, beeinträchtigten Wettbewerbsvorteilen und möglicherweise Zugang zu sensiblen Informationen führen könnte.
Team gibt Sicherheitstipps an Nutzer und HuggingFace
Um diese Sicherheitslücken zu schließen, wird Entwicklern empfohlen, nicht mit fest codierten Token zu arbeiten und Best Practices zu befolgen. HuggingFace sollte außerdem kontinuierlich Scans auf öffentlich offengelegte API-Token durchführen und diese entweder widerrufen oder Nutzer und Organisationen über die offengelegten Token informieren.
Organisationen sollten auch eine Token-Klassifizierung in Betracht ziehen und Sicherheitslösungen implementieren, die IDEs und Code-Reviews inspizieren, die speziell zum Schutz ihrer Investitionen in LLM entwickelt wurden. Wenn diese Probleme umgehend angegangen werden, können Organisationen ihre Abwehrmaßnahmen stärken und die Bedrohungen, die von diesen Schwachstellen ausgehen, abwenden.