Google stellt mit Magika ein KI-System zur Erkennung von Dateitypen als Open Source zur Verfügung. Es kann binäre und textbasierte Dateitypen schnell und genau erkennen.
Die genaue Erkennung von Dateitypen ist aufgrund der unterschiedlichen Strukturen von Dateiformaten ein schwieriges Problem.
Herkömmliche Erkennungswerkzeuge wie libmagic verlassen sich auf handgemachte Heuristiken und benutzerdefinierte Regeln, die zeitaufwendig und fehleranfällig sein können.
Magika geht diese Probleme mit seinem KI-basierten Modell und seinem großen Trainingsdatensatz an. Es bietet laut Google eine zuverlässigere Methode zur Erkennung von Dateitypen in großem Maßstab.
Magika verwendet ein benutzerdefiniertes Deep-Learning-Modell, das nur 1 MB groß ist und Dateien innerhalb von Millisekunden identifizieren kann, schreibt Google.
In einem Benchmark mit einer Million Dateien übertrifft Magika bestehende Tools um 20 Prozent, bei Textdateien ist die Leistung noch höher.
Intern verwendet Google Magika nach eigenen Angaben, um Gmail-, Drive- und Safe Browsing-Dateien an die richtigen Sicherheits- und Inhaltsrichtlinien-Scanner weiterzuleiten.
Der Open-Source-Ansatz von Magika zielt darauf ab, andere Software bei der Verbesserung der Genauigkeit ihrer Dateierkennung zu unterstützen und Forschern ein zuverlässiges Werkzeug für die Erkennung in großem Maßstab zur Verfügung zu stellen.
Die bevorstehende Integration von Magika mit VirusTotal soll die Effizienz und Genauigkeit der Plattform bei der Erkennung von bösartigem Code verbessern.
Benutzer können die Web-Demo von Magika ausprobieren oder es als Python-Bibliothek und eigenständiges Kommandozeilen-Tool installieren.
Magika ist auf Github unter der Apache2-Lizenz verfügbar und kann als eigenständiges Dienstprogramm und als Python-Bibliothek über den Paketmanager pypi mit dem Befehl "pip install magika" installiert werden.