Inhalt
summary Zusammenfassung

Die Studie zeigt, wie Smartphone-Kameras akustische Informationen aus der Umgebung in Pixeln darstellen - auch wenn das Mikrofon ausgeschaltet ist.

Forschende aus den USA zeigen in einer neuen Arbeit, wie Smartphones mit CMOS, OIS und Autofokus akustische Informationen durch subtile Artefakte in Videos hinterlegen. Diese Artefakte entstehen laut dem Team durch Vibrationen der Linse, die durch Umgebungsgeräusche verursacht werden.

Konkret versetzen Umgebungsgeräusche die Gehäuse und beweglichen Kameralinsen von Smartphones in Schwingung. Die winzigen Vibrationen der Linse werden verstärkt und als Rolling-Shutter-Artefakte im Video kodiert, wodurch unmerkliche Bildverzerrungen entstehen, die akustische Informationen enthalten.

Die Studie zeigt den Signalweg und den Modulationsprozess dieses "optisch-akustischen Nebenkanals" und demonstriert, wie KI-Methoden eingesetzt werden können, um akustische Signale zu extrahieren, indem Bewegungen zwischen Video-Frames verfolgt werden.

Anzeige
Anzeige
Bild: Long et al.

Side Eyes ist "im Grunde ein sehr rudimentäres Mikrofon"

"Die meisten heutigen Kameras verfügen über eine so genannte Bildstabilisierungshardware", erklärt Kevin Fu, Professor für Elektrotechnik und Informatik an der Northeastern University. "Es hat sich herausgestellt, dass, wenn man in der Nähe einer Kamera spricht, die über einige dieser Funktionen verfügt, sich das Objektiv leicht bewegt, was als Stimmmodulation bezeichnet wird und die Pixel im Bild verändert." Tausende solcher Bewegungen könnten pro Sekunde aufgezeichnet werden. "Es bedeutet, dass man im Grunde ein sehr rudimentäres Mikrofon erhält", sagt Fu.

In ihren Experimenten mit zehn Smartphones erreichte das Team eine Genauigkeit von knapp 81 Prozent, 91 Prozent und 99,5 Prozent bei der Klassifizierung von zehn gesprochenen Zahlen, 20 verschiedenen Sprechern und dem Geschlecht, wenn die Smartphones in der Nähe von Lautsprechern auf einem Tisch platziert wurden. Dabei ist das Mikrofon ausgeschaltet, das Team hat nur Zugriff auf einen Videostream, die Kamera ist auf den Tisch oder die Decke gerichtet.

Team schlägt Sicherheitsmaßnahmen vor

Mit dieser Methode lässt sich beispielsweise das Geschlecht einer Person, die sich im Raum befindet, aber nicht auf dem Video zu sehen ist, mit einer Genauigkeit von nahezu 100 Prozent bestimmen. Neben dem offensichtlichen Potenzial für Spionage oder andere Angriffe sieht Fu auch Anwendungen in der Strafverfolgung.

"Zum Beispiel in Rechtsfällen oder bei Ermittlungen, wenn es darum geht, die Anwesenheit einer Person zu beweisen oder zu widerlegen, können wir damit wissenschaftlich untermauern, ob jemand wahrscheinlich im Raum war und gesprochen hat oder nicht", sagt Fu. "Das ist ein weiteres Werkzeug, das wir nutzen können, um die Authentizität zu beweisen."

Das Team schlägt auch Hardware-Verbesserungen vor, um die Ursachen von Rolling Shutter und beweglichen Linsen anzugehen. Sie schlagen konkrete Änderungen vor, um die Bedrohung zu verringern, wie die Erhöhung der Verschlusszeit, die Randomisierung der Verschlussmuster und die mechanische Blockierung der Linsenbewegung. Die Kombination mehrerer Abwehrmaßnahmen könnte die Genauigkeit der Methode auf Zufallsniveau senken.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende zeigen, dass Smartphone-Kameras akustische Informationen aus der Umgebung in Pixel hinterlegen. Dies geschieht durch Vibrationen der Linse, die durch Umgebungsgeräusche verursacht werden.
  • Die Studie zeigt, wie KI-Methoden eingesetzt werden können, um diese akustischen Signale aus den subtilen Bildverzerrungen in Videos zu extrahieren.
  • Die Methode ermöglicht die Erkennung von Nummern, Sprechern und Geschlecht mit einer Genauigkeit von über 80 % und in einigen Fällen von fast 100 %.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!