Das Gemini-basierte Google Translate lässt sich mit Worten hacken. Nutzer können über sogenannte Prompt Injection, also eingeschleuste Anweisungen in natürlicher Sprache, das dahinterliegende Sprachmodell direkt ansprechen, statt nur Übersetzungen zu erhalten. Entdeckt wurde der Trick von einem Tumblr-Nutzer (via LessWrong). Die Methode funktioniert, indem man eine Frage in einer Fremdsprache wie Chinesisch eingibt und darunter eine englische Meta-Anweisung anfügt. Google Translate beantwortet dann die Frage, statt den Text zu übersetzen.

Der LLM-Hacker "Pliny the Liberator" zeigte auf X, dass sich so sogar gefährliche Inhalte wie Anleitungen für Drogen oder Schadsoftware erzeugen lassen.

Google stellte Google Translate im Dezember 2025 auf Gemini-Modelle um. Welches Modell genau zum Einsatz kommt, ist nicht bekannt; das System selbst behauptet, es nutze Gemini 1.5 Pro. Der Fall zeigt erneut, dass auch große Konzerne noch keine verlässlichen Schutzmaßnahmen gegen natürlichsprachige Angriffe haben, ein grundlegendes Sicherheitsproblem von Sprachmodellen.
