Der Google Assistant versteht jetzt mehr Kontext und kann so besser mit Nachfragen umgehen. Google erklärt, wie das funktioniert.
In natürlichen Unterhaltungen spielen Kontext und Referenzen eine zentrale Rolle, etwa beim Einsatz von Pronomen. Was für uns selbstverständlich ist, kann für virtuelle Assistenten eine echte Herausforderung sein. Wenn wir etwa erst fragen "Wie viele Episoden hat die erste Staffel Rick and Morty?" und mit "Was ist mit Staffel 6?" folgen, ist für Menschen klar, dass wir uns mit der Nachfrage weiter auf "Rick and Morty" beziehen.
Für Künstliche Intelligenz ist dieser Zusammenhang nicht sofort ersichtlich. Doch dank Fortschritten in der maschinellen Verarbeitung natürlicher Sprache kann der Google Assistant (Guide) mittlerweile besser mit solchen kontextbasierten Nachfragen umgehen.
Google Assistant: Kontext durch Umformulierung
In einem neuen Blog-Beitrag dokumentiert Google die Technologie, die dem Google Assistant erlaubt, mit Referenzen umzugehen: Kontexthandhabung durch Umformulierung.
Im Kern formuliert das System die Nachfrage unter Berücksichtigung des Kontexts vorheriger Fragen neu, sodass am Ende fehlende Kontextinformationen in der Umformulierung enthalten sind. Diese neue Frage wird dann vom Google Assistant beantwortet.
Dabei erkennt der Assistant auch, ob die Frage überhaupt eine Nachfrage ist. Eine Frage, in der ohne Kontext ein Pronomen auftaucht, wird vom Assistenten nicht umformuliert und normal beantwortet.
Zusammen mit dem "Continued Conversation"-Modus, bei dem der Google Assistant nach Beantwortung noch einige Sekunden aktiv bleibt, lassen sich so leichter Informationen finden oder das Smartphone steuern.
Google setzt auf Umformulierungen und KI-Scoring
In vielen Fällen ist die Umformulierung jedoch anspruchsvoller als ein bloßer Austausch von Pronomen - etwa wenn Nutzer:innen lediglich die Frage "Wann?" stellen.
Google setzt daher auf ein System, das mehrere Umformulierungen unter Verwendung verschiedener Arten von Generatoren erzeugt. Die unterschiedlichen Kandidaten werden anschließend von einem Machine-Learning-Modell bewertet und die Variante mit dem höchsten Wert wird ausgewählt.
Die Generatoren setzen auf verschiedene Methoden, etwa die Analyse linguistischer Strukturen von Kontext und Nachfrage, Statistiken häufiger Suchanfragen und spezielle Transformer-Modelle, die kontextbasierte Umformulierungen generieren.
Google wählt mehrere Kandidaten jedes Generators aus und bewertet sie mit einem Ranking-Modell nach unterschiedlichen Signalen. Als Beispiele nennt Google die Nähe des umformulierten Themas zum Kontext, wie viele Informationen des Kontexts der Generator bewahrt hat oder die Eigenständigkeit der Anfrage.
Das Ranking-Modell sei in den letzten Monaten dank weiterer von BERT und MUM generierter Signale für die Bewertung deutlich besser geworden. Mittlerweile könne der Google Assistant die meisten kontextbezogenen Anfragen korrekt interpretieren.
Die Technologie kommt übrigens auch abseits linguistischer Referenzen zum Einsatz: Der virtuelle Assistent interpretiere auch Kontext, der auf einem Bildschirm zu sehen ist oder auf einem Lautsprecher zu hören, so Google.