Live-Transkriptionen in Microsoft Teams sollen zukünftig Notizen überflüssig machen.
Wer regelmäßig Smart-Home-Assistenten wie Alexa oder Google Assistant nutzt, weiß: Die Sprachverarbeitung Künstlicher Intelligenz hat in den letzten Jahren massiv an Qualität gewonnen. Die Systeme verstehen Anfragen exakter und geben bessere Antworten.
Microsoft bringt die Fortschritte moderner Sprach-KI jetzt in Teams mit einer neuen Transkriptionsfunktion, die Unterhaltungen während einer Teams-Sitzung beinahe in Echtzeit mitschreiben kann. Das Transkript wird nach einem Telefonat als Download bereitgestellt.
Das ist praktisch, um das Gespräch im Nachhinein zu durchsuchen, es zum Beispiel im Unternehmen zu verschicken - oder falls man kurz eingenickt ist nach der achten Videoschalte in fünf Stunden. Laut Microsoft sind die Transkriptionen nicht perfekt, aber gut genug, um händische Mitschriften zu ersetzen.
Kontextdatenverarbeitung für besseres Sprachverständnis
Shalendra Chhabra, Microsofts Sprach-KI-Experte für Teams, bezeichnet die nahezu latenzfreie, kosteneffiziente und akkurate KI-Transkription für große Konzerne als "eine der größten Herausforderungen der Industrie".
"In den letzten zwei Jahren erzielten wir signifikante Fortschritte bei der Lösung dieses Problems und konnten die Akkuratheit unserer Modelle durch neue KI-Technologie dramatisch steigern, indem wir in Echtzeit den Kontext eines Meetings berücksichtigen", schreibt Chhabra zur Ankündigung der neuen KI-Transkription.
Die KI verarbeitet Daten wie die Einladung für das Treffen, die Namen der beteiligten Personen oder Anhänge für zusätzlichen Kontext und eine akkuratere Transkription. Sie lernt so außerdem Meeting-spezifische Sprache und Fachausdrücke kennen, die sie in der Transkription entsprechend berücksichtigen kann.
Die für die Transkription erstellten Modelle werden laut Microsoft direkt nach der Sitzung wieder gelöscht. Niemand bei Microsoft sehe die Meeting-Daten, sie würden auch nicht für das KI-Training verwendet.
Die KI-Transkription ist zunächst nur für englische Sprache und Microsoft 365 Abonnenten verfügbar mit einer E3, E5, Business Standard oder Business Premium Lizenz. Sie muss von einem Admin freigeschaltet und dann vom Meeting-Organisator gestartet werden.
Microsoft setzt auf neue KI-Technik
Chhabra geht zwar nicht auf technische Details der Teams-KI ein, aber wahrscheinlich setzt Microsoft bei der Sprachverarbeitung auf sogenannte Transformer KI-Technik, die entsprechende Modelle mehr Kontext verarbeiten lassen. Im MIXEDCAST #228 erklären wir Transformer im Detail.
Diesen auch als "Aufmerksamkeit" bezeichneten Mechanismus verwendet Microsoft beispielsweise in der Open Source Sprach-KI DeBERTa, die kürzlich den anspruchsvollen Maschinensprachtest SuperGLUE lösen konnte. Gut möglich, dass DeBERTa in der Teams-Innovation steckt: Microsoft kündigte an, dass die KI-Technologie in die eigene Software integriert werden soll.
Transformer sind maßgeblich verantwortlich für die großen Fortschritte von Sprach-KI in den letzten Monaten und Jahren und stecken beispielsweise in OpenAIs revolutionärer Sprach-KI GPT-3 - zu der sich Microsoft im Herbst 2020 einen exklusiven Zugang kaufte.
Zuvor startete Microsoft im Sommer 2020 einen Prozess, menschliche Redakteure auf der eigenen News-Plattform MSN durch eine Text-KI zu ersetzen.