Googles multimodales KI-Modell Gemini soll ab Herbst mit OpenAIs GPT-4 konkurrieren und auch Entwicklern von KI-Anwendungen zur Verfügung stehen.
Das berichtet "The Information" unter Berufung auf eine anonyme Person, die an der Entwicklung von Gemini beteiligt ist.
Gemini sei "eine Gruppe großer KI-Modelle", so die Quelle, was darauf hindeutet, dass Google ähnlich wie OpenAI mit GPT-4 ein Expertennetzwerk aus mehreren KI-Modellen mit spezifischen Fähigkeiten aufbauen könnte. Allerdings könnte hier auch gemeint sein, dass Google Gemini in verschiedenen Größen zur Verfügung stellen will.
Gemini soll neben Text auch Bilder generieren können. Da Gemini zudem mit zahlreichen YouTube-Video-Transkripten trainiert wurde, könnte es ähnlich wie RunwayML Gen-2 oder Pika Labs auch für die Generierung einfacher Videos geeignet sein. Ebenso soll Gemini über deutlich verbesserte Coding-Fähigkeiten verfügen.
Google plant, Gemini allmählich in eigenen Produkten wie dem Chatbot Bard und Google Docs oder Slides einzusetzen. Darüber hinaus soll Gemini bis Ende des Jahres auch als Cloud-Produkt für externe Entwickler über eine API zugänglich sein.
Gigantischer Marktstart mit riesigem Personalaufwand
Laut The Information arbeiten mindestens zwei Dutzend Manager an der Entwicklung des Modells. Das Gemini-Team, bestehend aus Google Brain und Deepmind, soll mehrere hundert Mitarbeitende umfassen.
Google Deepmind wurde erst vor Kurzem fusioniert und ist laut The Information noch auf der Suche nach dem richtigen Gleichgewicht, etwa bei den Regeln für Homeoffice oder der Technologie, mit der die Modelle trainiert werden sollen. Deepmind soll seinen eigenen ChatGPT-Rivalen mit dem Codenamen "Goodall", der auf einem nicht angekündigten Modell namens "Chipmunk" basiert, zugunsten von Gemini aufgegeben haben.
Angeführt wird das Team von Deepmind-Gründer Demis Hassabis, unterstützt von zwei Deepmind-Entscheidern, Oriol Vinyals und Koray Kavukcuoglu, sowie dem ehemaligen Google-Brain-Chef Jeff Dean. Selbst Google-Gründer Sergey Brin ist an der Entwicklung von Gemini beteiligt und soll beim Training und der Evaluation des Modells helfen.
Das Trainingsmaterial für Gemini wird von Googles Rechtsabteilung streng überwacht. So musste das Entwicklungsteam Trainingsdaten aus urheberrechtlich geschützten Büchern entfernen. Laut der Quelle von The Information wurde Gemini auch versehentlich mit "anstößigen" Inhalten trainiert, was wahrscheinlich zu einem (teilweisen) Re-Training des Modells geführt hat.
Gemini wurde im Mai offiziell vorgestellt. Frühere Gerüchte besagen, dass das Modell mindestens eine Billion Parameter haben wird. Das Training soll Zehntausende von Googles TPU-KI-Chips verwenden.
Gemini-Chef Demis Hassabis sagte Ende Juni, Gemini werde "einige der Stärken des AlphaGo-Systems mit den erstaunlichen Sprachfähigkeiten der großen Modelle kombinieren."