Phraser soll bei der Prompt-Generierung für DALL-E 2 und Co. helfen, während OpenAIs Whisper kostenlose Audio-Transkriptionen ermöglicht.
Bild-KIs lassen selbst Menschen, die kaum einen Stift halten können, kreative Kunst generieren. Vorausgesetzt, sie beherrschen das sogenannte "Prompt Engineering" - die Kunst, der KI den richtigen Bildbefehl zu erteilen.
Das ist nicht so banal, wie es klingt. Zum einen muss man natürlich grundlegend in der Lage sein, eine Bildidee in möglichst bildhafte Sprache zu übersetzen. Zum anderen haben generative Bild-KIs wie DALL-E 2, Midjourney oder Stable Diffusion unzählige Parameter und Stile, die die Bildgenerierung stark beeinflussen.
Die Web-Software Phraser soll das Prompt Engineering erleichtern. Die Bildidee muss man wie gehabt selbst entwickeln, aber bei der Stilfindung unterstützt Phraser entlang der verschiedenen Parameter der einzelnen Systeme.
Über ein Schritt-für-Schritt-Menü entscheidet man zuerst
- über das Medium (bspw. Foto, Muster, Filmplakat),
- erstellt eine Textbeschreibung mit den wichtigsten Komponenten,
- wählt Farbe, Textur sowie Auflösung
- und entscheidet sich für Kameraeinstellung, die Stimmung und eine Ära.
Nach einem Login bekommt man dann den für die anfangs ausgewählte Bild-KI passenden Prompt. Zudem inspiriert die Software mit zum eigenen Prompt passenden ähnlichen Bildern, die bereits generiert wurden.
OpenAI Whisper kommt in ersten Tools an
Mit Whisper veröffentlichte OpenAI kürzlich ein Open-Source-Modell für Spracherkennung und -transkription in verschiedenen Sprachen. OpenAI macht das Modell frei zugänglich und kostenlos verfügbar - erste Entwickler:innen laden es herunter und integrieren es in Tools.
Mit dem YouTube-Whisperer gibt es auf der Cloud-Plattform Hugging Face bereits eine Implementierung des Modells in eine einfache Benutzeroberfläche, mit der YouTube-Videos transkribiert werden können.
Whisper bei HuggingFace von OpenAI kann in ein Mikrofon gesprochene Worte innerhalb weniger Sekunden in Text verwandeln. Die Software liegt allerdings nur als Demo vor, die nach 30 Sekunden abbricht. Jedoch kann man mehrere Texte hintereinander einsprechen. Das funktioniert auch in deutscher Sprache schon ausgezeichnet.
Das derzeit wohl interessanteste Projekt ist Stage Whisper: Hier tut sich ein Team aus Freiwilligen zusammen, um eine auf Whisper basierende einfache und kostenlose Transkriptions-App zu entwickeln, die von Menschen genutzt werden kann, die sich mit Technik weniger auskennen. Eine erste Version soll schon in wenigen Wochen erscheinen. Wer sich am Projekt beteiligen will, kann sich im Discord-Kanal von Stage Whisper melden.
Ein weiteres Projekt bei Github, "Whispering", will Whisper für die Echtzeit-Transkription einsetzen.