Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Phraser soll bei der Prompt-Generierung für DALL-E 2 und Co. helfen, während OpenAIs Whisper kostenlose Audio-Transkriptionen ermöglicht.

Bild-KIs lassen selbst Menschen, die kaum einen Stift halten können, kreative Kunst generieren. Vorausgesetzt, sie beherrschen das sogenannte "Prompt Engineering" - die Kunst, der KI den richtigen Bildbefehl zu erteilen.

Das ist nicht so banal, wie es klingt. Zum einen muss man natürlich grundlegend in der Lage sein, eine Bildidee in möglichst bildhafte Sprache zu übersetzen. Zum anderen haben generative Bild-KIs wie DALL-E 2, Midjourney oder Stable Diffusion unzählige Parameter und Stile, die die Bildgenerierung stark beeinflussen.

Die Web-Software Phraser soll das Prompt Engineering erleichtern. Die Bildidee muss man wie gehabt selbst entwickeln, aber bei der Stilfindung unterstützt Phraser entlang der verschiedenen Parameter der einzelnen Systeme.

Anzeige
Anzeige

Über ein Schritt-für-Schritt-Menü entscheidet man zuerst

  • über das Medium (bspw. Foto, Muster, Filmplakat),
  • erstellt eine Textbeschreibung mit den wichtigsten Komponenten,
  • wählt Farbe, Textur sowie Auflösung
  • und entscheidet sich für Kameraeinstellung, die Stimmung und eine Ära.

Nach einem Login bekommt man dann den für die anfangs ausgewählte Bild-KI passenden Prompt. Zudem inspiriert die Software mit zum eigenen Prompt passenden ähnlichen Bildern, die bereits generiert wurden.

OpenAI Whisper kommt in ersten Tools an

Mit Whisper veröffentlichte OpenAI kürzlich ein Open-Source-Modell für Spracherkennung und -transkription in verschiedenen Sprachen. OpenAI macht das Modell frei zugänglich und kostenlos verfügbar - erste Entwickler:innen laden es herunter und integrieren es in Tools.

Mit dem YouTube-Whisperer gibt es auf der Cloud-Plattform Hugging Face bereits eine Implementierung des Modells in eine einfache Benutzeroberfläche, mit der YouTube-Videos transkribiert werden können.

Whisper bei HuggingFace von OpenAI kann in ein Mikrofon gesprochene Worte innerhalb weniger Sekunden in Text verwandeln. Die Software liegt allerdings nur als Demo vor, die nach 30 Sekunden abbricht. Jedoch kann man mehrere Texte hintereinander einsprechen. Das funktioniert auch in deutscher Sprache schon ausgezeichnet.

Empfehlung

Das derzeit wohl interessanteste Projekt ist Stage Whisper: Hier tut sich ein Team aus Freiwilligen zusammen, um eine auf Whisper basierende einfache und kostenlose Transkriptions-App zu entwickeln, die von Menschen genutzt werden kann, die sich mit Technik weniger auskennen. Eine erste Version soll schon in wenigen Wochen erscheinen. Wer sich am Projekt beteiligen will, kann sich im Discord-Kanal von Stage Whisper melden.

Ein weiteres Projekt bei Github, "Whispering", will Whisper für die Echtzeit-Transkription einsetzen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die Web-Software Phraser hilft bei der Prompt-Generierung für DALL-E 2 und Co.
  • OpenAIs KI-Modell Whisper ermöglicht kostenlose Audio-Transkriptionen und kommt in ersten Tools an.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!