KI-Tool-Tipps: Prompt Engineering und erste Whisper-Software

Phraser soll bei der Prompt-Generierung für DALL-E 2 und Co. helfen, während OpenAIs Whisper kostenlose Audio-Transkriptionen ermöglicht.

Bild-KIs lassen selbst Menschen, die kaum einen Stift halten können, kreative Kunst generieren. Vorausgesetzt, sie beherrschen das sogenannte "Prompt Engineering" - die Kunst, der KI den richtigen Bildbefehl zu erteilen.

Das ist nicht so banal, wie es klingt. Zum einen muss man natürlich grundlegend in der Lage sein, eine Bildidee in möglichst bildhafte Sprache zu übersetzen. Zum anderen haben generative Bild-KIs wie DALL-E 2, Midjourney oder Stable Diffusion unzählige Parameter und Stile, die die Bildgenerierung stark beeinflussen.

Die Web-Software Phraser soll das Prompt Engineering erleichtern. Die Bildidee muss man wie gehabt selbst entwickeln, aber bei der Stilfindung unterstützt Phraser entlang der verschiedenen Parameter der einzelnen Systeme.

Über ein Schritt-für-Schritt-Menü entscheidet man zuerst

über das Medium (bspw. Foto, Muster, Filmplakat),
erstellt eine Textbeschreibung mit den wichtigsten Komponenten,
wählt Farbe, Textur sowie Auflösung
und entscheidet sich für Kameraeinstellung, die Stimmung und eine Ära.

Nach einem Login bekommt man dann den für die anfangs ausgewählte Bild-KI passenden Prompt. Zudem inspiriert die Software mit zum eigenen Prompt passenden ähnlichen Bildern, die bereits generiert wurden.

OpenAI Whisper kommt in ersten Tools an

Mit Whisper veröffentlichte OpenAI kürzlich ein Open-Source-Modell für Spracherkennung und -transkription in verschiedenen Sprachen. OpenAI macht das Modell frei zugänglich und kostenlos verfügbar - erste Entwickler:innen laden es herunter und integrieren es in Tools.

Mit dem YouTube-Whisperer gibt es auf der Cloud-Plattform Hugging Face bereits eine Implementierung des Modells in eine einfache Benutzeroberfläche, mit der YouTube-Videos transkribiert werden können.

Whisper bei HuggingFace von OpenAI kann in ein Mikrofon gesprochene Worte innerhalb weniger Sekunden in Text verwandeln. Die Software liegt allerdings nur als Demo vor, die nach 30 Sekunden abbricht. Jedoch kann man mehrere Texte hintereinander einsprechen. Das funktioniert auch in deutscher Sprache schon ausgezeichnet.

Empfehlung

KI in der Praxis

OpenAI bringt GPT-4.1: Neue Modellfamilie soll Agenten, lange Kontexte und Coding verbessern

Das derzeit wohl interessanteste Projekt ist Stage Whisper: Hier tut sich ein Team aus Freiwilligen zusammen, um eine auf Whisper basierende einfache und kostenlose Transkriptions-App zu entwickeln, die von Menschen genutzt werden kann, die sich mit Technik weniger auskennen. Eine erste Version soll schon in wenigen Wochen erscheinen. Wer sich am Projekt beteiligen will, kann sich im Discord-Kanal von Stage Whisper melden.

Ein weiteres Projekt bei Github, "Whispering", will Whisper für die Echtzeit-Transkription einsetzen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

KI-Tool-Tipps: Prompt Engineering und erste Whisper-Software

OpenAI Whisper kommt in ersten Tools an

OpenAI bringt GPT-4.1: Neue Modellfamilie soll Agenten, lange Kontexte und Coding verbessern

"Do Not Pay" soll mit GPT-4 Strafzettel anfechten und bei Rechnungen sparen

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

KI-Tool-Tipps: Prompt Engineering und erste Whisper-Software

OpenAI Whisper kommt in ersten Tools an

OpenAI bringt GPT-4.1: Neue Modellfamilie soll Agenten, lange Kontexte und Coding verbessern

"Do Not Pay" soll mit GPT-4 Strafzettel anfechten und bei Rechnungen sparen