Deep Research - Mit gezielter KI-Recherche ganz neu durchstarten
Einleitung: Wie „Deep Research“ Recherche verändert
Konventionelle KI-Chatsysteme sind primär auf schnelle Antworten und die Unterstützung bei überschaubaren konkreten Fragen ausgelegt. Für umfangreichere Recherchen, Analysen und Reports stehen inzwischen sogenannte "Deep-Research-Systeme" (DR-Systeme) bereit. Diese arbeiten wie eigenständige Analysten: Sie recherchieren selbstständig aktiv im Internet, werten mehrere Quellen aus und ziehen eigenständig Schlussfolgerungen. Das Ergebnis sind ausführliche, ausformulierte Berichte, die als Grundlage für fundierte Entscheidungen dienen können. Das erste eigene Deep-Research-System kündigte OpenAI im Februar 2025 vollmundig an: "Es schafft in wenigen Minuten, wofür ein Mensch viele Stunden benötigen würde."
Ein praktisches Einsatzbeispiel verdeutlicht den Nutzen:
Ein leitender Analyst eines mittelständischen Automobilzulieferers sollte neue Märkte für Elektromobilitätskomponenten identifizieren. Dabei stand er vor einem bekannten Problem: zu viele Datenquellen, zu wenig Zeit. Statt wie bisher wochenlang Berichte zu sichten und Expertengespräche zu führen, nutzte er mit seinem Team erstmals eine "Deep Research"-KI. Sie formulierten eine präzise Anfrage zur Marktentwicklung in Südostasien und gingen in die Mittagspause. Als sie zurückkamen, lag ein über 20-seitiger, übersichtlich strukturierter, ausformulierter Bericht mit Daten aus aktuellen Wirtschaftsanalysen, lokalen Nachrichten und Branchenberichten vor – inklusive detaillierter Quellenangaben. Die kritische Prüfung ergab zwar einige wenige Lücken und Fehler, aber letztlich waren es nicht mehr als Menschen auch gemacht hätten – bei massiver Zeitersparnis.
Weitere Einsatzgebiete im Unternehmenskontext
- Fachjournalisten können Themengebiete systematisch erschließen: Für vielfältige Fachthemen von aktuellen Entwicklungen in der Medizin bis zu Spezialgebieten wie Archäologie kann ein Deep Research einen schnellen und dennoch tiefgehenden Überblick über den aktuellen Stand eines Themengebietes geben.
- Strategie- und Marketingteams können detaillierte Markt- und Wettbewerbsanalysen erstellen lassen, etwa zu Produktstrategien der Konkurrenz oder auch zu Trendthemen wie Nachhaltigkeit oder KI.
- Die Finanzabteilung kann per KI Geschäftsberichte, Analystenkommentare und Marktnachrichten auswerten lassen, um ein umfassendes Bild potenzieller Investitionsziele zu erstellen.
- Produktmanager können Technologietrends identifizieren lassen, Patentlandschaften analysieren oder den aktuellen Stand der Technik in einem bestimmten Gebiet ermitteln.
- Im Content-Marketing kann Deep Research die zeitintensive Vorrecherche für Whitepaper, Blogartikel oder Marktstudien übernehmen und ein strukturiertes Informationsgerüst liefern.
- Im Risiko- und Lieferkettenmanagement kann Deep Research helfen, potenzielle geopolitische oder ökonomische Risiken in der Lieferkette zu überprüfen, etwa die Auswirkungen von Umweltereignissen auf die Rohstoffverfügbarkeit und -preise.
Und ganz nebenbei kann Deep Research auch im privaten Bereich in vielfältiger Weise hilfreich sein, zum Beispiel bei komplexeren medizinischen Themen oder auch für Rechtsfragen.
Deep Research erweitert die Möglichkeiten generativer KI also deutlich und erhöht den Komfort dank eigenständiger Recherche und Reporterstellung signifikant. Es ist damit eine interessante Ergänzung im KI-Werkzeugkasten.
Wir schauen uns in diesem Deep Dive genauer an, wie Deep Research unter der Haube funktioniert, um die Möglichkeiten und Begrenzungen besser zu verstehen. Wir geben Ihnen auch einen Überblick über die am Markt verfügbaren Produkte und stellen einige wichtige im Detail vor. Praxistipps zum Einsatz runden den Deep Dive ab.
Hintergrund: Deep Research unter der Haube
Wie Deep-Research-KI funktioniert
Der Arbeitsprozess eines Deep-Research-Systems ist komplexer und deutlich differenzierter als ein gewöhnlicher Chatbot:
- Autonome Rechercheplanung: Erhält das System eine komplexe Anfrage (z. B. "Analysiere die Markteintrittsstrategien von FinTech-Unternehmen in Südostasien") erstellt es – gegebenenfalls nach Rückfragen – einen eigenständigen Rechercheplan.
- Mehrstufige Websuche: Die KI durchsucht aktiv das Internet, greift auf Nachrichtenartikel, wissenschaftliche Publikationen, Unternehmensberichte und PDF-Dokumente zu. Manche Deep-Research-Systeme können auch auf eigene Quellen zusätzlich zugreifen. Bei Bedarf wiederholt es die Suche und ergänzt neue Treffer nach der ersten Sichtung. Je nach Vorgabe (z. B. "validiere jede Aussage mit mindestens zwei hochwertigen Quellen aus Peer-Reviewten Publikationen") wird eine eigenständige Bewertung und Selektion der Quellen vorgenommen.
- Synthese und Analyse: Das System vergleicht die Informationen aus den verschiedenen Quellen, versucht Zusammenhänge sowie Trends zu erkennen und destilliert die wichtigsten Erkenntnisse. Es kann auch Widersprüche zwischen Quellen oder strittige Forschungsstände aufzeigen.
- Strukturierte Berichterstattung: Am Ende steht als Ergebnis typischerweise ein detaillierter, in gewünschter Tonalität ausformulierter Bericht mit Quellenangaben.
Deep-Research-Produkte gelten auch als erste agentische Systeme zur Informationsbeschaffung, -analyse und -aufbereitung, da sie den Rechercheprozess eigenständig steuern und in einigen Fällen speziell für die Domäne Internetrecherche trainiert sind (siehe als Hintergrund auch unseren Deep Dive "KI-Agenten").
Die Architektur der jeweiligen Systeme variiert dabei je nach Anbieter; das Grundprinzip bleibt jedoch ähnlich. Sie sehen unten zum Vergleich zum einen die Darstellung des Open-Source-Projekts "Open Deep Research" von together.ai und zum anderen die Darstellung von Anthropic . Beide visualisieren den oben beschriebenen mehrstufigen Prozess, der mehrere Sub-Agenten einsetzt.
Exkurs: Warum und wie KI-Modelle aufs Internet zugreifen
KI-Modelle besitzen intern einen großen Wissensschatz. Allerdings haben sie immer ein sogenanntes "Cut-Off-Date", bis zu dem es trainiert wurde. Für aktuellere Informationen bieten aktuelle Modelle wie GPT-5 den Zugriff aufs Internet.
Zunächst prüft das gewählte Modell die Anfrage und entscheidet, ob es frisches Wissen benötigt. Ist das der Fall, ruft es eine externe Search-API oder einen eigenen Crawler auf. Viele KI-Anbieter arbeiten mit festen Partnerschaften – OpenAI etwa greift in ChatGPT wegen der Kooperation mit Microsoft aktuell noch hauptsächlich Bing zu, Google Gemini selbstverständlich den Google-Index. Die KI lädt die Top-Treffer der Suche, verdichtet sie und legt die relevanten Auszüge (mit Quellen) ins Kontextfenster. Meist gibt es eine Mindest- und Höchstanzahl der Aufrufe pro Suche.
Dieser Suchprozess im Internet kann für aktuelle Recherchen ein Erfolgsfaktor für die Qualität des Endergebnisses sein. Zwar ist die Auswahl und der Zugriff auf hochwertige Quellen wichtig (Suchindex), allerdings müssen die Ergebnisse auch sinnvoll verarbeitet werden. Hier sind wiederum Anbieter mit starken Modellen (LRMs) im Vorteil.
Merkmale Deep-Research-Systeme
Übergreifend lassen sich folgende Merkmale feststellen:
- Autonomie und Adaptivität Deep-Research-Systeme führen mehrstufige Analyseprozesse selbstständig durch, um das gewünschte Recherche-Ziel zu erreichen: Sie planen Zwischenschritte, führen bei Bedarf Berechnungen aus und suchen gezielt nach ergänzenden Informationen.
- Einsatz von Reasoning-Modellen Für die gezielte Planung von Aufgaben und Schlussfolgerungen aus Ergebnissen werden in DR-Systemen typischerweise Reasoning-Modelle eingesetzt.
- Zugriff auf (externe) Datenquellen und Werkzeuge (Tool-Use) DR-Systeme greifen typischerweise auf externe Quellen zu. Einige können mittlerweile auch über Konnektoren Unternehmens-interne Dokumente einlesen. Auch weitere Tools wie Code-Interpreter sind häufig integriert.
- Transparenz und Nachvollziehbarkeit DR-Systeme liefern strukturierte Quellenangaben und in der Regel auch verlinkte Belege.
- Formatierung und Layout Ergebnisse erscheinen in der Regel als übersichtlich formatierter Report, zum Teil mit Tabellen oder sogar Diagrammen. Manche Anbieter wie Google Gemini stellen ergänzend auch einen kurzen Audio-Podcast bereit.
Halluzinationen in Deep-Research-Systemen
Halluzinationen zählen zu den größten Risiken im praktischen Einsatz von Deep-Research-Systemen. Obwohl diese Agenten dank autonomer Rechercheplanung, Websuche und ausgefeilter Syntheseprozesse oft beeindruckend präzise wirken, findet sich in nahezu jedem Report mindestens eine gravierende Unstimmigkeit – meist gut getarnt hinter seriösen Quellenangaben. Das liegt daran, dass große Sprachmodelle vor allem darauf trainiert sind, einen logisch klingenden Text zu schreiben – ob dieser inhaltlich stimmt, spielt dabei oft eine untergeordnete Rolle.
Forschende unterscheiden heute zwei Grundformen, die wir so auch in unserem Modellkunde-Deep-Dive wiedergefunden haben: intrinsische Halluzinationen, bei denen das Modell Aussagen trifft, die den eingebetteten Quellen widersprechen oder sie verfälschen, und extrinsische Halluzinationen, bei denen Fakten auftauchen, die sich in keiner Quelle nachweisen lassen. Beide Phänomene können in Deep-Research-Pipelines auf vielfältige Weise auftreten. Häufig verdreht das Modell Inhalte ("Mis-Summary"), erfindet Datensätze, verweist auf bestehende Aussagen, nennt jedoch die falsche Quelle ("False Attribution") oder unterschlägt entscheidende Informationen, sodass das Gesamtbild verzerrt wird. Eine weitere Fehlerklasse entsteht, wenn die herangezogenen Primärquellen selbst fehlerhaft sind und das System deren Irrtümer unbesehen übernimmt. Zeitliche Inkonsistenzen sind ein Spezialfall: Weil Sprachmodelle kein echtes Zeitverständnis haben, vermischen sie etwa Versionsstände oder bezeichnen Ereignisse aus 2025 als "zukünftig".
Die Ursachen liegen in einem Bündel von Faktoren. Zum einen konkurrieren Sprach-Prior (flüssiger, plausibler Text) und Fakten-Prior, zum anderen können Nischenthemen im Suchindex nur bruchstückhaft vertreten sein. Zusätzliche Tools – etwa Code-Interpreter oder Tabellenparser – können ebenfalls fehlerhafte Zwischenergebnisse liefern, die das Modell wiederum selbstbewusst ausschmückt.
Die potenziellen Auswirkungen variieren je nach Domäne: In der Rechtspraxis können halluzinierte Präzedenzfälle Haftungsfälle nach sich ziehen, im medizinischen Umfeld gefährden erfundene Studien die Patientensicherheit, und im Finanz- oder Strategiebereich führen fantasierte Marktgrößen zu teuren Fehlentscheidungen.
Fazit: Halluzinationen verschwinden nicht, sie verschieben sich nur entlang der komplexen Deep-Research-Pipeline. Neben denen von reinen Sprachmodellen gewohnten, kommen weitere Fehlerquellen hinzu. Wer DR-Systeme produktiv nutzen will, braucht deshalb feste Prüf- und Factchecking-Routinen
Deep Research im Einsatz: Übergreifende Praxis-Tipps
Wann lohnt sich der Einsatz?
DR-Systeme eignen sich vor allem, wenn...
- ein umfangreiches, klar abgegrenztes Informationsgebiet (z. B. "Aktueller Stand der Archäoinformatik", "E-Mobility-Märkte in Südostasien", "Burn-out von Jugendlichen im ländlichen Raum") autonom erschlossen werden soll und
- eine systematische Darstellung der Ergebnisse als Report erwartet wird.
Besondere Stärken zeigen einige Deep-Research-Systeme, wenn diskursive Informationen aktuell aufbereitet werden müssen. In unseren Tests erkannten sie verschiedene Perspektiven erstaunlich zuverlässig und gaben sie treffend wieder.
Umgekehrt eignen sich DR-Systeme kaum für diejenigen, die ein Themengebiet in der Diskussion mit der KI iterativ erkunden wollen, denn die Recherche lässt sich derzeit nicht unterbrechen, um eigene Gedanken einzubringen. In einem solchen Fall arbeitet man besser mit einem Reasoning-Modell wie GPT-5 Websearch.
Wie immer bei KI gilt: Überlegen Sie, ob dem Deep-Research-System genug Informationen zum jeweiligen Sachstand vorliegen. Bei allgemeinen Themen wie Rechtsprechung, Märkten oder technologischen Entwicklungen dürfte das der Fall sein. Bei speziellen Nischenmärkten ohne öffentliche Quellen kann auch ein Deep Research keine Wunder vollbringen. Wer hingegen auch interne Themen erschließen möchte, kann dieses Wissen über Uploads oder RAG einbinden – sofern aus Datenschutzgründen vertretbar und technisch möglich.
Auch exakte Layoutvorgaben oder gar in der eigenen CI-formatierte Berichte in proprietären Formaten wie Word liefern DR-Systeme nur eingeschränkt. In solchen Fällen empfiehlt sich eher ein automatisierter Workflow mit Tools wie n8n (siehe unser Deep Dive "KI-Workflows meistern: Von Grundlagen bis zu intelligenten Agenten").
Eingrenzung der „Forschungsfrage“ und Zielsetzung
Der wichtigste Erfolgsfaktor ist die präzise Formulierung des Ziels und der "Forschungsfrage". Ein Praxisbeispiel aus der Erarbeitung dieses Deep Dives zeigt dies anschaulich. Unser Ziel war es, zum Test mehrere vergleichbare Deep-Research-Reports zum Thema "KI und Datenschutz" zu erstellen. Unser erster Prompt-Versuch (Ausschnitt Aufgabe) war:
<task>
Recherchiere, analysiere und beschreibe den aktuellen Rechtsrahmen (Stand Mitte 2025) sowie Debatten und absehbare Entwicklungen der nächsten 1 bis 3 Jahre rund um Datenschutz im Bereich der Künstlichen Intelligenz in Deutschland. Verfasse auf dieser Basis eine ausführliche, fundierte, differenzierte Zusammenfassung.</task>
Gemini 2.5 Flash schlug folgende Ergänzung vor (farbig hervorgehoben):
<task>
Recherchiere, analysiere und beschreibe den aktuellen Rechtsrahmen (Stand Mitte 2025) sowie Debatten und absehbare Entwicklungen auch im Hinblick auf technologische Entwicklungen der nächsten 1 bis 3 Jahre rund um Datenschutz im Bereich der Künstlichen Intelligenz in Deutschland. Bewerte die spezifischen Datenschutzrisiken, die sich aus dem Einsatz von KI-Anwendungen für Politik, Unternehmen und Entwickler in Deutschland ergeben, unter Berücksichtigung der identifizierten rechtlichen und technologischen Entwicklungen. Sammle konkrete Empfehlungen und Best Practices von maßgeblichen Institutionen und Experten für Politik, Unternehmen und Entwickler in Deutschland zur Gewährleistung des Datenschutzes und zur Risikominimierung im KI-Bereich. Verfasse auf dieser Basis eine ausführliche fundierte, differenzierte Zusammenfassung.</task>
Entsprechend waren auch die Ergebnisse: Der erste Prompt lieferte einen juristisch fokussierten Bericht mit differenzierter rechtlicher Betrachtung; der zweite einen sehr viel weiter gefassten und praxisorientierten Report.
Wir haben die Aufgabe sogar noch einmal angepasst, denn wir wollten in unserer Stichprobe einen möglichst direkten Vergleich mit dem bereits von Juristen und KI-Experten Jörg Heidrich erarbeiteten Deep Dive "Datenschutz und KI: Risiken erkennen, Chancen nutzen" ermöglichen. Wir haben daher das dort vorliegende Inhaltsverzeichnis als "Rechercheinhalt" hinterlegt und die Aufgabe wie folgt formuliert:
<task>
Recherchiere, analysiere und beschreibe zu <Rechercheinhalt> und verfasse auf dieser Basis eine ausführliche, fundierte, differenzierte Zusammenfassung.
<Rechercheinhalt>
</task>
Da aktuelle DR-Systeme nicht während der Laufzeit angereichert werden können, ist ein Umdenken in den Arbeitsabläufen gefragt: Statt iterativ zu suchen, müssen Sie Rechercheaufträge und Ziel präzise von Anfang an formulieren.
Prompten
Beim Prompten gelten zunächst einmal die Grundregeln für Reasoning-Modelle: Statt einer Rolle und genauer Arbeitsanweisungen definieren Sie typischerweise ein Ziel und Erfolgskriterien (siehe Abbildung). Den von uns verwendeten kompletten Prompt für den Stichproben-Test der Systeme (siehe Ergebnisse im folgenden Kapitel) finden Sie im Anhang. Wir empfehlen präzises und minimalistisches Prompting anhand von konkreten Aufgaben. Generell entwickeln sich die meisten Modelle zu regelrechten Alleskönnern und zu starkes Kontextualisieren (Rollenzuschreiben etc.) hat eher negative Effekte auf die Qualität der Ergebnisse.
Praktischerweise stellen viele Deep-Research-Systeme gezielte Nachfragen (siehe Abbildung).
Manche Modelle wie Gemini legen auch einen groben Rechercheplan vor, den Sie vor der eigentlichen Recherche noch ergänzen können. Lassen Sie sich dadurch nicht dazu verleiten, sehr allgemein zu prompten („Erstelle ein aktuelles Dossier zum Thema "KI und Datenschutz" für Unternehmen")! Wir haben mit diesem Vorgehen in unserem Stichproben-Test (mit OpenAI) einen nur rund halb so langen Report erhalten, der bei unserem Faktencheck durch viele Ungenauigkeiten durchfiel. Sorgfalt beim Prompt lohnt sich also. Je präziser er vorbereitet und das Recherche-Projekt durchdacht ist, desto besser wird das Ergebnis im ersten Durchlauf sein. Unser Tipp: Erarbeiten Sie den Prompt vorab mit einem Reasoning-Modell, indem Sie grob ihre Ideen aufschreiben und um die Unterstützung bei der Erarbeitung des Deep-Research-Prompts bitten.
Typische Stolperfallen und ihre Lösung
| Fall | Ursache | Gegenmaßnahme(n) |
|---|---|---|
| Oberflächliche Berichte | Prompts zu vage/zu kurz Ungeeigneter DR-Anbieter | Ziele, Quellen & Format explizit definieren |
| Quellenflut ohne Relevanz | Ungenaue und zu unspezifische Anfrage | Prompt vorab mit einem Reasoning-Modell (z. B. o3, Gemini 2.5. Pro) brainstormen |
| Zufriedenstellender Report gelingt erst nach mehreren Anläufen | Iterative Mentalität wie von konventionellen Chatbots gewohnt | Vollständig delegieren: Ziel präzisieren und sauber im Prompt abbilden |
| Blindes Vertrauen in Inhalt und Zitate | Halluzinationen von KI treten auch bei DR-Systemen regelmäßig auf | Mindestens die kritischen Quellen manuell nachprüfen, besser alle. Sehr wichtig ist auch, alle Aussagen kritisch zu prüfen. |
| Kontingent verpulvert | Viele Anbieter limitieren die (auch für sie) teuren Deep-Research-Reports | Erst mit kleinerem Modell strukturieren, dann Deep Research starten oder langfristig Account mit größerem / unbegrenztem Kontingent. |
Weitere Tipps
- Vorbearbeitung von Hintergrund-Dokumenten
- Kürzen Sie große eigene Dokumente mit vielen Inhalten, die für die konkrete Anfrage nicht relevant sind, auf den relevanten Teil; das senkt die Kosten und steigert die Antwortqualität.
- Zur Vorverarbeitung kann auch gehören, datenschutzrelevante Dokumente zu anonymisieren – etwa bei medizinischen Daten.
- Weiterverarbeitungsformat
- Beim angeforderten Output-Format sollte überlegt werden, was sich am effizientesten im eigenen Workflow weiter verarbeiten lässt. Das von der KI gerne angebotene Markdown-Format ist es zum Beispiel für Word nicht. Da bietet sich eher neben dem DOCX-Format alternativ RTF an.
- Manche Systeme wie ChatGPT haben jedoch häufiger mal Schwierigkeiten, Formate wie PDF oder Word sauber bereitzustellen. Dann kann alternativ helfen, das Markdown-Format mit einem Online-Tool wie Dillinger.io umzuformatieren.
Die Anbieter im Überblick
Dynamischer Markt
DR-Systeme sind im ohnehin schon dynamischen KI-Markt eine junge Entwicklung, die seit Anfang 2025 rasant Fahrt aufnimmt. Ein kürzlich veröffentlichtes Paper gibt einen Überblick über den Gesamtmarkt und seine Entwicklung sowohl im industriellen Einsatz als auch in der Forschung:
Diese Anbieter haben wir ausgewählt
All diese Systeme im Detail darzustellen, hätte den Rahmen dieses Deep Dive stark gesprengt. Wir haben daher eine Auswahl derer getroffen, die im Unternehmenseinsatz aktuell verbreitet und relevant sind:
- OpenAI – Deep Research in ChatGPT
- Google Gemini – Deep Research
- Anthropic – Claude Research
- Perplexity – Deep Research
Als interessante weitere Systeme weisen wir hin auf:
- Grok von xAI. Das von Elon Musk gegründete KI-Unternehmen verfügt über ein DR-System namens "DeepSearch" (sowie das länger laufende "DeeperSearch"). Premium+-Abonnenten haben seit Februar 2025 ohne Aufpreis Zugriff. DeepSearch nutzt das Reasoning-optimierte Grok-3-Modell (mittlerweise in der Version 4) samt eigenem Retrieval-Agenten. Eine Besonderheit: Es bezieht auch die hauseigene Social-Media-Plattform X (ehemals Twitter) in die Suche ein.
- Qwen Deep Research ist Teil von Qwen Chat, einem chinesischen KI-Dienst ähnlich wie ChatGPT. Es wird von der Cloud-Computing-Sparte des chinesischen Konzerns Alibaba angeboten, die primär für ihre E-Commerce-, Logistik- und Zahlungsplattformen im asiatischen Markt bekannt ist. Das Deep-Research-Modul in Qwen Chat ist seit Mai 2025 ohne Aufpreis für alle Nutzer verfügbar – auch in Deutschland. Technisch arbeitet der Dienst mit der aktuellen Qwen-3-Modellfamilie für allgemeine Konversationen sowie bei komplexen Analyseaufträgen mit dem Reasoning-Modell QwQ-32B. In unserer Stichprobe zeigte es gute Ergebnisse.
- Manus AI hat sich auf agentische Systeme spezialisiert, die verschiedene Endnutzer-Services vom Lebenslauf-Generator über den Website-Builder bis hin eben zur agentischen Recherche bieten. Es kombiniert vor allem Claude 3.5 Sonnet von Anthropic mit nachjustierten Qwen-Modellen von Alibaba. Das Ergebnis ist ein komplett formatierter, quellenbasierter Bericht. Unser Ersteindruck war positiv.
- Together AI bietet ein System namens Open Deep Research, das lokal oder in der Together-Cloud läuft. Die Besonderheit: Code, Datensätze und Architektur sind frei verfügbar. Für die Planung nutzt es Qwen 2.5-72B, für die Zusammenfassungen Llama 3.3-70B und fürs Reporting DeepSeek V3. Wer selbst tief eingreifen will, hat bei diesem System die volle Kontrolle.
Hintergrund: Benchmarking für Deep Research
Die Bewertung von Deep-Research-Agenten (DR-Agenten) ist schwierig, da traditionelle Benchmarks den komplexen Rechercheprozess oft nicht abbilden. Laut den Papers "A Systematic Examination And Roadmap" und "Deep Research Bench" besteht ein sogenanntes "Benchmark Misalignment": Viele Tests basieren auf statischen Wissensdatenbanken wie Wikipedia, deren Inhalte oft schon im Training der Modelle enthalten sind. Die Agenten können so oft Aufgaben durch reines Abrufen von gespeichertem Wissen lösen, anstatt tatsächliche Recherche- und Syntheseleistungen zu erbringen. Andere Benchmarks wiederum arbeiten mit konstruierten Aufgaben, die praxisnahe, unstrukturierte Probleme nicht widerspiegeln. Um diese Lücke zu schließen, entwickeln Forscher neue Ansätze, die die Grenzen der KI-Fähigkeiten gezielter ausloten: "Deep Research Bench" (DRB) ist stärker auf Praxisrelevanz ausgerichtet. Die Aufgaben stammen direkt aus der Auftragsarbeit mit Klienten. Dies soll sicherstellen, dass die Tests nicht konstruiert wirken, sondern reale, wirtschaftlich relevante Probleme abbilden. Die methodische Kerninnovation ist die "RetroSearch"-Umgebung – eine statische, "eingefrorene" Version des Internets, die aus zuvor gesammelten Webseiten besteht. Dadurch bleiben Vergleiche stabil und reproduzierbar. Der DRB geht zudem über eine reine Ergebnismessung hinaus und ermöglicht eine detaillierte, automatisierte Analyse der gesamten Arbeitsschritte eines Agenten. So werden spezifische Fehlerquellen wie Halluzinationen in den Gedankengängen, unnötige Wiederholungen von Suchanfragen oder das "Vergessen" von bereits gefundenen Informationen systematisch erfasst. Dies liefert tiefere Einblicke in die tatsächlichen Schwächen der Modelle, die durch reine Erfolgsmetriken verborgen bleiben würden. In den Tests auf diesem Benchmark erzielte ein auf o3 basierender Agent die höchste Gesamtpunktzahl, wobei die Spitzenmodelle von OpenAI, Google und Anthropic sehr eng beieinander liegen. Humanity's Last Exam (HLE). Dieser Test konfrontiert KI-Agenten mit extrem schwierigen Expertenfragen, die mehrstufige Recherche und komplexe Logik verlangen. Die Ergebnisse zeigen die aktuellen Grenzen der Technologie: Selbst führende Systeme wie OpenAIs Deep Research erreichten im HLE-Benchmark nur Punktzahlen von etwa 20 bis 25 Prozent – menschliche Experten kommen auf etwa 90 Prozent. Allerdings liegen die meisten dieser Fragen weit jenseits der Fachexpertise, die in den meisten alltäglichen Wissensarbeiten nötig sind.Die Anbieter im Stichproben-Test
Einzelanbieter: OpenAI Deep Research
Als OpenAIs "Deep Research" im Februar 2025 auf den Markt kam, wurde für seine umfangreichen Dossiers mit hoher Akkuratheit gehypt. Mittlerweile ist der Vorsprung vor den Wettbewerbern nicht mehr so groß – viele andere wie Google haben nachgezogen und umgekehrt hat OpenAI nicht deutlich an Features nachgelegt. So fehlen in den Reports trotz der Fortschritte in der Diagramm-Erstellung in ChatGPT immer noch Grafiken. Zusätzlichen Factchecking-Maßnahmen gegen KI-Halluzinationen lassen sich ebenfalls nicht erkennen. Dennoch ist Deep Research ein überzeugendes Produkt.
Exkurs: Unterschiede Deep Research in ChatGPT versus API-Zugriff auf "Deep Research"
Die "Deep Research"-Funktion in der ChatGPT-Benutzeroberfläche und die "Deep Research"-Variante über die API basieren auf derselben Kerntechnologie, unterscheiden sich jedoch laut OpenAI deutlich in Bezug auf Nutzerinteraktion, Kontrolle und Anpassbarkeit: Deep Research in ChatGPT ist auf einfache und benutzerfreundliche Interaktion ausgelegt, während die API-Variante Entwicklern maximale Kontrolle, Transparenz und Anpassungsmöglichkeiten für die Integration in eigene Anwendungen bietet. Unser Test wurde im Juli 2025 durchgeführt.
Unsere Test-Ergebnisse für die Deep Research-Funktion in ChatGPT:
- Relevanz und Genauigkeit: Der Report folgt eng der per Prompt vorgegebenen Struktur. Die Darstellung ist sehr differenziert und aktuell (Quellen bis Mai 2025) und bezieht sogar neue Stellungnahmen von Aufsichtsbehörden mit ein. Auch in puncto Stil hält sich OpenAI an die Vorgaben. Einzig "unsichere Aussagen" sind nicht zur "Fact‑Check‑Freigabe" gekennzeichnet – das kann aber auch daran liegen, dass keine verwendet wurden.
- Faktencheck: Der KI-Report schneidet in unserer Korrektheitsprüfung hervorragend ab und geht an einigen Stellen in den Rechtsdetails sogar über unseren Referenztext hinaus. Wir konnten in den wichtigen Rechtsgrundlagen keine Fehler entdecken.
- Tiefe und Breite: Das Research-Dossier ist sehr umfangreich. Die knapp 10.000 Worte (rund 80.000 Zeichen inkl. Leerzeichen) füllen 28 dicht beschriebene Seiten. Das inhaltliche Spektrum ist sehr breit: Auch Detail-Aspekte wie die besonders schützenswerten persönlichen Daten (z. B. Religion) werden behandelt. Allerdings stützt sich der Report nur auf 26 Quellen – die jedoch hochwertig sind.
- Struktur und Verständlichkeit: Der Report ist übersichtlich gegliedert, sachlich und einwandfrei lesbar Wie im Prompt gefordert, holt er auch juristisch nicht weiter vorgebildete Business-Leser gut ab. MehrereTabellen lockern die Darstellung auf. Viele gut gewählte praktische Beispiele aus dem Unternehmensalltag ergänzen die theoretischen Ausführungen und machen sie anschaulicher.
- Praktischer Nutzen: Sehr hoch: Zum einen sind Checklisten für die konkrete Umsetzung enthalten, zum anderen auch immer wieder sinnvolle Tipps und praktische Beispiele sowie kurze Anleitungen zur Umsetzung der Vorschriften direkt im Fließtext.
- Effizienz: Die Erstellung des Reports hat rund 15 Minuten gedauert.
TL;DR: OpenAIs DeepResearch ist ein überzeugendes Produkt: Unser Test-Report ist faktisch sehr korrekt und gefällt in Bezug auf Stil, Struktur, Detailtiefe und Aktualität. Einzig in puncto Abbildungen hätten wir mehr von OpenAI erwartet.
Einzelanbieter: Gemini
Google war Pionier im Bereich tiefer Recherche und kämpfte anfangs mit eher schlechten Ergebnissen aus unserer Erfahrung. Inzwischen sind die Modelle Weltklasse und besonders Gemini 2.5 Pro eines unserer verlässlichsten im Alltag (zum Beispiel für Fact-Checking). Dies gilt auch für die Qualität von Deep Research: Anfangs waren die Ergebnisse nicht zu verwenden, mittlerweile ist das Produkt gerade durch die steigende Qualität der Modelle konkurrenzfähig. Trotzdem schwankt der praktische Nutzen der Ergebnisse.
- Relevanz und Genauigkeit: Die Anforderungen im Prompt werden einwandfrei erfüllt. Einzig die Kennzeichnung unsicherer Aussagen fehlt.
- Faktencheck: Der KI-Report ist in seiner Substanz und Detailtiefe gut und in weiten Teilen rechtlich korrekt. Sein größtes Manko ist die gefährliche Ungenauigkeit bei Art. 9 DSGVO. Hier entsteht eine kritische Lücke: Die KI hat vergessen zu erwähnen, dass die "normale" Erlaubnis des "berechtigten Interesses" für diese sensiblen Daten nicht gilt. Während er in der theoretischen und systematischen Darstellung (insb. beim AI Act) ausführlicher als unser juristischer Datenschutz Deep Dive ist, fehlt ihm dessen praktische Erdung und die Fähigkeit, kritische Fallstricke explizit hervorzuheben. In zwei von drei Durchläufen besteht das Modell unsere Qualitätschecks aber weitgehend.
- Tiefe und Breite: Im ersten Durchlauf produziert Gemini 14-Seiten-Text, im zweiten Versuch sind es sogar 19 Seiten (ohne Quellen). Die Anzahl der Quellen ist beeindruckend: In allen Durchläufen werden weit mehr als 100 Quellen referenziert. Hier spielt Google die eigene Stärke des weltbesten Web-Indexes voll aus. Die tatsächlich verwendeten Quellen pendeln sich bei unter 50 ein. Interessant sind Ausreißer wie die Analyse eines wissenschaftlichen Papiers „Financial Fraud Detection Using Explainable AI and Stacking Ensemble Methods“. Warum das Modell hier einen Ausflug macht, ist unklar.
- Struktur und Verständlichkeit: Gemini gliedert den Bericht in kompakte Kapitel – lesbar und einfach verständlich ist der Report dennoch nicht (Beispiel "Die DSGVO, als grundrechtsbasierter und technologieneutraler Rahmen, wird nicht durch spezifische KI-Gesetze ersetzt, sondern durch die neue KI-Verordnung (Verordnung (EU) 2024/1689, auch "AI Act" genannt) ergänzt"). Das liegt auch an der Materie der Rechtstexte selbst. Mit geschickten Prompts lässt sich der Text vereinfachen, aber beim Thema Verständlichkeit kann Gemini nicht punkten.
- Praktischer Nutzen: Was nützt ein Bericht mit kritischen Auslassungen? Nicht viel. Gerade bei sensiblen Themen wie dem rechtskonformen Einsatz von KI ist Genauigkeit wichtig. Die Rechercheergebnisse sind nach drei Durchläufen weitgehend korrekt, aber nicht verlässlich richtig. Ein großer Mehrwert von Googles agentischer tiefer Suche ist die Anbindung an Google Workspaces; zum Beispiel lässt sich das Ergebnis mit einem Klick in ein sauber formatiertes Google Docs exportieren.
- Effizienz: Gemini lässt sich Zeit: Es dauert knapp 40 Sekunden, bis die Recherche starten kann und sich Gemini 2.5 Pro einen Rechercheplan zurechtgelegt hat. Dann läuft die Recherche zwischen 14 Minuten und 19 Minuten.
TL;DR: Gemini 2.5 Pro Deep Research kann qualitativ hochwertige Auswertungen liefern – leider aber in unserem Test einer KI-Datenschutz-Übersicht teilweise mit kritischen Fehlern. In zwei von drei Tests kann das Modell aber faktisch voll überzeugen und deckt alle relevanten Aspekte sehr gut ab. Insgesamt also eine gute Lösung, besonders für Nutzer von Google Services – wenn auch mit einem sehr hölzernen Sprachstil.
Einzelanbieter: Claude
Anthropic fokussiert sich auf B2B-Kunden und Coding-Szenarien. Mit dem Release der Claude-4-Modelle "Sonnet" und "Opus" bekam der hauseigene Chatbot Claude die Fähigkeit, auch umfassendere Suchen durchzuführen. Das Unternehmen nennt dieses Angebot zwar nur "Research", ohne "Deep", im Kern gleicht es jedoch den entsprechend betitelten anderen. Anthropic nutzt dafür eine Multi-Agenten-Architektur, die das Unternehmen in einem Blogbeitrag ausführlich beschrieben hat: Das größere Opus-Modell gibt Rechercheaufträge an kleinere Sonnet-Agenten und trägt am Ende alles zusammen. Ein eigener CitationAgent soll am Ende jeder Behauptung eine Quelle zuordnen.
- Relevanz und Genauigkeit: Der generierte Report erfüllt die Anforderungen inhaltlich; das Format unterscheidet sich allerdings deutlich: Er enthält mehr Aufzählungen, Tabellen und Checklisten und weniger Text. Zudem zeigen sich Schwächen bei den Rechtsprinzipien. Und auch ein Logik-Fehler hat sich eingeschlichen: Der von Claude vorgeschlagene Umsetzungsplan startet schon im Februar 2025 – obwohl der Bericht erst Ende Juni generiert wurde.
- Faktencheck: Die juristische Substanz zeigt ein gemischtes Bild: Während technische Details und praktische Umsetzungsaspekte solide dargestellt werden, mangelt es an juristischer Tiefe und Präzision. Die gefährlichste Ungenauigkeit betrifft Art. 9 DSGVO. Claude stellt nicht ausreichend klar, dass die "normale" Erlaubnis des "berechtigten Interesses" für sensible Daten nicht gilt. Ein Unternehmen kann sich also nicht auf sein berechtigtes Interesse berufen, um beispielsweise Gesundheitsdaten zu verarbeiten – was Claude jedoch explizit als Beispiel vorschlägt.
- Tiefe und Breite: Die thematische Breite ist der entscheidende Unterschied: Juristische, technische, betriebswirtschaftliche und strategische Perspektiven werden miteinander verwoben: Tools wie LIME und SHAP für Explainable AI sowie OneTrust für Privacy Management werden ebenso aufgeführt wie technische Frameworks und ROI-Tabellen. Im Vergleich mit anderen Anbietern fällt die technische Tiefe auf: Konkrete Algorithmen, Implementierungsdetails und Best Practices zeigen, dass Claude hier auf solidem Grund steht. Juristisch hingegen bleibt Claude oft bei der bloßen Nennung von Regeln stehen, ohne Hintergründe zu beleuchten. Das ist auch generell ein Problem des Reports: Er vermeidet Fließtext, wodurch er leichter erfassbar wird, aber auch Details verschluckt werden können. Die gewünschte Form und Tiefe erreicht er also nicht.
- Struktur und Verständlichkeit: Claude punktet mit modularem Aufbau, Tabellen, Code-Beispielen und Checklisten. Der Report ist auf schnelle Erfassbarkeit optimiert und bietet konkrete Handlungsanweisungen. Diese Struktur steht im krassen Gegensatz zum linearen Fließtext klassischer Fachartikel und anderer Deep-Research-Ergebnisse. Das geht jedoch auf Kosten der (juristischen) Tiefe. Claude liefert eher ein "Schweizer Taschenmesser" für die Praxis als einen Grundlagentext – möglicherweise auch ein Ergebnis des Multi-Agenten-Frameworks.
- Praktischer Nutzen: Der unmittelbare Nutzen des Reports ist potenziell sehr hoch – vorausgesetzt, die rechtlichen Fehler werden vom Nutzer erkannt und korrigiert. Claude liefert nicht nur das "Was", sondern vor allem das "Wie": konkrete Tool-Namen, technische Frameworks, messbare KPIs und zeitlich gestaffelte Handlungsempfehlungen ("Sofort", "Kurzfristig", "Mittelfristig"). Der Report könnte somit einen guten ersten Startpunkt für die Initiierungs- und frühe Umsetzungsphase eines Datenschutzprojekts liefern.
- Effizienz: Für den Bericht benötigt Claude fast 20 Minuten und sammelt 353 Quellen. Dennoch umfasst der Bericht am Ende nur zwölf Seiten und knapp 2200 Wörter (rund 20.100 Zeichen), da auf viel Fließtext verzichtet wurde.
TL;DR: Claude liefert breit gefächerte und interdisziplinäre Ergebnisse, die auf technische Tiefe und praktische Anwendbarkeit setzen – allerdings durch den breiten Verzicht auf Fließtext nicht so ins Detail gehen. Die Schwächen bei den juristischen Grundlagen sind kritisch. Der Report könnte als inspirierende Grundlage für Führungskräfte der technischen Strategie oder Umsetzung dienen. Er bedarf jedoch dringend der Absicherung durch einen Rechtsbeistand – was aber in der Praxis für jeden Deep-Research-Report gilt.
Einzelanbieter: Perplexity
Perplexitys Geschäftsmodell liegt im cleveren Erschließen der besten Modelle anderer mithilfe des hauseigenen SONAR-Models – zum Beispiel im Flaggschiff-Produkt Deep Research. Der US-Anbieter verspricht auf seiner Website vollmundig den "direkten Draht zum Wissen der Welt – komprimiert, belegt und klar verständlich."
In unserem Test wurde dieser Claim nur teilweise eingelöst. Der Report war recht kurz, sprachlich sperrig und durch viele juristische Fachbegriffe schwer verständlich. Negativ fiel auch auf, dass die integrierten Abbildungen aus Websites "zusammengeklaubt" wirken und mit englischen Bildbeschreibungen untertitelt sind. Für ein echtes Multi-Agent-System, das die Wahl zwischen den besten KI-Modellen hat, war der Report enttäuschend.
Ein weiterer Durchlauf mit einem thematisch anderen Prompt zeigte, dass einige der Schwächen, wie die englisch untertitelten Abbildungen, kein Einzelfall sind. Interessanterweise zeigte er aber auch, dass Perplexity in anderen Fällen die von uns im Test eigentlich geforderten Checklisten bereitstellen kann und auch praxisorientierter sein kann.
- Relevanz und Genauigkeit: Der Prompt ist in der geforderten Inhaltsbreite recht genau umgesetzt. Die ebenfalls geforderten Aspekte wie ein verständlicher Stil ("schreibe klar, prägnant und zugänglich.") sind jedoch nicht berücksichtigt oder kommen wie die Praxisbeispiele extrem kurz.
- Faktencheck: Der Report leidet an sachlichen Fehlern, rechtlichen Ungenauigkeiten und erheblichen Auslassungen. Perplexity macht in weiten Teilen keine fundamental falschen, aber oft unvollständige und potenziell irreführende Aussagen.
- Tiefe und Breite: Perplexity hält sein Dossier mit rund 2500 Wörtern (rund 25.000 Zeichen inkl.) eher kurz, obwohl es sich auf 33 Quellen stützt. 18 locker gefüllte Seiten kommen durch zahlreiche halbseitige Abbildungen zusammen. Entsprechend knapp fällt auch die inhaltliche Breite aus: Fachbegriffe wie "Besondere Kategorien personenbezogener Daten" sind zwar genannt, aber nicht erklärt. Wer juristisch nicht vorgebildet ist, hat es schwer, einen Nutzen aus dem Report zu ziehen.
- Struktur und Verständlichkeit: Die Sprache ist sehr sachlich und liest sich durch die Beschreibung von Statistiken eher ermüdend. Auch werden extrem viele Abkürzungen verwendet (z. B. „Die DSK hat in ihrer Positivliste explizit den "Einsatz von künstlicher Intelligenz zur Verarbeitung personenbezogener Daten zur Steuerung der Interaktion mit den Betroffenen oder zur Bewertung persönlicher Aspekte" als DSFA-pflichtig eingestuft.") Die Abkürzungen muss man sich zum Teil selbst aus dem Text erschließen. DSK steht für Datenschutzkonferenz, DSFA für Datenschutz-Folgeabschätzung.
- Praktischer Nutzen: Es ist zwar eine Checkliste enthalten, doch diese bleibt sehr an der Oberfläche (Beispiel: "DSFA-Prozesse etablieren: Da eine DSFA bei KI-Systemen "fast immer erforderlich" ist, sollten standardisierte Bewertungsprozesse implementiert werden.")
- Effizienz: Die Recherchelänge wird bei Perplexity zum Start in der Regel mit 10 Minuten angegeben, aber in unserem Fall deutlich unterschritten.
TL;DR: Der Perplexity-Report bietet einen soliden, aber eher oberflächlichen Einstieg, der schwer zu lesen ist. Die aus Websites kopierten Abbildungen mit englischen Untertiteln trüben das Bild zusätzlich
Zusammenfassender Überblick der Anbieter
Wie auswählen?
Die gute Nachricht: Fast alle untersuchten Anbieter zeigten deutliche Stärken – mindestens in einigen Bereichen. Wer also schon einen KI-Anbieter im Haus hat, sollte zunächst dessen Deep Research-Angebot mit den eigenen Use Cases prüfen. Wer auf bestimmte Teilaspekte wie etwa die Recherchebreite, die Formulierungen oder gar Abbildungen besonderen Wert legt, findet in folgender Tabelle unsere Erkenntnisse für den direkten Vergleich aufbereitet und kann abschätzen, ob sich der Test oder gar Kauf für die eigenen Anwendungen lohnt. Für die inhaltliche Qualität kann der verwendete Suchindex ein wichtiger Faktor sein (siehe auch im Kapitel "Hintergrund: Deep Research unter der Haube"). Wir haben ihn deshalb in der Tabelle mit aufgeführt.
Ein möglicherweise wichtiger Teilaspekt ist auch die nahtlose Weiterverarbeitung der erzeugten Reports. Manche Anbieter wie Gemini etwa bieten die direkte Integration in die hauseigene Suite für Büroanwendungen (z. B. Google Docs).
Vergleichstabelle unserer Stichprobe im Überblick
| Merkmal | Claude | Gemini | OpenAI ChatGPT | Perplexity |
| Verwendete Suche für Internet-Recherche | Brave Search | Google – Deep Research greift direkt auf dieselbe Index-Infrastruktur wie Googles AI Overviews zu. | Primär Bing, aber laut Eigenaussagen auch "verschiedene Drittanbieter" | Hauseigener Crawler namens Perplexity Bot, laut Fachmagazin Wired auch weitere wie Bing und Google |
| Geschwindigkeit | Relativ lange Erstellungszeit (> 10 Min.) | Relativ lange Erstellungszeit (> 10 Min.) | Relativ lange Erstellungszeit (> 10 Min.) | Recht schnell (unter 10 Minuten) |
| Länge und Detailtiefe | Prägnant, eher stichwortartig und kürzer (ca. 2.200 Wörter) | Eher umfangreich (gut 4.400 Wörter/37.000 Zeichen) | Umfangreich (rund 10.000 Wörter), mit hohem Detailgrad | Eher kurz (rund 2.500 Wörter), mit geringem Detailgrad |
| Struktur & Stil | Fokus Checklisten und Tabellen, wenig Fließtext | Gute Gliederung, aber schwer zu lesen | Gute Gliederung, angenehm zu lesender Text mit Beispielen | Schwer zu lesen, mit vielen Abkürzungen und Fachvokabular |
| Besonderheiten | Sehr praxisorientiert und technisch | Ausgabe auch als kurzer Audio-Podcast möglich | Kann je nach Account-Typ (derzeit Team, Enterprise, Edu) auch hauseigene Quellen per Konnektoren durchsuchen | Aus Websites kopierte farbige Abbildungen (mit englischen Untertiteln) Potenziell: Checklisten als CSV-Dateien |
| Nachteile (jenseits inhaltlicher Korrektheit) | Kein voll ausformulierter Text | Sprache etwas hölzern | Limitierungen bei Anzahl und Konnektoren (je nach Account) | Abbildung nur aus dem Web kopiert |
Fazit: Strategische Einordnung
Deep-Research-Systeme bringen praktische Agenten in den KI-Werkzeugkasten: Sie planen eigenständig mehrstufige Recherchen, verdichten Quellen und liefern fertig formatierte Reports und zwar im Idealfall innerhalb weniger Minuten – soweit das Produktversprechen. Die Realität im Sommer 2025 ist noch ambivalent: Zwar entstehen beeindruckend umfangreiche Dossiers, doch die Qualität schwankt deutlich zwischen den Anbietern. Juristische Detailfehler, inkonsistente Quellen-Standards oder fehlende Visualisierungen treten ebenso auf wie Laufzeiten von teils über zehn Minuten – selbst bei Marktführern.
Dennoch lohnt sich der Einstieg schon, um Erfahrungen zu machen, denn Deep Research hat ein wachsendes Potenzial, Wissensarbeit radikal zu beschleunigen. Auch wenn Fehler passieren, ist das bei menschlicher Recherche ebenfalls zu erwarten. Bei den schon heute kurzen Recherchezeiten der Systeme lohnt sich der Einsatz in den meisten Fällen als erster Überblick zu einem Themengebiet.
Erfolgsfaktoren
- Präziser Auftrag – Deep Research belohnt klar formulierte Forschungsfragen und Erfolgskriterien.
- Fachlicher Co-Pilot – Je tiefer das Fachwissen der Auftraggeber, desto besser können sie Halluzinationen entlarven und Reports optimieren.
- Integration mitdenken – Die Möglichkeit zur Einbindung eigener Quellen oder die unmittelbare Ausgabe der Ergebnisse kann ein entscheidender Vorteil sein.
Anhang
Unser identischer Anfrageprompt für die jeweiligen DR-Systeme:
<task>
Recherchiere, analysiere und beschreibe zu <Rechercheinhalt> und verfasse auf dieser Basis eine ausführliche fundierte, differenzierte Zusammenfassung.
<Rechercheinhalt>
I und Datenschutz: Eine Einführung
KI und Datenschutz: Geht das überhaupt?
• Personenbezogene Daten: Was KI-Nutzer wissen müssen
• Personenbezogene Daten im KI-Kontext
• Vorsicht mit sensiblen Daten
• Anonymisierung und Pseudonymisierung von Daten
Verantwortlichkeiten und Rollenverteilung
• Wer ist verantwortlich? Rollenverteilung zwischen Unternehmen und KI-Anbietern
Rechtsgrundlagen für den KI-Einsatz
• Rechtsgrundlagen im Überblick
• Einwilligung (Art. 6 Abs. 1 lit. a DSGVO)
• Vertragserfüllung und vorvertragliche Maßnahmen (Art. 6 Abs. 1 lit. b DSGVO)
• Abwägungssache: Das berechtigtes Interesse
• Rechtsgrundlagen bei besonderen Kategorien personenbezogener Daten
Kernprinzipien des Datenschutzes bei KI
• Wenn Algorithmen entscheiden: Automatisierte Entscheidungen und Profilbildung
• Transparenzpflichten bei der Verarbeitung personenbezogener Daten durch KI
Risikomanagement und Datenschutz-Folgenabschätzung
• Gut dokumentiert: Die Datenschutzfolgenabschätzung
Betroffenenrechte und KI
• Das Recht auf Auskunft
• Das Recht auf Löschung
• Schwerer Stand für Betroffene
Praxis-Tipps: So gelingt der DSGVO-konforme KI-Einsatz
Fazit: Mit Verantwortung in die KI-Zukunft
</Rechercheinhalt>
</task>
<output>
Erstelle einen strukturierten Bericht in **Markdown** mit
- Überblickstabellen (z.B. zu den deutschen und EU-Rechtsvorschriften)
- Empfehlungen
- Checklisten
- Praxisbeispielen
</output>
<success_criteria>
- Verwende **mindestens 15 ** hochwertige Quellen (Peer‑Reviewed Journals, Regierungsberichte, ENISA, BfDI, Bitkom etc.), die **nach Q1 2024** veröffentlicht wurden.
- **Kernthesen** belege mit **mindestens zwei unabhängigen Quellen**; **Nebeninformationen** mindestens einfach.
- Unterscheide klar zwischen **Fakten**, **Interpretationen** und **Meinungen**.
- Nutze konkrete **Zahlen, Zitate** und **Rechtsverweise**.
- Alle Quellen müssen vollständig referenziert sein (Autor, Titel, Medium, Datum, URL/DOI).
</success_criteria>
<constraints>
- Fokus auf Deutschland; beziehe EU‑Regelungen nur dann ein, wenn sie sich auf Deutschland auswirken.
- Vermeide technischen Fachjargon; schreibe klar, prägnant und zugänglich.
- Jede Aussage muss die oben definierte Belegpflicht erfüllen.
- Kennzeichne unsichere Aussagen zur internen **Fact‑Check‑Freigabe**.
</constraints>
<context>
Zielgruppe ist ein gemischtes Publikum aus politischen Entscheidungsträgern, Datenschutzbeauftragten und AI‑Produktmanager:innen. Der Bericht soll anstehende interne Strategie‑ und Compliance‑Diskussionen in einem mittelständischen deutschen Technologieunternehmen unterstützen. In vorangegangenen Gesprächen wurden Rechtsunsicherheit und Reputationsrisiken beim Einsatz von KI als Hauptsorgen genannt.
</context>
Checkliste: Rechtsgrundlagen-Überprüfung
| Rechtsgrundlage | Was sagt die KI? | Was sagen die Experten? | Bewertung |
|---|---|---|---|
| Art. 6 Abs. 1 lit. a DSGVO (Einwilligung) | [KI-Aussage hier eintragen] | [Experten-Meinung hier eintragen] | ✅ / ⚠️ / ❌ |
| Art. 6 Abs. 1 lit. b DSGVO (Vertragserfüllung) | [KI-Aussage hier eintragen] | [Experten-Meinung hier eintragen] | ✅ / ⚠️ / ❌ |
| Art. 6 Abs. 1 lit. c DSGVO (Rechtliche Verpflichtung) | [KI-Aussage hier eintragen] | [Experten-Meinung hier eintragen] | ✅ / ⚠️ / ❌ |
| Art. 6 Abs. 1 lit. d DSGVO (Schutz lebenswichtiger Interessen) | [KI-Aussage hier eintragen] | [Experten-Meinung hier eintragen] | ✅ / ⚠️ / ❌ |
| Art. 6 Abs. 1 lit. e DSGVO (Öffentliches Interesse) | [KI-Aussage hier eintragen] | [Experten-Meinung hier eintragen] | ✅ / ⚠️ / ❌ |
| Art. 6 Abs. 1 lit. f DSGVO (Berechtigte Interessen) | [KI-Aussage hier eintragen] | [Experten-Meinung hier eintragen] | ✅ / ⚠️ / ❌ |
| Art. 7 DSGVO (Bedingungen für Einwilligung) | [KI-Aussage hier eintragen] | [Experten-Meinung hier eintragen] | ✅ / ⚠️ / ❌ |
| Art. 9 DSGVO (Besondere Kategorien) | [KI-Aussage hier eintragen] | [Experten-Meinung hier eintragen] | ✅ / ⚠️ / ❌ |
| KI-Verordnung (AI Act) | [KI-Aussage hier eintragen] | [Experten-Meinung hier eintragen] | ✅ / ⚠️ / ❌ |
Übersichtstabelle
| Rechtsgrundlage | Im KI-Report behandelt | Korrektheit | Anmerkungen |
|---|---|---|---|
| Art. 6 Abs. 1 lit. a DSGVO | ✓ / ✗ | ✅ / ⚠️ / ❌ | [Anmerkungen] |
| Art. 6 Abs. 1 lit. b DSGVO | ✓ / ✗ | ✅ / ⚠️ / ❌ | [Anmerkungen] |
| Art. 6 Abs. 1 lit. c DSGVO | ✓ / ✗ | ✅ / ⚠️ / ❌ | [Anmerkungen] |
| Art. 6 Abs. 1 lit. d DSGVO | ✓ / ✗ | ✅ / ⚠️ / ❌ | [Anmerkungen] |
| Art. 6 Abs. 1 lit. e DSGVO | ✓ / ✗ | ✅ / ⚠️ / ❌ | [Anmerkungen] |
| Art. 6 Abs. 1 lit. f DSGVO | ✓ / ✗ | ✅ / ⚠️ / ❌ | [Anmerkungen] |
| Art. 7 DSGVO | ✓ / ✗ | ✅ / ⚠️ / ❌ | [Anmerkungen] |
| Art. 9 DSGVO | ✓ / ✗ | ✅ / ⚠️ / ❌ | [Anmerkungen] |
| KI-Verordnung (AI Act) | ✓ / ✗ | ✅ / ⚠️ / ❌ | [Anmerkungen] |
Zusätzliche KI-Inhalte
Behandelt die KI weitere Rechtsgrundlagen?
- [Liste zusätzlicher Rechtsgrundlagen]
Bewertung: Sind diese plausibel?
Kritische Fehler
Schwerwiegende rechtliche Ungenauigkeiten:
- [Liste der Fehler]
Ergebnis
Richtige Aussagen:
[Was hat die KI korrekt dargestellt?]
Problematische Aussagen:
[Was ist falsch oder ungenau?]
Fehlende Aspekte:
[Was aus dem Experten-Deep Dive fehlt?]
Zusätzliche Inhalte:
[Was bringt die KI zusätzlich?]
Hinweis: Nur Abweichungen von der Experten-Meinung sind problematisch. Zusätzliche Inhalte sind neutral zu bewerten.