Ein neuer Vorschlag für einen Web-Standard namens "llms.txt" soll Websites KI-freundlicher machen. Die Initiative könnte die Art und Weise verändern, wie KI-Systeme im Web nach Informationen suchen.
Der von KI-Experte Jeremy Howard vorgeschlagene Standard "llms.txt" soll Websites mit einer speziellen Datei ausstatten, die Sprachmodellen einen effizienteren Zugriff auf relevante Informationen ermöglicht.
Laut dem Vorschlag sollen Websitebetreiber eine spezielle Markdown-Datei unter dem Pfad "/llms.txt" bereitstellen. Diese Datei soll als zentraler Wegweiser für KI-Systeme dienen und ihnen helfen, die wichtigsten Informationen einer Website schnell zu erfassen und zu verarbeiten.
"Websites werden heute nicht mehr nur von Menschen gelesen, sondern auch von Sprachmodellen", erklärt Howard in seinem Vorschlag. KI-Systeme benötigten Informationen in einer präziseren und kompakteren Form als Menschen. Ein Grund dafür sei die begrenzte Kontextfenster-Größe von Sprachmodellen, die es LLMs unmöglich machen könne, ganze Websites auf einmal zu verarbeiten.
Klare Struktur für maschinelles Lesen
Der neue Standard sieht eine fest definierte Struktur vor: Die Datei muss mit einem Projektnamen als Überschrift beginnen, gefolgt von einer Kurzzusammenfassung und optional weiteren Details sowie Links zu vertiefenden Markdown-Dokumenten.
Besonders relevant sei der Standard für Entwicklungsumgebungen und Code-Bibliotheken. Hier können KI-Systeme die strukturierten Informationen nutzen, um Programmierern bessere Unterstützung zu bieten.
Firmenwebsites könnten in der llms.txt beispielsweise ihre Organisationsstruktur und wichtige Informationsquellen übersichtlich darstellen. E-Commerce-Sites könnten Produktkategorien und Richtlinien zusammenfassen, Bildungseinrichtungen ihr Kursangebot strukturieren und Einzelpersonen ihre beruflichen Qualifikationen KI-gerecht aufbereiten.
Howard schlägt zudem vor, dass Websites ihre bestehenden HTML-Seiten auch als Markdown-Version bereitstellen sollten, indem sie einfach ".md" an die URL anhängen. Das FastHTML-Projekt setze diese Vorschläge bereits um und generiert automatisch Markdown-Versionen aller Dokumentationsseiten. Auch die KI-Firma Anthropic hat für seine Dokumentation eine LLMs.txt hochgeladen.
Ergänzung zu bestehenden Standards
Der vorgeschlagene Standard soll bestehende Web-Standards wie robots.txt und sitemap.xml ergänzen. Anders als diese zielt llms.txt speziell darauf ab, KI-Systemen einen kuratierten Überblick über die wichtigsten Inhalte zu geben. Auch externe Links können einbezogen werden, wenn sie zum Verständnis beitragen.
Howard empfiehlt Websitebetreibern, die llms.txt-Dateien mit verschiedenen Sprachmodellen zu testen, um sicherzustellen, dass die KI-Systeme die bereitgestellten Informationen wie gewünscht verarbeiten können.
Die Spezifikation des Standards ist offen für Feedback aus der Community und kann auf der Website llmstxt.org eingesehen werden. Howard betont, dass der Erfolg des Standards von der breiten Akzeptanz und Umsetzung durch die Webentwicklergemeinschaft abhängt. Weitere Informationen sind auf Github verfügbar.
Der "llms.txt"-Ansatz könnte die Entwicklung zu einem neuen Internet-Ökosystem rund um Chatbots vorantreiben. Ähnlich wie KI-basierte Antwortmaschinen wirft er grundlegende Fragen zur Zukunft des WWW auf, beispielsweise wer die inhaltliche Verantwortung für die von LLMs paraphrasierten Inhalte übernimmt, wie es um die Urheberrechte von Webseitenbetreibern steht, wie diese ihre Inhalte in einem Chatbot monetarisieren und ob und wie Chatbots die fehlende Kontextualisierung einer Webseite kompensieren können.