Ein Konsortium aus Schweizer Forschungsinstituten hat Apertus veröffentlicht, eine Familie von Sprachmodellen, die eine transparente und datenschutzkonforme Alternative zu kommerziellen Systemen wie ChatGPT bieten soll. Das Projekt legt den Fokus auf Nachvollziehbarkeit und Mehrsprachigkeit.
Entwickelt wurde Apertus von der Swiss AI Initiative, einer Kollaboration der ETH Zürich, der EPFL und dem Nationalen Supercomputing Centre der Schweiz (CSCS). Apertus soll eine Alternative zu den Systemen von US-amerikanischen und chinesischen Tech-Konzernen darstellen und ist in Größen mit 8 und 70 Milliarden Parametern verfügbar.
Das Projekt zielt laut den Entwicklern nicht darauf ab, mit den milliardenschweren Budgets der führenden KI-Unternehmen zu konkurrieren. Stattdessen soll ein sicheres und zugängliches KI-System für Wissenschaft und Wirtschaft geschaffen werden. "Wir wollen einen Bauplan dafür liefern, wie ein vertrauenswürdiges, souveränes und inklusives KI-Modell entwickelt werden kann", sagte Martin Jaggi, Professor für maschinelles Lernen an der EPFL, laut swissinfo.ch.
Vollständig offen statt nur "Open-Weight"
Ein zentrales Merkmal von Apertus ist laut dem technischen Bericht die vollständige Transparenz. Im Gegensatz zu vielen "Open-Weight"-Modellen, bei denen nur die finalen Modellgewichte veröffentlicht werden, stellt die Initiative alle Artefakte des Entwicklungszyklus zur Verfügung. Dazu gehören Datenaufbereitungsskripte, Trainingscode, Evaluations-Suiten und Zwischen-Checkpoints. Dieser Ansatz soll eine unabhängige Überprüfung und Erweiterung der Modelle ermöglichen.
Ein weiterer Schwerpunkt liegt auf der Daten-Compliance. Die Apertus-Modelle wurden laut den Entwicklern ausschließlich mit öffentlich verfügbaren Daten trainiert. Dabei wurden die robots.txt-Dateien von Webseiten respektiert, die KI-Crawler ausschließen. Dieser Prozess wurde sogar rückwirkend angewendet: Opt-Out-Präferenzen vom Januar 2025 wurden auf frühere Web-Scrapes angewendet, um die Rechte der Inhaltseigentümer zu wahren. Zudem wurden die Daten gefiltert, um urheberrechtlich geschützte, nicht-permissive, toxische und persönlich identifizierbare Inhalte zu entfernen. Dieser Ansatz soll die Konformität mit dem EU AI Act sicherstellen.
Um die wörtliche Wiedergabe von Trainingsdaten zu minimieren, setzten die Forscher auf das "Goldfish objective". Diese Methode reduziert während des Trainings durch selektives Maskieren von Tokens die Fähigkeit des Modells, Textpassagen auswendig zu lernen.
Technische Basis und Ausrichtung auf Schweizer Werte
Trainiert wurde Apertus auf dem Supercomputer "Alps" am CSCS mit bis zu 4.096 Nvidia-GPUs und einem Datensatz von 15 Billionen Tokens. Ein besonderer Fokus lag auf der Mehrsprachigkeit: Laut dem Bericht stammen die Trainingsdaten aus über 1.800 Sprachen, wobei rund 40 Prozent der Daten nicht-englisch sind. Auch Schweizer Landessprachen wie Rätoromanisch und Schweizerdeutsch seien berücksichtigt worden.
Für das Alignment bei kontroversen Themen wurde ein spezieller Ansatz gewählt, der auf der "Swiss AI Charter" basiert. Diese Charta orientiert sich an Schweizer Verfassungswerten wie Neutralität und Konsensbildung. Ein anderes Sprachmodell (Qwen3-32B) fungierte als "LLM-as-judge", um die Antworten von Apertus auf ihre Konformität mit der Charta zu bewerten.
In den Evaluations-Benchmarks zeigt das Apertus-70B-Instruct-Modell laut technischem Bericht eine solide Leistung, bleibt jedoch in den meisten allgemeinen Kategorien hinter den führenden Open-Weight-Modellen zurück. Bei Aufgaben, die Wissensabruf und logisches Denken erfordern, erreicht Apertus-70B im Durchschnitt niedrigere Werte als Modelle ältere Modelle wie Llama-3.3-70B, Qwen2.5-72B oder OLMo-2-32B-Instruct. Insbesondere bei komplexen schlussfolgernden Aufgaben (Reasoning) ist der Abstand zu den Spitzenmodellen deutlich, auch weil es sich nicht um ein Reasoning-Modell handelt.
Die Schwächen in den allgemeinen Benchmarks werden durch Stärken in spezialisierten, mehrsprachigen Anwendungsfällen ausgeglichen. Laut dem Bericht übertrifft Apertus-70B-Instruct bei der Übersetzung zwischen Deutsch und den sechs Varianten des Rätoromanischen das Llama-3.3-70B-Modell durchweg.
Potenzial für die Schweizer Wirtschaft
Branchenvertreter sehen Potenzial in dem heimischen KI-Modell. Die Schweizerische Bankiervereinigung nannte es eine Entwicklung mit "großem langfristigem Potenzial", insbesondere im Hinblick auf die Einhaltung lokaler Datenschutz- und Bankgeheimnisgesetze. Gleichzeitig nutzen einige Banken wie die UBS bereits Systeme von OpenAI und Microsoft.
Auch Swissmem, der Verband der Maschinenbauindustrie, sieht Vorteile, da das Modell auf europäische Datenvorschriften ausgelegt ist. Allerdings sei dies keine Garantie für eine breite Adaption. "Die Erfahrung zeigt, dass es keine Einheitslösung gibt, die für alle Bedürfnisse passt", sagte Adam Gontarz von Swissmem. "In manchen Fällen können auch internationale Lösungen die effektivste Wahl sein."
Leandro von Werra von der Open-Source-Plattform Hugging Face bezeichnete Apertus als "Wegbereiter" und "neuen Meilenstein bei offenen Modellen", vor allem aufgrund des Umfangs und des Rechenaufwands. Die Modelle sind für Forscher, Unternehmen und die Öffentlichkeit über Hugging Face verfügbar und können auf PublicAI ausprobiert werden.