Anzeige
Skip to content

Studie deckt massive Schwächen in KI-Benchmarks auf

Ein internationales Forschungsteam hat die Validität von Large-Language-Model-Benchmarks systematisch untersucht und dabei erhebliche Mängel aufgedeckt. Die Analyse von 445 Benchmark-Artikeln aus führenden KI-Konferenzen zeigt, dass fast alle Bewertungsverfahren fundamentale methodische Schwächen aufweisen.

Moonshot AI stellt Kimi K2 Thinking als "bestes Open-Source-Thinking-Modell" vor

Das chinesische KI-Unternehmen Moonshot AI hat mit Kimi K2 Thinking ein neues Open-Source-Sprachmodell vorgestellt, das nach eigenen Angaben das „beste Open-Source-Thinking-Modell“ sein soll. Beeindruckend ist eine Demo, bei der das Modell aus nur einem Prompt einen Word-Klon erzeugt.

Read full article about: Sechs KI-Pioniere sprechen über KI-Durchbrüche und überhöhte Erwartungen

KI-Elefantenrunde bei der Verleihung des Queen Elizabeth Prize 2025: Sechs führende Köpfe der KI-Forschung – Bill Dally, Yoshua Bengio, Fei-Fei Li, Yann LeCun, Jeff Hinton und Nvidia-CEO Jensen Huang – sprachen über persönliche Wendepunkte und die Entwicklung heutiger KI-Technologien.

Themen waren die Rolle von GPUs, große Sprachmodelle, selbstüberwachtes Lernen und der Einfluss von Bilddatensätzen wie ImageNet. Huang betonte, dass KI keine Blase sei, sondern eine neue Industrie mit wachsendem Bedarf an Rechenzentren. Li und LeCun warnten hingegen vor überzogenen Hoffnungen auf menschenähnliche Intelligenz. Die Runde war sich einig, dass KI langfristig viele Lebensbereiche prägen wird, es aber noch große wissenschaftliche Herausforderungen gibt.

Read full article about: Nvidia will das Datenproblem in der Robotik in ein Rechenproblem verwandeln

Nvidia setzt auf synthetische Daten, um die größte Hürde der Robotik zu überwinden: den Mangel an Trainingsdaten.

"Wir nennen das die große Datenlücke in der Robotik", erklärt ein Nvidia-Forscher beim Physical AI and Robotics Day auf der GTC Washington. Während große Sprachmodelle mit Billionen von Tokens aus dem Internet trainiert werden, stehen für Robotermodelle wie Nvidias GR00T bestenfalls ein paar Millionen Stunden aufwendig gesammelte Teleoperation-Daten zur Verfügung – und die meisten davon sind hochgradig aufgabenspezifisch.

Nvidias Lösung: Die Verhältnisse in der "Datenpyramide für Robotik" verschieben. An der Spitze stehen reale Daten – klein und teuer. In der Mitte synthetische Daten aus Simulation – theoretisch unbegrenzt. An der Basis: unstrukturierte Webdaten. "Wenn synthetische Daten die Web-Daten übertreffen, können Roboter wirklich generalisiert für jede Aufgabe lernen", so das Team. Mit Cosmos und Isaac Sim will Nvidia so ein Datenproblem in ein Compute-Problem verwandeln.

German Commons: Forschende veröffentlichen größten offen lizenzierten deutschen Textkorpus

Ein Forschungsteam hat mit German Commons die bisher umfangreichste Sammlung explizit offen lizenzierter deutscher Texte zusammengestellt. Der Korpus soll die Entwicklung rechtlich unbedenklicher deutscher Sprachmodelle ermöglichen.

OpenAIs und Microsofts AGI-Theater steckt voller Widersprüche

Vergangene Woche haben Microsoft und OpenAI angekündigt, selbst festlegen zu wollen, wann sogenannte AGI (Artificial General Intelligence) erreicht ist, und anschließend ein Expertengremium einzuberufen, das diesen Zustand bestätigt.

Dass AGI in der Ankündigung beider Unternehmen derart viel Bedeutung beigemessen wird, wirkt absurd, wenn man die früheren Aussagen der Firmenchefs berücksichtigt.

Studie: Selbstreferenz triggert Bewusstseinsbehauptungen in großen Sprachmodellen

Große Sprachmodelle wie GPT oder Claude machen gelegentlich Aussagen, die Bewusstsein oder subjektives Erleben suggerieren. Ein Forschungsteam hat nun untersucht, unter welchen Bedingungen dieses Verhalten auftritt und welche internen Mechanismen es beeinflussen.