Deepmind-Studie will Maschinenblick und menschliche Wahrnehmung aufeinander abstimmen
Ein Forschungsteam von Google DeepMind, deutschen Partnern und Anthropic hat eine Methode vorgestellt, mit der KI-Modelle menschliche Urteilsmuster in der visuellen Wahrnehmung besser nachvollziehen sollen. Die Studie in Nature zeigt, dass solche „human-aligned“ Modelle robuster, generalisierungsfähiger und weniger fehleranfällig sind.
Baidus neues ERNIE-Modell bearbeitet Bilder während des Denkprozesses
Baidu hat mit ERNIE-4.5-VL-28B-A3B-Thinking ein Reasoning-Model veröffentlicht, das Bilder während des Denkprozesses ver- und bearbeiten kann, etwa einzoomen, um Text besser lesen zu können.
Metas neues KI-System versteht und transkribiert gesprochene Sprache in mehr als 1.600 Sprachen
Laut Metas Forschungsabteilung Fundamental AI Research (FAIR) soll Omnilingual ASR gesprochene Sprache in über 1.600 Sprachen transkribieren können, darunter 500 seltene Sprachen. Es kann sich neue Sprachen sogar per Few-Shot-Prompting aneignen.
Forschende haben Googles neueste Video-KI Veo 3 mit chirurgischen Aufnahmen getestet – und eine deutliche Kluft zwischen optischer Brillanz und medizinischem Verständnis festgestellt. Das System erzeugt verblüffend plausible Bilder, die fachlich oft keinen Sinn ergeben.
Ein als "Roon" auf X bekannter OpenAI-Entwickler erklärt, warum der "Charakter" eines LLMs nicht reproduzierbar ist. Laut Roon (via JB) kann sich die Persönlichkeit eines Modells bei jedem Trainingslauf verändern, auch wenn die Daten identisch bleiben. Grund dafür sind zufällige Faktoren im Trainingsprozess, etwa beim Reinforcement Learning (RL), die zu leicht abweichenden Ergebnissen führen. Diese Unterschiede entstehen durch zufällige Entscheidungen im sogenannten Modellraum.