Anzeige
Skip to content

Jonathan Kemper

Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Read full article about: OpenAI will das beste Sprachmodell, das in 16 MB passt

OpenAI fordert Forscher und Entwickler heraus, das beste Sprachmodell zu bauen, das in nur 16 MB passt – und nutzt den Wettbewerb gezielt zur Talentsuche. Beim offenen Forschungswettbewerb "Parameter Golf" müssen Gewichte und Trainingscode zusammen unter 16 MB bleiben, trainiert wird in maximal zehn Minuten auf acht H100-GPUs. Bewertet wird anhand der Kompression auf einem festen FineWeb-Datensatz.

OpenAI stellt dafür eine Million Dollar an Rechenzeit-Gutschriften über den Partner Runpod bereit. Herausragende Teilnehmer können zu Bewerbungsgesprächen eingeladen werden. Im Juni plant OpenAI, eine kleine Gruppe von Nachwuchsforschern einzustellen, darunter Studierende und Olympiade-Gewinner. Das GitHub-Repository enthält Baseline-Modelle, Evaluierungsskripte und eine öffentliche Rangliste. Die Teilnahme steht allen ab 18 Jahren in unterstützten Ländern offen und ist bis 30. April möglich.

Der Kampf um KI-Talente zwischen den großen Techkonzernen ist so hart wie nie. Meta hat in der Vergangenheit wiederholt Top-Forscher von OpenAI abgeworben, teilweise mit Vergütungspaketen von angeblich bis zu 300 Millionen Dollar.

Read full article about: Mistral AI veröffentlicht Mistral Small 4 als kleinen Open-Weight-Allrounder

Mistral AI hat mit Mistral Small 4 ein neues Modell veröffentlicht, das schnelle Textantworten, logisches Denken und Bildverarbeitung in einem vereint. Obwohl das Modell 119 Milliarden Parameter hat, sind pro Anfrage nur 6 Milliarden aktiv, da eine Architektur mit 128 Experten-Modulen jeweils nur vier davon gleichzeitig nutzt. Nutzer können ähnlich zur Konkurrenz über einen Parameter steuern, ob das Modell schnell oder gründlich antworten soll. Laut Mistral AI ist es 40 Prozent schneller und verarbeitet dreimal mehr Anfragen pro Sekunde als der Vorgänger.

Balkendiagramm zeigt die Benchmark-Ergebnisse von Mistral Small 4 High im Vergleich zu Magistral Medium 1.2 und Magistral Small 1.2 in den Kategorien LCR, AIME25, Collie und LiveCodeBench.
Mistral Small 4 mit hoher Reasoning-Stufe erreicht in internen Benchmarks ähnliche oder bessere Werte als die spezialisierten Magistral-Modelle.

Das Modell steht unter der offenen Apache-2.0-Lizenz und ist über Hugging Face, die Mistral API sowie Nvidia-Plattformen verfügbar. Mistral AI tritt zudem der Nvidia Nemotron Coalition bei, einem Zusammenschluss von Unternehmen, der die Entwicklung offener KI-Modelle vorantreiben soll. Bereits Anfang Dezember hatte Mistral AI mit der Mistral-3-Reihe neue multimodale Open-Source-Modelle veröffentlicht, darunter das Flaggschiff Mistral Large 3 mit 675 Milliarden Parametern.

OpenClaw-RL: Forscher wollen KI-Agenten allein durch Nutzung verbessern

KI-Agenten verwerfen wertvolles Feedback aus alltäglichen Interaktionen meist ungenutzt. Das neue Framework OpenClaw-RL von Princeton-Forschern ändert das: Es nutzt Live-Signale aus Chats, Terminal-Befehlen und GUI-Aktionen für das kontinuierliche Training im laufenden Betrieb. Schon wenige Dutzend Interaktionen reichen angeblich aus, um die Interaktionen zu verbessern.

Read full article about: Perplexity baut mit Personal Computer einen Always-on-KI-Agenten

Perplexity AI will mit "Personal Computer" Nutzern einen KI-Assistenten bieten, der rund um die Uhr Aufgaben erledigt – von E-Mails über Präsentationen bis zur App-Steuerung. Der Dienst läuft auf einem dedizierten Mac Mini, der mit den lokalen Apps des Nutzers und Perplexitys Servern verbunden ist, und lässt sich von jedem Gerät aus steuern. CEO Aravind Srinivas schrieb auf X, das System schlafe nie und sei ein "digitaler Stellvertreter". Der Dienst baut auf dem im Februar gestarteten Perplexity Computer auf, das verschiedene KI-Modelle bündelt.

Perplexity betont Sicherheitsfunktionen wie einen Kill Switch und ein Aktivitätsprotokoll. Voraussetzung ist das Max-Abo für 200 US-Dollar im Monat. Derzeit gibt es nur eine Warteliste.

Gleichzeitig baut Perplexity sein Angebot aus: Eine Enterprise-Version verbindet sich mit über 400 Tools wie Salesforce oder Snowflake und erledigte laut Perplexity intern in vier Wochen Arbeit im Wert von 3,25 Jahren. Das Konzept erinnert an das kontroverse OpenClaw, dessen Entwickler mittlerweile für OpenAI arbeitet. Agentische KI-Systeme dominieren derzeit die Szene, sehen sich aber auch scharfer Kritik vor allem hinsichtlich Ressourcenbedarf und Sicherheitslücken ausgesetzt.

Google bringt mit Gemini Embedding 2 Text, Bild, Video und Audio in einen gemeinsamen Vektorraum

Google stellt sein erstes nativ multimodales Embedding-Modell vor. Gemini Embedding 2 soll Text, Bilder, Videos, Audio und Dokumente in einem einzigen semantischen Raum abbilden und damit komplexe KI-Pipelines vereinfachen.

Read full article about: KI-Schreibassistent Grammarly verwendet ungefragt echte Namen für Expertentipps

Grammarly nutzt offenbar ohne Erlaubnis die Namen von Journalisten und Autoren für eine KI-Funktion namens "Expert Review". Das Feature gibt Nutzern Schreibtipps, die angeblich von Experten wie Stephen King oder Neil deGrasse Tyson "inspiriert" sind. Auch bereits verstorbene Personen wie Carl Sagan sollen in der Funktion vertreten sein. Wie The Verge, Platformer und Wired berichteten, tauchen zudem zahlreiche Tech-Journalisten auf, darunter Verge-Chefredakteur Nilay Patel und weitere Redakteure. Keiner soll vorab gefragt worden sein.

Screenshot: Grammarly Expert Review-Panel mit AI-Schreibvorschlägen von Technologie- und Stil-Experten.
Das Expert Review-Panel in Grammarly liefert kontextbasierte Schreibempfehlungen.

Nach Kritik soll Grammarly lediglich eine Opt-out-Möglichkeit per E-Mail angeboten haben, jedoch keine Entschuldigung. Alex Gay, Vizepräsident für Produktmarketing bei Mutterkonzern Superhuman, erklärte, die Funktion beanspruche keine direkte Beteiligung der Experten. Die Quellenlinks der Funktion führten laut The Verge teilweise zu Spam-Seiten oder völlig fremden Inhalten. Expertenbeschreibungen enthielten zudem veraltete Jobtitel. Die KI-Vorschläge ähneln in Google Docs echten Nutzerkommentaren, was irreführend wirken kann.

Read full article about: Claude Code reviewt jetzt Pull Requests mit einem ganzen Team aus KI-Agenten

Claude Code kann ab sofort automatisch Code-Änderungen auf Fehler prüfen, bevor sie in ein Projekt einfließen. Mehrere KI-Agenten suchen dabei parallel nach Bugs, Sicherheitslücken und Regressionen. Das System ist als Research Preview für Team- und Enterprise-Kunden verfügbar. Anthropic nutzt es intern bereits seit Monaten. Laut dem Unternehmen ist der Code-Ausstoß pro Entwickler im letzten Jahr um 200 Prozent gestiegen, was die manuelle Prüfung zum Engpass macht.

Vor dem Einsatz erhielten 16 Prozent der Änderungen inhaltliche Kommentare, jetzt sind es 54 Prozent. Bei großen Änderungen über 1.000 Zeilen findet das System in 84 Prozent der Fälle Probleme, im Schnitt 7,5 pro Änderung. Insgesamt werden weniger als ein Prozent aller Funde als falsch markiert. Das System genehmigt keine Änderungen – das bleibt Aufgabe der Entwickler. Die Kosten werden nach Token-Verbrauch abgerechnet und liegen im Durchschnitt bei 15 bis 25 Dollar pro Review, abhängig von Größe und Komplexität. Admins können ein monatliches Ausgabenlimit setzen.

Anthropic baut Claude Code in diesem Jahr massiv aus. Zuletzt kamen unter anderem automatisierte Desktop-Funktionen, eine Remote-Steuerung fürs Smartphone, eine Memory-Funktion und ein Scheduling-Feature für geplante Aufgaben hinzu.

Erfundene Quellen haben sich bereits in die wissenschaftliche Literatur eingeschlichen

Gefälschte Zitate rutschen durch das Peer-Review führender KI-Konferenzen und kommerzielle LLMs erkennen ihre eigenen Fakes nicht. Ein neues Open-Source-Tool namens CiteAudit soll finden, was GPT, Gemini und Claude übersehen.