Laut Android Authority plant Google die Einführung einer Reihe neuer KI-Funktionen unter der Marke "Google AI" für die Pixel 9-Serie. Dazu gehören neben bestehenden Funktionen wie Circle to Search und Gemini auch drei neue Funktionen: "Add Me" soll sicherstellen, dass jeder auf einem Gruppenfoto zu sehen ist und baut auf der Funktion Best Take auf. "Studio" könnte ein KI-Bildgenerator ähnlich wie Apples Image Playground werden. Die interessanteste Neuerung ist "Pixel Screenshots", eine datenschutzfreundlichere Alternative zu Microsofts umstrittener Recall-Funktion. Statt alles automatisch aufzuzeichnen, funktioniert es nur mit selbst erstellten Screenshots, die mit Metadaten angereichert und von einer lokalen KI analysiert werden. So können die Screenshots nach Inhalten durchsucht und Fragen dazu gestellt werden.
Perplexity AI hat eine verbesserte Version von Pro Search vorgestellt. Pro Search kann nun Fragen mit mehreren Zwischenschritten beantworten, durch die Integration der Wolfram|Alpha-Engine fortgeschrittene Mathematik- und Programmieraufgaben durchführen und intelligente Aktionen auf Basis der Suchergebnisse ausführen, wie z.B. Folgesuchen. Pro Search steht allen Nutzern fünfmal alle vier Stunden kostenlos zur Verfügung, Perplexity Pro-Abonnenten haben praktisch keine Nutzungsbeschränkung. Derzeit steht das Start-up mit seiner "Antwortmaschine" wegen möglicher Urheberrechtsverletzungen und unseriöser Datenbeschaffungspraktiken in der Kritik.
Meta ändert die Kennzeichnung "Made with AI" in "AI info", um den Einsatz von KI in Fotos anzuzeigen. Das Unternehmen reagiert damit auf Beschwerden von Fotografen, dass auch Bilder mit dem Label versehen wurden, bei denen nur einfache Bearbeitungswerkzeuge mit KI-Unterstützung verwendet wurden. Meta erhofft sich von der Änderung, dass das Label deutlich macht, dass die gekennzeichneten Bilder nicht zwangsläufig vollständig mit KI erstellt wurden. Das Problem unentdeckter KI-Bilder wird durch das neue Label nicht gelöst: Meta verwendet weiterhin technische Metadatenstandards wie C2PA und IPTC, um die Verwendung von KI-Werkzeugen zu erkennen.
Agility Robotics, Hersteller des humanoiden Roboters Digit, und der Logistikdienstleister GXO Logistics haben eine mehrjährige Vereinbarung zur kommerziellen Integration von Digit-Robotern in GXO-Logistikzentren geschlossen. Die Vereinbarung, die auf einen Pilotversuch Ende 2023 folgt, stellt laut den Unternehmen sowohl die branchenweit erste formelle kommerzielle Einführung als auch die erste Robotics-as-a-Service (RaaS)-Einführung humanoider Roboter dar. Im Rahmen der RaaS-Vereinbarung setzt GXO Digit-Roboter zusammen mit der Cloud-Automatisierungsplattform Agility Arc ein. In einem Omnichannel-Vertriebszentrum von SPANX in Atlanta unterstützen die Digit-Roboter bei sich wiederholenden Aufgaben wie dem Bewegen von Behältern und deren Platzierung auf Förderbändern. Die Unternehmen wollen weitere Anwendungsfälle erkunden und den Einsatz von Digit je nach Bedarf ausweiten.
Apple arbeitet laut Bloomberg Reporter Mark Gurman daran, Apple Intelligence auch für das Vision Pro Headset verfügbar zu machen. Eine Herausforderung sei dabei, die Funktionen für Mixed Reality zu optimieren. Die KI-Features sollen für die Vision Pro erst im nächsten Jahr erscheinen - Apple Intelligence startet auf allen anderen unterstützten Geräten im Herbst. Bis dahin erwartet Gurman auch einen Deal mit Google oder Anthropic, um weitere KI-Modelle zu unterstützen. Langfristig könnte das Unternehmen einen monatlich zu bezahlenden Service wie "Apple Intelligence+" planen, der zusätzliche Funktionen bietet, um mit der Technologie Geld zu verdienen. Apple erhält bereits einen Anteil an den Abonnementeinnahmen jedes KI-Partners, den es an Bord holt. "Das Unternehmen wird dann weniger auf Hardware-Optimierungen angewiesen sein, um sein Geschäft voranzutreiben, und es wird tatsächlich Geld mit KI verdienen - etwas, das sich jeder im Silicon Valley erhofft", sagt Gurman.
LMSYS Org hat die Chatbot Arena um Bilderkennung erweitert, um Vision-Language-Modelle (VLMs) von OpenAI, Anthropic, Google und anderen KI-Anbietern zu vergleichen. In zwei Wochen wurden über 17.000 Nutzerpräferenzen in mehr als 60 Sprachen gesammelt. GPT-4o und Claude 3.5 Sonnet schneiden bei Bilderkennung deutlich besser ab als Gemini 1.5 Pro und GPT-4 Turbo. Während Claude 3 Opus bei Sprachmodellen besser ist als Gemini 1.5 Flash, sind beide bei VLMs ähnlich gut. Das Open-Source-Modell Llava-v1.6-34b übertrifft knapp Claude-3-Haiku. Die gesammelten Daten zeigen häufige Anwendungen wie Bildbeschreibung, Matheaufgaben, Dokumentenverständnis, Meme-Erklärung und Geschichtenschreiben. Als nächstes plant das Team die Unterstützung mehrerer Bilder sowie von PDFs, Videos und Audio. Large Model Systems Organization (LMSYS Org) ist eine offene Forschungsorganisation, die von Studenten und Dozenten der UC Berkeley in Zusammenarbeit mit der UCSD und der CMU gegründet wurde.