KI-Vorträge bei der I/O 2025 ansehen

Alexandra Klepper
Alexandra Klepper

Veröffentlicht am 22. Mai 2025

KI verändert die Art und Weise, wie Webentwickler Websites und Webanwendungen erstellen. Auf der Google I/O 2025 haben wir vorgestellt, woran wir im letzten Jahr gearbeitet haben, gezeigt, wie unsere Partner KI im Web einsetzen, und neue integrierte KI‑APIs angekündigt.

Hast du das Event verpasst? Gute Neuigkeiten: Sie können sich die Vorträge jetzt on demand ansehen.

Praktische integrierte KI mit Gemini Nano in Chrome

Unser Hauptziel ist es, Chrome und das Web für alle Entwickler und Nutzer intelligenter zu machen. In diesem Vortrag gibt Thomas Steiner einen Überblick über die Neuerungen bei integrierter KI, praktische Anwendungsfälle und einen Ausblick auf die Zukunft.

Die integrierte KI führt clientseitige Modelle im Browser aus, was mehrere Vorteile bietet:

  • Privat: Sensible Nutzerdaten verbleiben auf dem Gerät und müssen den Browser nie verlassen.
  • Offline: Anwendungen können auf KI-Funktionen zugreifen, auch ohne Internetverbindung.
  • Leistungsstark: Dank Hardwarebeschleunigung bieten diese APIs eine hervorragende Leistung.

Sehen Sie sich Codebeispiele für jede der integrierten KI-APIs an, informieren Sie sich über den aktuellen Status und sehen Sie, welche Unternehmen diese Technologie implementieren.

Multimodale APIs

Wir arbeiten an brandneuen multimodalen APIs. Sie können Gemini Nano also Fragen zu dem stellen, was es in visuellen Inhalten „sieht“ oder in Audioinhalten „hört“. So können Nutzer beispielsweise Vorschläge für alternativen Text für hochgeladene Bilder auf einer Blogplattform erhalten, die sie dann anpassen können. Sie könnten Gemini Nano auch bitten, Beschreibungen oder Transkriptionen für Podcasts zu erstellen.

Hybride KI

Eine Herausforderung für Entwickler bei der clientseitigen KI besteht darin, dass nicht alle Plattformen und Browser die Hardwareanforderungen für die Ausführung eines Modells auf dem Gerät erfüllen. Gemini und Firebase haben gemeinsam das Firebase Web SDK entwickelt. Wenn clientseitige Implementierungen nicht verfügbar sind, können Sie auf einem Server auf Gemini Nano zurückgreifen.

Zusammenarbeit mit Ihnen

Wir freuen uns, dass wir mit so vielen Entwicklern an integrierten KI-APIs zusammengearbeitet haben. Ohne Sie wären unsere Bemühungen nicht möglich.

Ihre Arbeit ist noch nicht abgeschlossen. Bitte geben Sie uns weiterhin Feedback und testen Sie die neuen integrierten APIs. Wir werden die APIs dann weiter verbessern. Sie können sogar dazu beitragen, diese APIs zu standardisieren, indem Sie der Web Machine Learning Community Group des W3C beitreten.

Die Zukunft von Chrome-Erweiterungen mit Gemini in Ihrem Browser

Die Anzahl der KI-basierten Erweiterungen hat sich in den letzten zwei Jahren verdoppelt. Tatsächlich nutzen 10% aller Erweiterungen, die aus dem Chrome Web Store installiert werden, KI. In diesem Vortrag gibt Sebastian Benz praktische Beispiele dafür, warum Chrome-Erweiterungen und Gemini eine so leistungsstarke Kombination sind.

Beispiele dafür sind, wie Sie den Browser hilfreicher machen können, indem Sie Daten von Websites auf dem Client mithilfe der neu eingeführten Prompt API von Chrome extrahieren und verarbeiten.

Wir möchten das Potenzial der neuen multimodalen Funktionen der Prompting API von Chrome in Chrome-Erweiterungen demonstrieren, um Audio und Bilder für Nutzer zugänglicher zu machen.

Wir werfen einen Blick auf die Zukunft des Browsens und erklären, wie bei Project Mariner von Google DeepMind Chrome-Erweiterungen und die neuesten Gemini Cloud APIs verwendet werden, um einen vollwertigen Browser-Agent zu entwickeln.

Entdecken Sie das Potenzial von Gemini in der Cloud oder im Browser in Chrome-Erweiterungen, um neue Browserfunktionen zu entwickeln und den Browser noch hilfreicher zu machen.

Web AI – Anwendungsfälle und Strategien in der Praxis

Yuriko Hirota
Yuriko Hirota
Swetha Gopalakrishnan
Swetha Gopalakrishnan

Yuriko Hirota und Swetha Gopalakrishnan stellten Beispiele aus der Praxis vor, wie Unternehmen KI im Web einsetzen, um ihr Geschäft und die Nutzerfreundlichkeit zu verbessern.Ob ihre Lösung clientseitige, serverseitige oder hybride Modelle verwendet, wichtig sind die spannenden neuen Funktionen, die Sie Ihren Nutzern jetzt zur Verfügung stellen.

BILIBILI hat seine Videostreams mit einer neuen Funktion noch ansprechender gestaltet: Bullet-Screen-Kommentare. Sie bieten Echtzeit-Nutzerkommentare im Video, die hinter dem Sprecher gerendert werden. Dazu wird die Bildsegmentierung verwendet, ein bekanntes Konzept des maschinellen Lernens. Die Sitzungsdauer stieg um 30 %. Tokopedia hat die Reibung im Verifizierungsprozess für Verkäufer durch den Einsatz eines Gesichtserkennungsmodells reduziert, um die Qualität der hochgeladenen Fotos zu bewerten. Dadurch konnte die Anzahl der manuellen Genehmigungen um fast 70 % gesenkt werden.

Vision Nanny ist eine Webplattform für Kinder mit zerebraler Sehbehinderung, die KI-basierte Aktivitäten zur Sehstimulation bietet. Sie verwenden mehrere MediaPipe-Bibliotheken, darunter das Modell zur Erkennung von Hand-Landmarks, mit dem wichtige Punkte der Hände in einem Bild, Video oder in Echtzeit lokalisiert werden. In einem Pilotprojekt mit 50 Kindern wurde gezeigt, dass Vision Nanny fünfmal schneller reagierte als manuelle visuelle Stimulationsaktivitäten. Therapeuten gaben an, dass sie durch den Wegfall der manuellen Einrichtung durchschnittlich drei Stunden pro Sitzung einsparen.

Google Meet bietet mehrere KI-basierte Funktionen, mit denen sich unter anderem die Beleuchtung verbessern und Unschärfe und Flimmern in Videos reduzieren lassen. Die größte Herausforderung besteht darin, dass diese Funktionen in Echtzeit funktionieren müssen. Hier kommt WebAssembly (Wasm) ins Spiel, um die volle Leistung der CPU eines Computers zu nutzen und die Videoverarbeitung in Echtzeit zu ermöglichen.

Das sind nur einige Beispiele aus der Praxis für KI im Web. Mehrere andere Unternehmen haben mit den integrierten KI-APIs experimentiert. Einige haben ihre Arbeit in Fallstudien geteilt.

Clientseitige Web-KI-Agents für intelligentere Nutzererlebnisse in der Zukunft

Jason Mayes hat die Zukunft des Internets vorgestellt: Web-KI-Agents. Das Web hat eine Zukunft mit Agenten, in der KI-Funktionen direkt in den Browser integriert werden, um in Ihrem Namen nützliche Aufgaben zu erledigen, die über die Möglichkeiten von Large Language Models (LLMs) hinausgehen.

Ein clientseitiger Ansatz bietet einen besseren Datenschutz, eine geringere Latenz und potenziell erhebliche Kosteneinsparungen. Mit KI-Agenten können Sie Ihre bestehende Website aufwerten, damit Aufgaben autonom für einen Nutzer ausgeführt werden. Dabei werden die verfügbaren Tools dynamisch ausgewählt und verwendet – möglicherweise in einer Schleife –, sodass der KI-Agent potenziell komplexe oder mehrstufige Aufgaben erledigen kann.

Kundenservicemitarbeiter können:

  • Unteraufgaben planen und aufteilen: Komplexere Probleme werden durch mehrstufige Planung in logische Schritte unterteilt.
  • Die besten Tools auswählen, z. B. Funktionen, API-Nutzung oder Datenspeicherzugriff, um das Basiswissen des erweiterten Sprachmodells zu erweitern, und dann Aktionen in der Außenwelt ausführen.
  • Kontextbasiertes Gedächtnis beibehalten, basierend auf früheren Ausgaben des Agents oder externen Tools. Das Kurzzeitgedächtnis fungiert wie ein FIFO-Puffer des Kontexthistorie bis zur Kontextfenstergröße des Modells. Im Gegensatz dazu kann im Langzeitgedächtnis eine Vektordatenbank verwendet werden, um Informationen zu speichern, die bei Bedarf aus früheren Unterhaltungssitzungen oder anderen Datenquellen abgerufen werden können.

Web AI-Agents sind so konzipiert, dass sie in vorhandene Webtechnologien in JavaScript eingebunden werden können. Letztendlich ist es wichtig, dass wir unsere Hardware weiter beschleunigen, um Modelle im Browser optimal auszuführen. Mit Blick auf die Zukunft wird Technologie wie WebNN eine wichtige Rolle bei der Optimierung der Modellausführung auf CPUs, GPUs und NPUs spielen. Da der Trend zu kleineren LLMs geht und die Technologie sich ständig weiterentwickelt, wird sie in Zukunft noch leistungsfähiger werden.

Sie können einen hybriden Ansatz verwenden, bei dem die Verarbeitung auf dem Gerät mit strategischen Cloud-Aufrufen kombiniert wird. So können Sie jetzt intelligente, reaktionsschnelle und personalisierte Nutzererlebnisse im Browser schaffen. Bald sollte sich Ihr Return on Investment in Web AI auszahlen, da Geräte immer besser in der Lage sind, LLMs auszuführen.

Google I/O 2025

Wir haben alle Vorträge der Google I/O 2025 veröffentlicht. Es gibt eine Playlist speziell für Webentwickler. Weitere Informationen finden Sie unter io.google/2025.