此页面由 Cloud Translation API 翻译。

观看 2025 年 I/O 大会上的 AI 讲座

Alexandra Klepper

发布时间：2025 年 5 月 22 日

AI 正在改变 Web 开发者构建网站和 Web 应用的方式。在 2025 年 Google I/O 大会上，我们分享了过去一年来的工作成果，展示了合作伙伴如何在网络上利用 AI，并发布了新的内置 AI API。

您错过了活动？好消息，您现在可以观看点播讲座了！

Chrome 中内置了实用的 Gemini Nano AI

Thomas Steiner

我们的核心使命是让 Chrome 和 Web 为所有开发者和所有用户提供更智能的服务。在此讲座中，Thomas Steiner 分享了有关内置 AI 的最新动态、实际应用场景，并展望了未来。

内置 AI 在浏览器中运行客户端模型，具有以下几项优势：

私密：敏感的用户数据会保留在设备上，永远无需离开浏览器。
离线：即使没有互联网连接，应用也能使用 AI 功能。
高性能：借助硬件加速，这些 API 可提供出色的性能。

查看每个内置 AI API 的代码示例，了解其最新状态，并查看哪些公司正在实现这项技术。

多模态 API

我们正在开发全新的多模态 API。这意味着，您可以向 Gemini Nano 询问它在视觉内容中“看到”的内容或在音频内容中“听到”的内容。例如，在博客平台上，针对用户上传的图片获取替代文字建议，用户可以对这些建议进行优化和调整。或者，您也可以让 Gemini Nano 为播客撰写说明或转写内容。

混合 AI

开发者在客户端 AI 方面面临的一项挑战是，并非所有平台和浏览器都满足在设备上运行模型所需的硬件要求。Gemini 与 Firebase 合作构建了 Firebase Web SDK，以便在无法进行客户端实现时，您可以回退到服务器上的 Gemini Nano。

与您合作

我们很高兴能与众多开发者合作开发内置 AI API。没有您的支持，我们就无法取得这些成就。

早期预览版计划：已有超过 16,000 名开发者加入 EPP，测试新 API、发现新用例并提供反馈，以打造更出色的 AI 网页。
黑客马拉松：我们举办了两次黑客马拉松，您构建了一些令人难以置信的网站和扩展程序。

您的工作尚未完成。请继续分享您的反馈意见，测试新的内置 API，我们将不断迭代。您甚至可以加入 W3C 的 Web 机器学习社区组，帮助标准化这些 API。

Gemini 助力 Chrome 扩展程序的未来

Sebastian Benz

在过去两年中，AI 赋能的扩展服务数量翻了一番。事实上，从 Chrome 应用商店安装的所有扩展程序中有 10% 都使用了 AI。在此讲座中，Sebastian Benz 举例说明了 Chrome 扩展程序和 Gemini 为何是如此强大的组合。

例如，您可以使用 Chrome 新推出的提示 API，通过提取和处理客户端网站中的数据，让浏览器变得更加实用。

展示了 Chrome 扩展程序中 Chrome 的提示 API 的全新多模态功能，可让用户更轻松地访问音频和图片。

通过介绍 Google DeepMind 的 Project Mariner 如何使用 Chrome 扩展程序和最新的 Gemini Cloud API 构建功能完善的浏览器代理，展望浏览的未来。

探索在云端或 Chrome 扩展程序中在浏览器内使用 Gemini 的潜力，打造全新的浏览体验，让浏览器更加实用。

现实世界中的 Web AI 应用场景和策略

Yuriko Hirota

Swetha Gopalakrishnan

Yuriko Hirota 和 Swetha Gopalakrishnan 重点介绍了公司在网络上使用 AI 来改善业务和用户体验的实际案例。无论他们的解决方案是使用客户端模型、服务器端模型还是混合解决方案，重要的是您现在可以为用户提供令人兴奋的新功能和特性。

B 站推出了一项新功能：弹幕评论，让视频直播更具吸引力。它们可在视频中提供实时用户评论，并呈现在演讲者身后。为此，他们使用了图像分割这一广为人知的机器学习概念。结果，会话时长增加了 30%！ Tokopedia 使用人脸检测模型评估上传照片的质量，从而减少了卖家验证流程中的摩擦。结果，他们将手动审批减少了近 70%。

Vision Nanny 是一个面向脑性视觉障碍 (CVI) 儿童的 Web 平台，可提供 AI 赋能的视觉刺激活动。它们使用多个 MediaPipe 库，包括手部地标检测模型，该模型可在图片、视频或实时画面中定位手部的关键点。一项针对 50 名儿童的试点研究表明，Vision Nanny 的响应速度比人工视觉刺激活动快 5 倍。治疗师表示，通过移除手动设置，他们平均每场治疗节省了 3 小时的时间。

Google Meet 具有多项由 AI 赋能的功能，可改善光线效果、减少模糊和视频模糊不清的情况。最大的挑战在于，这些功能需要实时运行。WebAssembly (Wasm) 应运而生，可充分利用计算机的 CPU 性能，实现实时视频处理。

以上只是网络上正在发生的 AI 的几个真实示例。其他几家公司也尝试了内置的 AI API，其中一些公司在案例研究中分享了他们的工作。

客户端 Web AI 智能体：打造更智能的未来用户体验

Jason Mayes

Jason Mayes 介绍了互联网的未来：Web AI 智能体。网络将迎来智能体时代，直接在浏览器中提供 AI 功能，代表您完成有用的工作，而不仅仅是大型语言模型 (LLM) 的功能。

采用客户端方法可增强隐私保护、缩短延迟时间，并可能大幅节省费用。借助代理，您可以升级现有网站，让代理自主为用户执行任务，动态选择和使用公开的工具（可能以循环方式），从而让代理完成可能复杂或多步骤的任务。

客服人员可以执行以下操作：

规划和划分子任务，通过多步规划将任务拆分为合乎逻辑的步骤，以便逐步完成，从而处理更复杂的问题。
选择最佳工具，无论是函数、API 使用还是数据存储区访问，以扩充语言模型的基础知识，然后执行可影响外部世界的操作。
保留基于上下文的记忆，根据智能体或外部工具先前的输出。短期记忆就像一个 FIFO 缓冲区，用于存储上下文记录，最多可存储模型上下文窗口大小的记录；而长期记忆则可以使用向量数据库来存储信息，以便根据需要从之前的对话会话或其他数据源中调用信息。

Web AI 代理旨在集成到 JavaScript 中的现有 Web 技术中。最终，我们必须继续加速硬件开发，以便在浏览器中以最佳方式运行模型。展望未来，WebNN 等技术将在优化 CPU、GPU 和 NPU 上的模型执行方面发挥关键作用。随着 LLM 越来越小，技术不断进步，未来这一功能只会变得更加强大。

不妨考虑采用混合方法，将设备端处理与战略性云调用相结合，以便立即在浏览器中打造智能、响应迅速且个性化的用户体验。随着设备在运行 LLM 方面的能力越来越强，您投资于 Web AI 方法的回报很快就会显现。

回顾 2025 年 Google I/O 大会

我们已发布 2025 年 Google I/O 大会的所有讲座，并专门为 Web 开发者创建了一个播放列表。如需观看更多内容，请访问 io.google/2025。

观看 2025 年 I/O 大会上的 AI 讲座 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。