观看 2025 年 I/O 大会上的 AI 讲座

Alexandra Klepper
Alexandra Klepper

发布时间:2025 年 5 月 22 日

AI 正在改变 Web 开发者构建网站和 Web 应用的方式。在 2025 年 Google I/O 大会上,我们分享了过去一年来的工作成果,展示了合作伙伴如何在网络上利用 AI,并发布了新的内置 AI API

您错过了活动?好消息,您现在可以观看点播讲座了!

Chrome 中内置了实用的 Gemini Nano AI

我们的核心使命是让 Chrome 和 Web 为所有开发者和所有用户提供更智能的服务。在此讲座中,Thomas Steiner 分享了有关内置 AI 的最新动态、实际应用场景,并展望了未来。

内置 AI 在浏览器中运行客户端模型,具有以下几项优势:

  • 私密:敏感的用户数据会保留在设备上,永远无需离开浏览器。
  • 离线:即使没有互联网连接,应用也能使用 AI 功能。
  • 高性能:借助硬件加速,这些 API 可提供出色的性能。

查看每个内置 AI API 的代码示例,了解其最新状态,并查看哪些公司正在实现这项技术。

多模态 API

我们正在开发全新的多模态 API。这意味着,您可以向 Gemini Nano 询问它在视觉内容中“看到”的内容或在音频内容中“听到”的内容。例如,在博客平台上,针对用户上传的图片获取替代文字建议,用户可以对这些建议进行优化和调整。或者,您也可以让 Gemini Nano 为播客撰写说明或转写内容。

混合 AI

开发者在客户端 AI 方面面临的一项挑战是,并非所有平台和浏览器都满足在设备上运行模型所需的硬件要求。Gemini 与 Firebase 合作构建了 Firebase Web SDK,以便在无法进行客户端实现时,您可以回退到服务器上的 Gemini Nano。

与您合作

我们很高兴能与众多开发者合作开发内置 AI API。没有您的支持,我们就无法取得这些成就。

您的工作尚未完成。请继续分享您的反馈意见,测试新的内置 API,我们将不断迭代。您甚至可以加入 W3C 的 Web 机器学习社区组,帮助标准化这些 API。

Gemini 助力 Chrome 扩展程序的未来

在过去两年中,AI 赋能的扩展服务数量翻了一番。事实上,从 Chrome 应用商店安装的所有扩展程序中有 10% 都使用了 AI。在此讲座中,Sebastian Benz 举例说明了 Chrome 扩展程序和 Gemini 为何是如此强大的组合。

例如,您可以使用 Chrome 新推出的提示 API,通过提取和处理客户端网站中的数据,让浏览器变得更加实用。

展示了 Chrome 扩展程序中 Chrome 的提示 API 的全新多模态功能,可让用户更轻松地访问音频和图片。

通过介绍 Google DeepMind 的 Project Mariner 如何使用 Chrome 扩展程序和最新的 Gemini Cloud API 构建功能完善的浏览器代理,展望浏览的未来。

探索在云端或 Chrome 扩展程序在浏览器内使用 Gemini 的潜力,打造全新的浏览体验,让浏览器更加实用。

现实世界中的 Web AI 应用场景和策略

Yuriko Hirota
Yuriko Hirota
Swetha Gopalakrishnan
Swetha Gopalakrishnan

Yuriko Hirota 和 Swetha Gopalakrishnan 重点介绍了公司在网络上使用 AI 来改善业务和用户体验的实际案例。无论他们的解决方案是使用客户端模型、服务器端模型还是混合解决方案,重要的是您现在可以为用户提供令人兴奋的新功能和特性。

B 站推出了一项新功能:弹幕评论,让视频直播更具吸引力。它们可在视频中提供实时用户评论,并呈现在演讲者身后。为此,他们使用了图像分割这一广为人知的机器学习概念。结果,会话时长增加了 30%! Tokopedia 使用人脸检测模型评估上传照片的质量,从而减少了卖家验证流程中的摩擦。结果,他们将手动审批减少了近 70%。

Vision Nanny 是一个面向脑性视觉障碍 (CVI) 儿童的 Web 平台,可提供 AI 赋能的视觉刺激活动。它们使用多个 MediaPipe 库,包括手部地标检测模型,该模型可在图片、视频或实时画面中定位手部的关键点。一项针对 50 名儿童的试点研究表明,Vision Nanny 的响应速度比人工视觉刺激活动快 5 倍。治疗师表示,通过移除手动设置,他们平均每场治疗节省了 3 小时的时间。

Google Meet 具有多项由 AI 赋能的功能,可改善光线效果、减少模糊和视频模糊不清的情况。最大的挑战在于,这些功能需要实时运行。WebAssembly (Wasm) 应运而生,可充分利用计算机的 CPU 性能,实现实时视频处理。

以上只是网络上正在发生的 AI 的几个真实示例。其他几家公司也尝试了内置的 AI API,其中一些公司在案例研究中分享了他们的工作。

客户端 Web AI 智能体:打造更智能的未来用户体验

Jason Mayes 介绍了互联网的未来:Web AI 智能体。网络将迎来智能体时代,直接在浏览器中提供 AI 功能,代表您完成有用的工作,而不仅仅是大型语言模型 (LLM) 的功能。

采用客户端方法可增强隐私保护、缩短延迟时间,并可能大幅节省费用。借助代理,您可以升级现有网站,让代理自主为用户执行任务,动态选择和使用公开的工具(可能以循环方式),从而让代理完成可能复杂或多步骤的任务。

客服人员可以执行以下操作:

  • 规划和划分子任务,通过多步规划将任务拆分为合乎逻辑的步骤,以便逐步完成,从而处理更复杂的问题。
  • 选择最佳工具,无论是函数、API 使用还是数据存储区访问,以扩充语言模型的基础知识,然后执行可影响外部世界的操作。
  • 保留基于上下文的记忆,根据智能体或外部工具先前的输出。短期记忆就像一个 FIFO 缓冲区,用于存储上下文记录,最多可存储模型上下文窗口大小的记录;而长期记忆则可以使用向量数据库来存储信息,以便根据需要从之前的对话会话或其他数据源中调用信息。

Web AI 代理旨在集成到 JavaScript 中的现有 Web 技术中。最终,我们必须继续加速硬件开发,以便在浏览器中以最佳方式运行模型。展望未来,WebNN 等技术将在优化 CPU、GPU 和 NPU 上的模型执行方面发挥关键作用。随着 LLM 越来越小,技术不断进步,未来这一功能只会变得更加强大。

不妨考虑采用混合方法,将设备端处理与战略性云调用相结合,以便立即在浏览器中打造智能、响应迅速且个性化的用户体验。随着设备在运行 LLM 方面的能力越来越强,您投资于 Web AI 方法的回报很快就会显现。

回顾 2025 年 Google I/O 大会

我们已发布 2025 年 Google I/O 大会的所有讲座,并专门为 Web 开发者创建了一个播放列表。 如需观看更多内容,请访问 io.google/2025