![]()
出品|《态度》
作者|袁宁 丁广胜
山景城海岸线剧场,再次成为全球科技圈的焦点。
北京时间5月20日凌晨1点,2026 Google I/O正式登场。这个可以容纳两万多人的露天剧场,每年都一票难求。主会场坐满后,甚至有不少人坐到山坡草坪上,远远望向舞台,等待Google这位顶尖玩家亮牌。
现场的气氛并不像一场传统开发者大会,更像一场巨大的科技派对。走进入口,工作人员会热情地和与会者击掌;入口附近有室外乐队表演;剧场外则是大片Demo展区,Google各条业务线和合作伙伴都在展示自己的最新产品与应用,比如来自中国的Xreal。开发者、媒体、创业者、投资人和合作伙伴穿梭其中,所有人都在等待同一个问题的答案:
在大模型竞争进入智能体阶段后,Google准备怎么出牌?
过去一年,AI行业的叙事发生了明显变化。OpenAI 依然是焦点,但 Anthropic 正在变得越来越 “抢镜”。据我们了解,某种程度上,Google 的“假想敌”已经不再只是 OpenAI,也开始越来越多地指向 Anthropic。
今天凌晨,Google CEO Sundar Pichai 给出了这次大会的核心叙事:“Gemini 3.5和 Antigravity 正在开启一个智能体和智能体能力的新世界。我们已经把智能体带给开发者和企业一段时间了。现在,我们非常专注于把智能体的力量,以安全、可靠的方式带给消费者,让它适用于每一个人。”
在这次 I/O 上,Google 几乎把所有核心业务线都重新用“智能体”串了一遍:从 Gemini 3.5 Flash,到 Gemini Omni Flash;从 Search 里的信息智能体、预订智能体,到 Gemini App 里的24/7个人智能体 Gemini Spark;从开发者平台 Antigravity,到购物场景里的 Universal Cart;再到 Workspace、YouTube、Flow、Android、Cloud 以及内容溯源工具。
我们看到,Google试图把 AI 从“回答问题的模型”,推进到“持续理解、规划、执行任务的系统”。可以说,2026 Google I/O,是 Google 全面押注 Agentic AI 的一次集中展示。
01 Gemini 3.5 Flash 登场:速度快4倍,“会行动的模型”将成默认入口
本届 I/O 最受关注,也是最核心的技术发布,依旧是Gemini。
但并非大家期待的Gemini 4,Google 发布了 Gemini 3.5模型家族的首个成员 Gemini 3.5 Flash。Google 将其定义为“结合前沿智能与行动能力”的新一代模型,主打两个关键词:智能体能力和速度。
按照 Google 的说法,Gemini 3.5 Flash 是其目前最强的智能体和代码模型,在复杂长周期任务、代码生成、多模态理解等方面均有显著提升。Google 给出的 benchmark 包括:Terminal-Bench 2.1达到76.2%,GDPval-AA 达到1656 Elo,MCP Atlas 达到83.6%,CharXiv Reasoning 达到84.2%。
更重要的是,Google 强调3.5 Flash 在输出速度上比其他前沿模型快4倍。这意味着它并不是单纯追求“更强大模型”的路线,而是试图在能力、延迟和成本之间找到一个更适合大规模产品化的平衡点。
![]()
这也解释了为什么 Google 首发的是 Flash,而不是 Pro。
过去大模型竞争强调“谁更强”,但进入2026年,产品化竞争更看重“谁能以更低延迟、更低成本、更稳定地服务海量用户”。Flash 的定位正好契合这一点:能力足够强,同时可以大规模铺进搜索、App、开发者工具和企业平台。
根据 Google 的安排,Gemini 3.5 Flash 将进入多个核心场景:
● 面向普通用户,成为 Gemini App 和 Google Search AI Mode 的默认模型;
● 面向开发者,进入 Google Antigravity、Gemini API、Google AI Studio 和 Android Studio;
● 面向企业,进入 Gemini Enterprise Agent Platform 和 Gemini Enterprise。
据现场透露,Gemini 3.5 Pro 已在内部使用,计划于下个月推出。这意味着 Google 会先用 Flash 承接规模化需求,再用 Pro 服务更复杂的高阶任务。
02 Gemini Omni Flash:从“理解多模态”走向“生成任意模态”
如果 Gemini 3.5 Flash 代表 Google 对“行动模型”的押注,那么 Gemini Omni Flash 则代表 Google 在多模态生成上的新野心。
Google 对 Omni 的定义非常直接:可以从任何输入生成任何输出的模型,首先从视频开始。这句话背后,是多模态 AI 的范式变化。
过去的多模态更多是“输入多模态”:模型可以看图、听音频、理解视频,再用文字回答。但 Gemini Omni 要做的是“输入和输出都多模态”。用户可以用文本、图片、音频、视频作为输入,再生成高质量视频。未来,它还会支持图像和音频等更多输出形式。
![]()
它的核心能力包括三类。
● 第一,是通过自然语言编辑视频。用户可以连续对视频提出修改要求,比如改变环境、角度、动作、风格,甚至加入角色和物体。Google 强调,Omni 可以在多轮对话中保持角色一致性、物理逻辑和场景连续性。
● 第二,是基于 Gemini 的世界知识生成视频。Google 表示,Omni 不只是生成“看起来真实”的画面,而是能结合物理、历史、科学和文化语境,生成更有逻辑的视觉叙事。例如更准确地表现重力、动能、流体等物理效果,或者把复杂概念转化为解释型视频。
● 第三,是从任意素材开始创作。用户可以把文本、图片、视频,甚至语音作为参考输入,生成统一风格的视频内容。初期音频输入主要支持语音参考,更多音频类型会在之后推出。
值得注意的是,Google 还提到了数字化身功能。用户可以使用自己的声音创建个人 avatar,让生成视频看起来和听起来像自己。但在视频编辑中修改音频和语音的能力,Google 表示仍在测试,以更谨慎地处理潜在风险。
在内容安全方面,Omni 生成的视频将包含不可感知的 SynthID 数字水印。用户可以通过 Gemini App、Chrome 中的 Gemini 以及 Google Search 验证视频是否由 Gemini Omni 生成。
![]()
(Sundar Pichai调侃他不吃汉堡,这是假图)
从发布节奏看,Gemini Omni Flash 会向 Google AI Plus、Pro 和 Ultra 订阅用户全球推出,也会从本周起在 YouTube Shorts 和 YouTube Create App 中向用户免费开放。未来数周内,Google 还将把它通过 API 提供给开发者和企业客户。
这意味着,Google 不只是想做一个视频生成工具,而是想把视频生成能力嵌入整个创作者生态:Gemini 负责个人创作入口,Flow 负责专业工作流,YouTube Shorts 负责分发场景。
这套闭环,正是 Google 相比许多纯 AI 创业公司的优势所在。
03 Gemini App 变成24/7个人助理:Gemini Spark 是关键
Gemini App 也在这次 I/O 上迎来大更新。
Sundar Pichai 透露,过去一年 Gemini App 增长迅速:去年 Google I/O 时,Gemini 有4亿用户;今年月活已经超过9亿,覆盖230个国家和地区、70多种语言。
新的 Gemini App 有几个重点变化。
● 首先是设计语言升级。Google 推出了新的 Neural Expressive 设计语言,包括更流畅的动画、更鲜明的颜色、新字体和触觉反馈。Gemini Live 也被直接整合进 Gemini,用户可以在文字提问和语音对话之间无缝切换。
● 其次是回答形态的变化。Gemini 不再只是输出长文本,而是可以根据问题实时设计答案形式,加入图片、交互式时间线、旁白视频和动态图形。
● 第三,也是最重要的,是两个智能体功能:Daily Brief 和 Gemini Spark。
Daily Brief 是一个个性化晨间简报智能体,可以帮助用户整理每天开始前需要知道的信息。
Gemini Spark 则是 Google 面向消费者推出的个人 AI agent。它会24/7运行,在用户授权和指令下帮助管理任务、处理数字生活。
![]()
此外,macOS 版 Gemini App 也会集成 Gemini Spark,使其可以在本地机器上执行操作,并加入更强的语音功能。
Google 计划先向 trusted testers 推出 Gemini Spark,并在下周面向美国 Google AI Ultra 用户推出 Beta。macOS 版 Gemini App 未来也会集成 Gemini Spark,使其可以在本地机器上执行操作。
这对 Google 很重要。因为它拥有 Gmail、Calendar、Photos、Drive、Chrome、Android、Search、Maps 等高频产品。如果 Gemini Spark 能在用户授权下调动这些服务,它就不只是聊天机器人,而可能成为真正的个人任务调度层。
同时,Google 宣布推出 每月100美元的 AI Ultra 计划,同时为 AI Plus、Pro 和 Ultra 订阅用户增加新功能和权益。
04 Search 迎来25年最大改版:搜索框变成智能体入口
Google I/O 的另一个重磅更新,是 Search。
据介绍,新的搜索框会动态扩展,允许用户输入更复杂、更自然的问题;它可以给出 AI 驱动的问题建议,不再只是传统 autocomplete;它还支持多模态输入,包括文本、图片、文件、视频和 Chrome 标签页。
更核心的是,Google 正在把 Search 从“找答案”变成“派任务”。
首先,AI Mode 将使用 Gemini 3.5 Flash 作为全球默认模型。用户可以从 AI Overview 直接继续追问,进入 AI Mode 的对话式体验,并保留上下文。
其次,Google 推出了 Search agents。这类智能体可以在后台24/7运行,持续跟踪用户关心的信息,并在合适时间给出综合更新。
![]()
比如,你正在找房,可以告诉 Search 预算、位置、户型、通勤和其他条件,信息智能体会持续扫描网页、新闻、博客、社交信息,以及金融、购物、体育等实时数据,一旦发现匹配结果就通知用户。又比如,你关注某位运动员和品牌联名的球鞋,智能体也可以在新产品发布时提醒。
这类信息智能体将率先在今年夏天面向 Google AI Pro 和 Ultra 订阅用户推出。
Google 还在扩展 Search 中的 agentic booking 能力。用户可以让 Search 帮忙寻找并预订本地服务,比如周五晚上可容纳六人、供应夜宵的私人 KTV 包间。Search 会整合最新价格和可用性,并给出直接预订链接。
在家政维修、美容、宠物护理等部分品类中,用户还可以让 Google 代为给商家打电话。这些能力将于今年夏天在美国面向所有用户推出。
更有想象空间的是,Search 还将获得“生成式 UI”和“迷你应用”能力。
借助 Gemini 3.5 Flash 的代码能力,以及 Antigravity 的智能体开发能力,Search 可以根据用户问题即时生成交互界面。比如,当用户想理解天体物理问题,或者想看懂机械表运行原理,Search 可以自动生成包含图表、表格、模拟器、交互组件的定制答案。
更进一步,对于长期任务,比如婚礼筹备、搬家管理、健康计划,Search 可以生成一个可持续使用的 dashboard 或 tracker。Google 把这类体验称为用户专属的 mini apps。
这其实是对搜索产品形态的一次根本改写。
过去,搜索结果页的核心是链接、摘要和广告。未来,它可能变成一个动态生成的任务操作台:既能理解问题,也能生成工具,还能持续跟踪状态。
对 Google 来说,这既是防守,也是进攻。防守在于,AI 聊天产品正在侵蚀传统搜索入口;进攻在于,Google 试图用智能体把搜索重新定义为更强的任务入口。
05 AI 购物:Universal Cart 是 Google 的“智能体商业化”试验田
AI 时代,Google 最大的问题之一是:如果搜索结果不再以链接为核心,广告和商业化怎么办?
本届 I/O 给出的答案之一,是 agentic commerce,也就是智能体购物。
Google 宣布推出 Universal Cart,一个智能购物车,也是用户在 Google 上进行 AI 购物的中心。
购物天然适合智能体。
因为用户真实的购物需求往往很复杂,不是一个关键词能解决的。比如买一台适合出差的轻薄本,用户关心的不只是价格,还包括重量、续航、性能、接口、品牌、售后、优惠、库存、配送时间和用户评价。传统搜索需要用户反复筛选,智能体则可以持续比较、监控价格、组合商品,甚至协助完成购买。
Universal Cart 的价值就在这里:它可能把 Search、Shopping、广告、商家数据和支付链路连接起来,让 AI 不只是推荐商品,而是参与购物决策和交易流程。
这对 Google 具有战略意义。
![]()
过去,搜索广告的核心是用户点击链接,然后跳转到商家页面。AI 搜索如果减少了用户点击,Google 就需要新的商业闭环。智能体购物可能成为一种新路径:Google 从信息分发者,变成交易决策和执行过程中的参与者。
但它也会带来新问题:AI 推荐商品时如何排序?是否会偏向广告主?用户如何知道推荐依据?商家如何适配这种新渠道?这些都将影响 AI 购物能否建立信任。
06从 Android Halo 到 Antigravity:Gemini 正成为系统级基础设施
当智能体开始替用户执行任务,Google 必须重新定义 AI 在系统里的位置。
一个很直接的问题是:如果 AI 不只是回答问题,而是开始帮你搜索、预订、整理、生成、比较价格、管理日程,用户怎么知道它正在做什么?又该在哪里暂停、查看或接管?
Google 给出的答案之一,是 Android Halo。
这是一个将在今年晚些时候上线的 Android 新能力,用来在手机屏幕顶部显示智能体正在处理的任务。你可以把 Android Halo 理解为智能体时代的状态栏。
过去,状态栏显示的是时间、电量、信号、通知;到了 AI 时代,系统还需要显示“你的智能体正在做什么”。比如它正在搜索航班、整理文档、比较商品、生成视频、联系商家,或者后台持续追踪某个任务。
这也说明,Google 对智能体的理解并不是单点应用,而是系统级能力。模型、应用、搜索、浏览器、操作系统之间的边界会越来越模糊,真正的竞争会发生在“谁能成为用户所有任务的调度层”。
如果 Android Halo 解决的是“用户如何看见和控制智能体”,那么 Antigravity 解决的就是“开发者如何构建智能体”。
Google 显然不希望智能体能力只留在自家产品里。除了 Search、Gemini App 和 AI 购物,Google 还希望通过 Antigravity,把 Gemini 的能力交给开发者。
Antigravity 可以理解为 Google 面向 agentic AI 时代的开发平台。它的重点不是简单调用一个大模型接口,而是让开发者能够构建、调度和部署多个协作式智能体。
![]()
过去的 AI 开发,很多时候是“应用调用模型”:用户输入问题,模型返回答案。但智能体时代的开发逻辑更复杂。开发者需要让 AI 理解目标、拆解步骤、调用工具、访问数据、执行动作、检查结果,并在必要时继续迭代。
这就要求平台不只是提供模型,还要提供工作流、权限、工具调用、记忆、评估和部署能力。
Antigravity 的价值就在这里:它想把 Gemini 从一个可调用的模型,变成一个可开发、可组合、可部署的智能体平台。
这对 Google 很关键。因为智能体时代不可能只靠 Google 自己开发应用。真正的爆发,需要开发者基于 Gemini 做出大量新工具、新插件、新工作流和新应用。只有开发者生态起来,Gemini 才能从 Google 自己的产品矩阵,延伸到更广泛的软件世界。
与此同时,Google 自己的“全家桶”也在继续 AI 化。
● 在 Workspace 里,Gemini 会继续进入 Gmail、Docs、Sheets、Slides、Meet 等办公场景,帮助用户写邮件、总结文档、整理会议、生成表格、制作演示和管理任务。对企业用户来说,这不是单点功能,而是把 AI 嵌进日常办公流。
● 在 YouTube 里,Gemini Omni Flash 和视频生成能力会进一步参与内容创作,尤其是 Shorts。创作者可以用 AI 生成素材、修改镜头、调整风格,甚至把一个创意快速变成短视频内容。
● 在 Flow 里,Google 更明确地把 AI 视频生成做成创作工作流。相比一次性生成视频,Flow 的价值在于连续编辑、分镜管理和多轮调整,让 AI 视频从“玩具”变成更接近专业生产的工具。
● 在 Pics / Photos 相关场景里,AI 会继续承担图片生成、图片编辑、视觉理解和内容整理的角色。用户不再只是保存照片,而是可以让 AI 帮忙修图、生成回忆、提取信息,甚至围绕图片继续创作内容。
这些产品看似分散,但背后逻辑是一致的:Google 正在把 Gemini 放进每一个高频场景。
07 Google 的真正意图:把 AI 做成下一代操作层
把本届 I/O 的发布串起来,Google 的路线已经非常清楚。它不是单独发布几个 AI 功能,而是在搭建一套智能体时代的完整系统:
● 模型层:Gemini 3.5 Flash 负责行动和代码,Gemini Omni Flash 负责多模态生成;
● 工具层:Antigravity、Gemini API、AI Studio、Android Studio 服务开发者;
● 入口层:Search、Gemini App、Android、Chrome、Workspace、YouTube、Shopping 承接用户场景;
● 商业层:AI Ultra、AI Plus、Pro、Universal Cart 和企业服务负责变现;
● 基础设施层:Google Cloud、TPU 和 Enterprise Agent Platform 支撑大规模部署;
● 治理层:SynthID、水印验证、内容透明、安全框架和用户授权控制风险。
而未来,Search 不再只是搜索结果页,而是任务入口;Gemini 不再只是聊天助手,而是个人 agent;Android 不再只是应用平台,而是智能体运行环境;Shopping 不再只是商品索引,而是交易智能体;Cloud 不再只是算力租赁,而是企业智能体平台。
当然,Google 的挑战也很现实。
智能体要真正替用户行动,必须解决可靠性、隐私、安全、权限、误操作、可解释性和商业利益冲突等问题。尤其在搜索、购物、预订和个人数据场景中,一次错误推荐、一次误拨电话、一次不合适的自动操作,都可能损害用户信任。
从2026年 Google I/O 看,Google 想定义的新阶段已经很明确:智能体不再只是产品功能,而会成为新的基础设施;AI 不再只是信息工具,而会变成下一代操作层。
![]()
(Google I/O26主题演讲天团)