
Google 发布 Gemini 3,并即日嵌入搜索
Google 于 11 月 18 日发布其定位为最强通用 AI 模型的 Gemini 3,并同日将其整合进 Google 搜索。首批公开的 Gemini 3 Pro 当日起向 AI Pro 与 Ultra 订阅用户、以及通过 Gemini API、Vertex AI 接入的开发者开放。强推理模式 Gemini 3 Deep Think 在随后数周内向 AI Ultra 用户分阶段铺开;低延迟版本 Gemini 3 Flash 于 12 月 17 日发布。
Google CEO Sundar Pichai 在公司博客中称 Gemini 3 为"我们最聪明的模型",并强调其当日即整合进 Google 搜索与 Gemini 应用。Reuters 和 The New York Times 报道,Google 此次未采用分阶段铺开,而是直接将新模型作为英语区搜索 AI 模式的默认底层模型,从发布当天即生效。
在基准测试上,Gemini 3 在 Humanity's Last Exam 创下新的最高分,超越此前由 GPT-5 Pro 保持的 31.64。The New York Times 援引数据指出,其在某项标准基准上的准确率达到 72%,相对 Gemini 2.5 有可衡量的提升。该模型也在人类偏好排行榜 LMArena 上居首。Google 公布的 Gemini 3 Pro 在 SWE-bench Verified 上得分为 69.6%,落后于专用 agentic 系统,但在发布时为通用 API 模型中最高(更高的编码分数属于后续发布的 Gemini 3.1 Pro)。
与模型同步发布的还有 agent 取向的编码环境 Antigravity,以及 Gemini 应用内多项 agentic 能力 — 其中"Gemini Agent"可在日历、邮件与浏览器之间完成多步任务。Google 用搜索整合、Antigravity 与 agentic Gemini 应用三件事表态:这款模型从第一天起就要"被产品包着用",而不是作为开发者 API 单独售卖。

业界反应迅速。OpenAI 没有立即给出对应发布;多家主要银行的分析师把 Gemini 3 当日嵌入搜索一事,解读为 Google 在表明 — 决定竞争格局的不再是基准分数,而是分发渠道。规模较小的前沿实验室与学术研究者则更关注 Deep Think 的推理模式,以及在脱离基准之外的日常使用中,Gemini 3 与 GPT-5 之间的实际差距是否被缩小。
在我们看来,这次发布的关键信号不是基准差,而是"首日嵌入搜索"这个选择。它印证了我们一直作为运营前提的判断 — 头部平台把最好的模型当成已有产品入口的一个层,而非独立产品。对一家做角色、语音、persona 的小型工作室而言,这意味着价值会越来越集中在"端到端的整体体验" — 语音延迟、角色记忆、一致的人格 — 而不是某次模型 API 调用本身。
我们会持续追踪三点:(1) Deep Think 公布的推理改进是否能在我们做角色工作时所依赖的长程多轮对话上体现为具体改善;(2) 日语,尤其是日 / 英 / 中混合上下文 — 这是我们产品关心的领域 — 在真实工作负载下 Gemini 3 与 GPT-5、Claude Opus 4.5 的对比表现;(3) Google 是否进一步把模型层解耦 — 更便宜的 Flash、更长上下文的 Pro、更宽松的 Vertex 许可 — 让做产品层应用的工作室可以更好地在它之上构建。


