谷歌为什么又行了?
苹果重启与谷歌的合作,考虑使用的Gemini来为改版后的Siri提供支持。
彭博新闻社报道称,预计的 Siri 升级版(目前计划于 2026 年发布 )可能会以定制版 LLM 的形式推出,该版本由谷歌的 Gemini 聊天机器人提供支持。
这是苹果数月来探索外部合作伙伴关系的最新举措。这笔潜在的“世纪联姻”一旦达成,将不仅是Gemini技术实力获得业界最高认可的标志,更是其影响力横向扩张至数亿iPhone用户的里程碑事件。
这将为谷歌AI技术开辟前所未有的广阔应用场景和数据反馈环路,为未来的商业化,包括可能的API授权和订阅服务,打开了一道全新的大门。试想如果谷歌能将Gemini的能力接通安卓和iOS两大生态,将会迅速让自己在用户规模上大大缩小和OpenAI的ChatGPT的差距。
而对于苹果来说,和谷歌的合作能够延续在搜索业务上的良好关系,让iOS生态在底层上首次接入大模型,为广达的iOS用户提供最领先的技术带来的体验和生态革命。
而一年多以前,当苹果传出和多家大模型供应商商谈合作的时候,OpenAI是当时被外界认为最有可能成为苹果客户的一方。谷歌因为模型能力一般,发布会翻车等负面因素,在苹果眼里一直不是第一顺位的选择。
时隔一年多,为什么谷歌又能被苹果看上了呢?
01
最重要的原因肯定是Gemini在最近一年多取得了长足的进步,不论是性能上还是用户数目上大幅增长。
在LLM Arena上,在多项排名中Gemini都处于绝对的第一梯队。
特别是多模态方面,作为原生的多模态大模型,Gemini也一直是性能最好的模型。
而如果说苹果的合作意向还停留在「传言」阶段,那么Gemini在用户增长上的表现则是实打实的「硬数据反击」。
根据a16z最新发布的报告,Gemini正在以惊人的速度追赶ChatGPT。
Google的Gemini在网站流量方面排名第二,其网站吸引了约ChatGPT 12%的流量。在移动端,差距缩小了:Gemini达到了ChatGPT大约一半的活跃用户数。
更令人瞩目的是增长数据。Gemini的增长轨迹非常陡峭,网站访问量从2月份的2.84亿次增长到7月份的7亿次,而ChatGPT为57.2亿次。
Google在前50名网站中还有其他三个工具:AI Studio(第10名)、NotebookLM(第13名)和Google Labs(第39名)
截至2025年7月,Gemini已经达到4.5亿月活用户,相比5月份的4亿用户更是实现了显著增长。
Gemini在权威编程能力测试和AI IQ榜单中也均名列前茅。Gemini 2.5 pro的IQ排名在AI中最高,智商高达 137,这一成绩表明,Gemini 2.5 Pro 处理逻辑推理、抽象思维、模式识别等复杂任务的能力,已经可以与人类社会最顶端的少数人相媲美,不再仅仅是一个模仿和重复的程序,而是展现出一定程度接近人类高阶智慧的解决问题能力。
其代码编写和多模态理解能力也广受赞誉。
从技术评测到实际用户采纳,Gemini了证明其作为新一代AI基础设施的领导地位,和OpenAI的ChatGPT差距已经越来越小。
而除了在大模型领域,Gemini正在加速追赶ChatGPT,谷歌正在以“全火里覆盖”的方式正在让自己的产品和技术彻底革新AI应用的各个赛道。
02
2025年8月,AI生图圈突然被一个神秘的模型搅得天翻地覆——“Nano Banana”。
起初,没人知道这个奇怪代号背后是谁家的产品,但它在各大AI竞技场上的表现让所有人都瞪大了眼睛。
直到Google揭晓答案:Nano Banana正是Gemini 2.5 Flash Image的代号。
其全新推出的图像生成模型Nano Banana目前已迅速晋升为生图圈的“当红炸子鸡”。
Nano Banana以其卓越的图像生成质量、细节把控能力和用户友好的操作界面,在与主要竞争对手的直接对比中脱颖而出。
与传统图像生成工具不同,Nano Banana展现出了对视觉逻辑的深度理解。它不再满足于单纯的「画图」,而是能够理解图像中的空间关系、物体属性,并在保持逻辑一致性的前提下完成复杂的编辑任务。
其生成图像的逼真度、风格多样性以及对复杂提示词的理解能力令人惊叹,许多用户将其描述为“疯狂”,这也正是它能够得以病毒式传播的原因。
Nano Banana最大的突破在于其自然语言理解能力的提升。用户可以用日常语言描述修改需求,模型能够精准理解并执行复杂的图像编辑任务。
这种交互方式的革新,让图像编辑从专业技能变成了人人都能掌握的日常工具。
Nano Banana不仅有效解决了用户在使用AI图像生成工具时遇到的痛点,同时深度融入了Gemini的图像编辑功能,这使其能够直接在现有图片上进行复杂的操作和修改,极大地提升了用户的工作流效率。
Nano Banana的成功不仅是模型规模的胜利,更是谷歌在用户体验和产品整合上的精准洞察。
在视频生成领域,谷歌同样展现出统治级的实力。其最新的视频AI模型Veo3正以其惊人的视频生成质量,成为视频AI领域的“王者”。
它最大的创新在于实现了高保真的视频与音频同步生成,包括对话、音效与环境声音的完美结合。业界对Veo 3的评价普遍很高,认为它已经从实验性工具演变为可以纳入专业制作流程的实用工具。
现实中,越来越多的内容创作者开始将Veo 3纳入自己的制作workflow,用于快速原型制作和创意验证。
Veo3生成的视频内容极其逼真、流畅且富有创意,其质量已经达到了足以颠覆传统视频制作流程的水平。
Veo3的出现,无疑为影视制作、广告创意和数字内容产业带来了革命性的冲击和无限的创作可能。在视频长度、分辨率、一致性维护等关键指标上Veo3都有显著提升,在音画同步方面的表现尤其突出,目前在行业内难有匹敌。
与此同时,Nano Banana和Veo3项配合的工作流更是为彼此几何级数地助力。
Veo 3 现已登陆 Google Photos,更进一步打出了谷歌的平台实力,大大改进了原有的照片转视频功能。谷歌表示,现在该功能可以用来“将静态图像转换为更高质量的短片”。
更具里程碑意义的是,DeepMind推出的Genie3已成为世界模型的全新标杆。
Genie3作为一款分辨率720p的通用型世界模型,能够通过文本提示词生成并模拟长达数分钟的互动式3D虚拟环境,其多样性和沉浸感前所未有,环境还会对用户的操作做出反应,甚至还可以输入新的提示来改变 3D 环境。
它能从图像、文本、视频等多种输入中学习,并生成可交互、具有物理规律的“世界”。
Genie 3的意义远不止生成虚拟世界。它为训练更通用的AI Agent打开了新的可能性——能够「凭空」创造出无穷无尽、风格各异的训练环境。
这不仅是AI在理解、预测和创造复杂世界方面的一次巨大飞跃,更预示着未来虚拟现实、游戏开发乃至通用人工智能(AGI)的无限可能,为构建更智能、更互动的数字宇宙奠定了基础。
03
看到全力出击的谷歌,连马斯克也再次不得不感叹,谷歌将再次领跑AI时代。
他今年8月发推认为,基于谷歌现在有全世界最大的算力基础能力和数据优势,它是AI行业中最有可能成为领袖的公司。
而马斯克的观点似乎也为寻求谷歌如何完成AI逆袭提供了一个基本的思考框架——算力,数据是决定一家AI公司是否能够高速长期发展的基本前提。
谷歌早在10年前就启动了专门针对AI任务设计的计算芯片TPU的研发,经历了10年的不断迭代发展,谷歌的TPU已经成为目前世界上最先进的AI芯片。因为它专门针对AI计算进行开发,它的能耗效率甚至超过了英伟达的GPU。
而且谷歌的TPU集群是除了英伟达的GPU之外能规模最大的能够大规模部署并进行AI训练和推理的AI芯片。
而且在之后的迭代中,谷歌多年积累的AI芯片设计能力能够针对自己的业务和AI行业发展的最新趋势进行更新迭代,充分保证了谷歌未来不会处于算力焦虑之中。
当英伟达的最高性能GPU依然供不应求,被所有的科技大厂疯抢时,当OpenAI为了缓解自己的算力渴求而到处新建数据中心,寻求更多的算力供应时,谷歌的TPU集群提供的算力不但已经能够满足自己业务的AI算力需求,甚至还出现了富余。9月3日,据海外媒体报道,谷歌正在和一些小型的云供应商进行合作,将原本只供自用的TPU算力开始向第三方进行销售。
而作为对比,马斯克也试图自己研发AI超算芯片,但是在经过多年尝试未果之后,只能放弃研发,采用英伟达的GPU作为AI算力的基础设施。这样未来在算力的成本和效率以及自主性方面和有自给自足能力的谷歌相比将会处于劣势。
谷歌始于10年前的AI硬件布局,开始到了收获的时间。
要满足Gemini日益增长的用户量背后带来的大规模推理需求,还要能同时训练新的模型,不断更新大模型能力,还要能支撑视频模型,生图模型的推理和研发,如果谷歌没有夯实的算力基础,是完全不可能做到。
就像一家面馆,如果你的面粉供应严重依赖市场上非常枪手的第三方供应商的供货,你很难想象它能不断推出新的品类甚至开新的分店。而谷歌能够自给自足的算力,就是它能同时多面出击,持续迭代模型能力,研发新模型的底层保障。
除了算力优势之外,谷歌AI业务另一条深不见底的护城河是他的数据优势。
多年的搜索领域霸主地位让谷歌积累了海量且珍贵的用户数据。而且作为全世界最大的视频平台Youtube的母公司,它能触及到世界上规模最大的多模态数据。可以说谷歌发展多年的传统业务,为它能够在AI时代全力冲刺提供了一个取之不竭,用之不尽的数据金矿。
这可能在某种程度上也解释了为什么在多模态AI领域的竞争中,谷歌是发力最晚,但取得的成绩最为显著的公司。
而除了用于训练AI模型的数据,谷歌Chrome和安卓生态能够帮助谷歌及时将AI能力运用到最广泛的c端市场。海量用户在深度使用时产生的数据为谷歌进一步优化自己的AI服务体验,找到用户使用中的痛点,提供了依据,从而在未来模型的开发中,能够做出更有针对性的,优化和功能选择。
Nano banana的成功某种程度上就是谷歌能够敏锐捕捉到用户需求,从而在模型层面进行产品化设计的一个最新的例子。
如果谷歌未来能够继续深度的将用户使用AI过程当中呈现出来的需求,通过自己的AI服务进行满足,相信谷歌一定能找到一条不同于其他企业的,更好的将AI能力服务于广大用户的研发和迭代路径。
这也许也是苹果选择谷歌作为自己AI服务供应商一个很重要的考量。毕竟只有谷歌现在拥有在设备端将AI服务提供给接近于苹果用户量级的客户群体的经验。
而除了算法和算力这两哥谷歌所拥有的巨大优势之外,谷歌反击背后还离不开多年来积累的人才优势。
随着硅谷AI人才的争夺进入到白热化阶段,手握大量资金算力以及丰富的用户数据的谷歌,对于人才的吸引力来说是毋庸置疑的。人才能给AI业务发展带来的最重要的因素就是算法上的创新。硅谷多年来积累下来的AI人才的储备和管理经验,以及对新入行的AI人才的吸引力,使得他们一直以来都是行业的人才智力高地。
比如在OpenAI带队开发出Sora的Tim Brooks,在2024年10月就加入谷歌,负责开发新的世界模型。而最近放出的Genie 3就是他们团队的最新作品。
而在硅谷的AI人才抢人大战中,谷歌为了避免核心人才的流失,开出了2000万美元的年薪。而除了令人咋舌的薪资,谷歌对这样的顶尖人才的吸引力,还是在于他们能够给项目提供行业里最好的算力和数据保障,能够帮助顶尖人才做出行业里最有影响力的成果。
而在组织管理层面,谷歌也在不断优化,将人才的战斗力系统性的放大。
而在去年谷歌将DeepMind和Google Brain两个研究型机构合并统一为AI战略的中枢之后,原本更偏向于科研机构的DeepMind现在已经成为了一个生产AI应用的创新工厂。
去年10月,Gemini品牌化之后,谷歌把 Gemini App 团队并入 Google DeepMind;同时把 Assistant 的设备侧 并到 Platforms & Devices。前者确保“应用团队成为模型一方的直接客户”,反馈与数据更快回流;后者则让端侧能力(Android/芯片/硬件)围绕“AI 本地推理与协同”一体化推进。2025 年移动端用户从 Assistant 迁移到 Gemini,更是把体验、数据和增长目标统一到了一个坐标系内。
谷歌作为近些年来论文产出最高的组织,为了应对AI行业的竞争已经将AI论文的发表标准进行了更改,如果论文成果被评估为能为谷歌带来竞争优势,论文可能将被谷歌雪藏,避免公开Transformer这样具有划时代意义的科研成果,为竞争对手做嫁衣的情况再次出现。
也许未来,谷歌公开发表的AI论文会越来越少,但是像nano banana这样的具有优秀创新基因的AI产品会大量出现。