端侧AI有望下沉2000元档手机 Arm破解端侧AI“不可能三角”?

IT时报记者孙妍

AI无处不在,但我们在使用智能手机、AIPC时为何没有感到翻天覆地的变化?在手机等终端上运行AI大模型,一直受限于性能、算力、存储这一“不可能三角”,只有从芯片底层来创新突破,才能迎来端侧AI的爆发。

Arm正在逐步破解这一“不可能三角”。

9月10日,Arm推出全新Lumex计算子系统(ComputeSubsystem,CSS)平台,这是一套专为旗舰级智能手机和AIPC加速AI体验的计算平台。LumexCSS平台集成了搭载第二代可伸缩矩阵扩展(SME2)技术的ArmCPU、GPU与系统IP,可以助力生态伙伴更快将AI设备推向市场,针对的应用场景主要是桌面级移动游戏、实时翻译、智能助手,以及个性化应用等。

“我们正在将SME2技术扩展至每一个CPU平台。预计到2030年,SME与SME2技术将为超过30亿台设备新增超100亿TOPS的计算能力,为端侧AI性能带来指数级跃升。”Arm高级副总裁兼终端事业部总经理ChrisBergey表示,AI已不仅仅是一项技术功能,它已成为下一代移动与消费技术的支撑底座。

端侧AI横跨旗舰级到入门级

目前,端侧AI主要搭载于旗舰级智能手机。据悉,Arm与vivo、支付宝三方合作,已经成功在移动设备上将大语言模型的交互响应时间缩短了40%。

支付宝终端技术负责人翁欣旦在发布会上提到,支付宝已在vivo新一代旗舰智能手机上完成了基于ArmSME2技术的大语言模型推理验证。结果显示,在预填充与解码阶段,性能分别实现了超过40%和25%的提升。这标志着CPU后端能力的重大突破。

而AI大模型能从旗舰级向入门级智能手机下沉的前提是,Arm正在用芯片架构层面的技术创新逐步破解“不可能三角”。

ChrisBergey在接受《IT时报》等媒体采访时表示,通过启用SME2技术,AI不仅可以存在于4000元以上的高端手机上,也将能加持于2000元档的手机。

从实际场景来看,搭载SME2技术的ArmCPU可以提升5倍的AI性能,语音类工作负载延迟降低4.7倍,音频生成速度提升2.8倍。例如在“智能瑜伽教练”演示应用中,得益于SME2技术,该应用的文本转语音生成速度提升了2.4倍。

SME2技术的价值不仅在于速度的提升,更在于释放出传统CPU难以企及的AI驱动功能。在搭载SME2的单个核心上运行神经摄像头降噪功能,可以在1080P分辨率下实现帧率超120帧/秒,或在4K分辨率下实现帧率达30帧/秒。这使得智能手机用户即使身处光线最暗的场景,也能捕捉到更锐利、清晰的图像。

提升端侧AI性能的同时,Arm也逐步解决能耗问题。借助SME2,ArmC1CPU集群能够实现多达三倍的能效优化。在日常移动端工作负载(如视频播放、社交媒体、网页浏览)中,该CPU集群在同等条件下,相较于上一代CPU集群功耗平均降低12%。

跟云端AI相比,端侧AI的一大优势是隐私保护,能够在本地更快、更安全、更随时的智能体验。

ArmCPU驱动了全球数十亿台移动设备,随着“不可能三角”被逐步破解,端侧AI即将迎来爆发,向入门级智能手机下沉。除了vivo与支付宝外,阿里巴巴、三星、腾讯等都已应用SME2技术。

自研芯片成全球领先手机厂商趋势

Arm的主要业务是设计和授权计算子系统(CSS)和半导体知识产权(IP),提供标准化技术和平台解决方案。Arm架构被广泛应用于全球几乎所有智能手机中。

全球领先手机品牌苹果、三星等手机厂商都在自研芯片。但是自研芯片的成本之大、周期之长,只有少数企业能够成功。ChrisBergey也对《IT时报》在内的媒体表示,自研芯片是泛半导体的趋势,在数据中心、汽车、手机等领域都可观察得到。这种垂直整合的做法,能让企业打造专属目标市场的芯片,而通过在ArmCSS平台基础上构建自己的系统级芯片SoC,不仅能加速开发进程,还可降低成本,甚至能额外创造出200%的价值提升。

开发者可在ArmLumex平台上获取开机即用的AI开发体验。比如,开发者可借助KleidiAI调用SME2技术,目前KleidiAI已集成至所有主流移动操作系统及AI框架中,包括PyTorchExecuTorch、谷歌LiteRT、阿里巴巴MNN与微软ONNXRuntime。这一平台还支持跨平台迁移,针对安卓构建的优化功能可无缝扩展至采用Arm架构的Windows等操作系统。

“通过与SME2的深度集成,MNN现已能在智能手机端,为通义千问等十亿参数级的大模型提供低延迟的量化推理能力。”阿里巴巴淘天集团业务技术MNN负责人姜霄棠表示。

120亿颗ArmGPU出货量背后

随着搭载ArmGPU的芯片累计出货量突破120亿颗,Arm稳居手游领域的核心地位。MaliG1-UltraGPU让手游玩家能在手机上体验高保真、主机级的画质。这一突破得益于第二代光线追踪技术,显著提升光照、阴影与反射效果,使其光线追踪性能相较前代提升了两倍。在AI工作负载方面,MaliG1-Ultra可将推理性能提升最高20%,增强各类实时应用的响应速度。

在各类图形基准测试中,MaliG1-Ultra较前代产品实现了20%的性能提升,为《暗区突围:无限》《堡垒之夜》《原神》《崩坏:星穹铁道》等主流游戏带来了性能增强。

除了手游带来的机遇外,Arm也在寻求服务器、PC、汽车等市场的突破。

长期以来,数据中心、PC等市场都是x86架构占据主导地位,但是AI给了Arm新机遇。据统计,在2025年,头部云服务商的新增算力中,将有近50%基于Arm架构。而在PC和平板领域,Arm架构预计占到整体出货量的40%以上。

Arm表示,将继续推动异构计算架构,以实现CPU、GPU和NPU之间的高效协同,从而应对不同应用场景的需求变化。