这两年消费电子领域,AI功能已成为产品的重要卖点。IDC最新Q1数据显示,全球AI手机出货占比已突破45%,同比大幅增长,AI PC年底渗透率预计达到60%。但剥开营销话术,真实的用户体验存在较大差异。
部分宣称“端侧AI”的手机实际上是将用户提问上传至云端处理后再返回结果,这涉及隐私保护与潜在的付费问题——目前免费模式可能伴随市场变化而调整。另一方面,部分AI PC在开启本地AI功能后功耗显著上升,影响续航表现,终端厂商仍在优化能效平衡。
当前端侧AI面临“高性能、低功耗、低成本”三者难以兼顾的挑战。就在行业探索解决方案之际,英伟达宣布以约200亿美元全资收购Groq,LPU(线性处理单元)架构获得业界高度关注。
英伟达200亿押注的LPU:解决了什么?局限在哪里?
打个比喻:大模型推理就像餐馆炒菜。传统冯·诺依曼架构中,计算单元(灶台)与存储单元(食材仓库)物理分离,大量时间和能耗耗费在数据搬运上。GPU擅长批量处理,适合训练场景,但在逐词生成的推理任务中效率受限。
Groq的LPU通过大片上SRAM将存储靠近计算单元,采用确定性数据流和静态调度,实现了较快的推理速度和较低的功耗。这正是英伟达愿意重金收购的原因。
然而,LPU仍然属于冯·诺依曼架构的改进——计算与存储分离的本质未变。对于更大的模型,片上SRAM容量有限,部分参数仍需外部DRAM,数据搬运的开销依然存在。包括三星的3D DRAM、HBM-PIM等技术,也未能完全消除存储与计算之间的物理分隔。
三维存算一体(3D-CIM™)架构:另一种解题思路
面对这一挑战,杭州微纳核芯提出了三维存算一体(3D-CIM™)架构。该技术不是简单拉近存储与计算的距离,而是通过三维键合技术,将SRAM存算一体计算内核与DRAM存储单元垂直堆叠融合,使计算直接在存储器内发生,从原理上消除了数据搬运的开销,同时利用DRAM的大容量承载大模型参数。
实现这项技术需要克服多重技术难点:架构设计上无成熟经验可循;三维键合工艺对精度要求极高;非冯·诺依曼架构的软件生态适配难度大。微纳核芯团队自2018年开始投入该方向,连续多年在芯片设计领域国际会议ISSCC上发表多项成果,并获得中国企业首个ISSCC最佳技术论文奖,2023年正式落地了3D-CIM™架构。
3D-CIM™的核心技术特点
SRAM存算一体核心架构:直接在存储单元内完成计算,大幅降低数据搬运功耗,不依赖最先进制程即可实现较高能效比。同等算力下芯片面积可缩小至传统方案的二分之一到三分之一。
三维键合技术:通过垂直堆叠,单芯片可承载数十GB参数,内核与DRAM之间互连带宽显著提升,有利于大模型在端侧流畅运行。
基于RISC-V的RV-CIM™异构融合架构:自研全栈软件工具链,可自动完成主流大模型到芯片指令的映射,降低开发者的使用门槛。微纳核芯被工信部任命为RISC-V存算一体应用组组长单位,参与制定相关行业标准。
据公司介绍,其推出的两款核心芯片,在不到4W功耗下可使7B大模型运行速度达到150tokens/s(实验室测试数据),不到2W功耗可流畅运行3B大模型。公司已获得国内头部存储厂商、终端客户的合作,并得到红杉中国、小米、联想等机构的投资。
结语
AI大模型的发展将半导体行业推向新的技术路口。摩尔定律趋缓,架构创新成为竞争焦点。英伟达收购Groq反映出传统GPU架构在AI推理场景中的挑战。微纳核芯的3D-CIM™技术提供了一条不同的演进路径。存算一体作为新兴方向,中国企业在此领域已有较早布局和技术积累。未来,随着技术成熟和生态完善,端侧AI的普惠应用或将加速到来。