英伟达200亿押错了？LPU只是过渡，3D-CIM才是终局

这两年消费电子领域，AI功能已成为产品的重要卖点。IDC最新Q1数据显示，全球AI手机出货占比已突破45%，同比大幅增长，AI PC年底渗透率预计达到60%。但剥开营销话术，真实的用户体验存在较大差异。

部分宣称“端侧AI”的手机实际上是将用户提问上传至云端处理后再返回结果，这涉及隐私保护与潜在的付费问题——目前免费模式可能伴随市场变化而调整。另一方面，部分AI PC在开启本地AI功能后功耗显著上升，影响续航表现，终端厂商仍在优化能效平衡。

当前端侧AI面临“高性能、低功耗、低成本”三者难以兼顾的挑战。就在行业探索解决方案之际，英伟达宣布以约200亿美元全资收购Groq，LPU（线性处理单元）架构获得业界高度关注。

英伟达200亿押注的LPU：解决了什么？局限在哪里？

打个比喻：大模型推理就像餐馆炒菜。传统冯·诺依曼架构中，计算单元（灶台）与存储单元（食材仓库）物理分离，大量时间和能耗耗费在数据搬运上。GPU擅长批量处理，适合训练场景，但在逐词生成的推理任务中效率受限。

Groq的LPU通过大片上SRAM将存储靠近计算单元，采用确定性数据流和静态调度，实现了较快的推理速度和较低的功耗。这正是英伟达愿意重金收购的原因。

然而，LPU仍然属于冯·诺依曼架构的改进——计算与存储分离的本质未变。对于更大的模型，片上SRAM容量有限，部分参数仍需外部DRAM，数据搬运的开销依然存在。包括三星的3D DRAM、HBM-PIM等技术，也未能完全消除存储与计算之间的物理分隔。

三维存算一体（3D-CIM™）架构：另一种解题思路

面对这一挑战，杭州微纳核芯提出了三维存算一体（3D-CIM™）架构。该技术不是简单拉近存储与计算的距离，而是通过三维键合技术，将SRAM存算一体计算内核与DRAM存储单元垂直堆叠融合，使计算直接在存储器内发生，从原理上消除了数据搬运的开销，同时利用DRAM的大容量承载大模型参数。

实现这项技术需要克服多重技术难点：架构设计上无成熟经验可循；三维键合工艺对精度要求极高；非冯·诺依曼架构的软件生态适配难度大。微纳核芯团队自2018年开始投入该方向，连续多年在芯片设计领域国际会议ISSCC上发表多项成果，并获得中国企业首个ISSCC最佳技术论文奖，2023年正式落地了3D-CIM™架构。

3D-CIM™的核心技术特点

SRAM存算一体核心架构：直接在存储单元内完成计算，大幅降低数据搬运功耗，不依赖最先进制程即可实现较高能效比。同等算力下芯片面积可缩小至传统方案的二分之一到三分之一。

三维键合技术：通过垂直堆叠，单芯片可承载数十GB参数，内核与DRAM之间互连带宽显著提升，有利于大模型在端侧流畅运行。

基于RISC-V的RV-CIM™异构融合架构：自研全栈软件工具链，可自动完成主流大模型到芯片指令的映射，降低开发者的使用门槛。微纳核芯被工信部任命为RISC-V存算一体应用组组长单位，参与制定相关行业标准。

据公司介绍，其推出的两款核心芯片，在不到4W功耗下可使7B大模型运行速度达到150tokens/s（实验室测试数据），不到2W功耗可流畅运行3B大模型。公司已获得国内头部存储厂商、终端客户的合作，并得到红杉中国、小米、联想等机构的投资。

结语

AI大模型的发展将半导体行业推向新的技术路口。摩尔定律趋缓，架构创新成为竞争焦点。英伟达收购Groq反映出传统GPU架构在AI推理场景中的挑战。微纳核芯的3D-CIM™技术提供了一条不同的演进路径。存算一体作为新兴方向，中国企业在此领域已有较早布局和技术积累。未来，随着技术成熟和生态完善，端侧AI的普惠应用或将加速到来。

本网站有部分内容均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责，本网站无法鉴别所上传图片或文字的知识版权，如果侵犯，请及时通知我们，本网站将在第一时间及时删除，不承担任何侵权责任。转转请注明出处：https://news.qqxiaoniao.com/18715.html