聊一聊Ambiq的新品 Atomiq边缘AI处理器

用户头像
混沌之泊
 · 北京  

前文 网页链接{超低功耗半导体设计公司 Ambiq Micro 申请 7500 万美元 IPO},

Ambiq Micro(AMBQ.US)周三登陆纽交所,在首次公开募股(IPO)中筹得 9600万美元,上市首日收涨61%,报38.53美元,远高于其24美元的发行价。由于交易波动,Ambiq的股票在交易时段内曾两次触发熔断。

2025年7月提交的SEC文件(S-1/A),Ambiq写道:“我们的超低功耗 SoC 服务于众多需要 设备端实时 AI 的市场,包括智能手表和健身追踪器、增强现实和虚拟现实 (AR/VR) 眼镜、智能戒指、数字健康监测器、安防系统和门禁系统、牲畜追踪、作物监测以及工厂自动化。这些设备越来越多地提供片上 AI 驱动的功能,例如语音识别、领域特定语言模型、图像和视频处理以及感知,这进一步加剧了功耗压力,而我们的解决方案正是为此而生。

边缘人工智能的 SoC 产品

我们的 SoC 基于 SPOT 平台构建,旨在使所有功能都能实现超低功耗。根据我们的经验,理想的边缘 AI SoC(如下所示)包含主处理器、电源转换、有线和无线通信、传感器接口和用户界面、存储器,以及用于图形、安全等各种加速计算模块。更重要的是,对于要求最严苛的边缘 AI 用例,神经处理单元(NPU,即 AI 加速器)也包含在内。这些元素对于边缘 AI 用例都至关重要,而 SPOT 的设计旨在降低每个用例的能耗。

我们的产品组合包括两个旗舰 SoC 产品系列,均具有丰富的外设,如上图所示:

Apollo:首款 Apollo 系列产品于 2015 年推出。每隔几年就会推出新的系列产品,最新的 Apollo5 系列将于 2024 年推出。Apollo 系列产品将丰富的外设与能够进行基于软件的 AI 计算(例如 Apollo3 和 Apollo4 系列)矢量加速 AI 计算(例如 Apollo5 系列)的主处理器相结合。

Atomiq: Atomiq 系列的首款产品目前正在开发中。这款新产品面向对边缘 AI 计算要求严苛的 AI 应用,预计将提供我们产品迄今为止最高的性能和最低的功耗。Atomiq 预计将搭载完整的 NPU,以实现高性能 AI 加速,并采用全新的内存创新技术——所有这些都旨在实现边缘 AI 模型执行的最低功耗和最高性能。

我们目前的大部分收入来自超低功耗SoC,这些SoC与软件以及其他各种解决方案紧密捆绑,将32位微控制器 (MCU) 与无线连接和附加电路(例如图形处理单元、串行接口和模数接口)相结合。在不久的将来,我们相信我们可以扩展到嵌入式应用处理器以及独立的专用AI处理器。尽管目前我们的许多客户直接在我们的Apollo级SoC和SoC内的轻量级加速器上运行基本的AI推理,但我们现在正在开发专为加速AI计算而设计的专用AI处理器单元。目前,我们将市场机遇定义为32位MCU、离散应用处理器 (ASIC)、无线连接以及专为边缘应用打造的AI处理器。根据Gartner的数据,这些市场规模在2023年将达到128亿美元,到2028年将增长至225亿美元。 这包括涵盖工业边缘、智能家居和楼宇的AI设备,以及消费级可穿戴设备和数字健康设备等穿戴式AI设备。我们相信,未来我们的技术有潜力满足众多需要更高能效的半导体终端市场的需求。”

令人惊讶的是Atomiq 为了减少数据搬运功耗,引入新型低功耗内存,居然采用HBM技术(DRAM内存)。

集成HBM的Atomiq可用于“高端边缘设备”,增加未来更多想象的应用市场空间,例如:

增强/虚拟现实 (AR/VR) 眼镜: 需要巨大的带宽来支持高分辨率显示和实时环境追踪。

高端智能家居中枢: 需要在本地处理多个视频流和复杂语音命令的设备。

先进的医疗监控设备: 需要对复杂生物数据进行实时分析的便携式或床边设备。

汽车电子或机器人: 在这些领域,性能至关重要,而功耗限制远没有微型可穿戴设备那么苛刻。

Atomiq 第一代产品将采用台积电12纳米超低功耗N12e工艺,集成双核Cortex-M55,NPU,GPU和DRAM。其实恒玄科技早在2022年就推出了业界第一款12nm全集成的智能运动手表新品BES2700BP, 集成Cortex-M55,GPU, NPU,sensor hub和SIP nand flash 和 PSRAM。Atomiq的特色在于创新地用HBM集成DRAM,这是大胆的跳跃式发展。

如下是 Apollo和Atomiq产品线的比较。Apollo是配置最低量级的AI能力(软件AI和Cortex-M55自带MVE矢量加速),Cortex-M55的峰值算力不到10 GOPS。 Atomiq跳级到配置超高带宽内存HBM的端侧AI加速,适配NPU峰值算力可以达10+TOPS。

根据当前主流存储器的带宽能力适配的AI模型规模,从低到高排序如下:

AI算力与模型适配等级 vs 存储器带宽

关键结论:

ePSRAM轻量级端侧型模型(如关键词唤醒, 智能语音交互)。

LPDDR4 适合小型边缘AI,如智能摄像头、低端车载ADAS。

LPDDR5当前边缘AI主流,可支持Transformer小型化部署

HBM 是唯一可支撑大模型本地推理的存储器,适用于高性能边缘AI芯片

Ambiq的Atomiq 主控芯片是Cortex-M55,频率一般控制在200MHz以下。 Ambiq 通过 “SPOT 低功耗待机 + turboSPOT 高频运行 + HBM 高带宽存储” 的混合架构,保持系统超低功耗。 通过 “Cortex-M55调度器 + DMA + NPU” 的协处理架构间接控制 1000 GB/s HBM,既满足 AI 性能需求,又避免主控频率瓶颈,实现 低功耗 + 高带宽 的平衡。

Ambiq和恒玄科技的技术路线对比

恒玄科技是按先进制程的路径来迭代发展AI处理器的存力,6nm BES2800BP内部SIP Flash和 PSRAM。 如下图。制程越先进,芯片面积越小,就可以放进更大容量的PSRAM,装下更大的AI模型。恒玄应该在进军更先进的超超低功耗工艺 N4e。

从恒玄的招聘信息看,恒玄也在为多核异构( Cortex-A +Cortex-M)SoC集成LPDDR4/5 存储,准备传统的ePOP封装工艺。

对于恒玄和Ambiq的不同技术路线竞争可以分为三个阶段来分析:

第一阶段:亚TOPS时代 (< 1 TOPS, 即 < 1000 GOPS)

竞争者A (恒玄): 采用N6e工艺,集成一个500 GOPS的NPU和ePOP封装的LPDDR4内存。

竞争者B (Ambiq Atomiq + HBM): 在12nm上集成一个500 GOPS的NPU和HBM。

在这个阶段,恒玄将占据绝对优势。

原因: LPDDR4提供的带宽(约30-50 GB/s)足以满足一个几百GOPS算力的NPU的需求。而Ambiq方案中,HBM的超高成本和更高的待机功耗会成为巨大的累赘,其巨大的带宽优势完全无法发挥。这就像用消防栓给一个茶杯倒水,不仅浪费,而且成本高昂。

第二阶段:低TOPS时代 (大约 2 ~ 4 TOPS) - 优势的转折点

竞争者A (下一代恒玄): 在N4e上挑战极限,集成一个3 TOPS的NPU和LPDDR5X内存。

竞争者B (Ambiq Atomiq + HBM): 集成一个3 TOPS的NPU和HBM。

这就是绝对优势开始显现的转折区间。

原因:内存墙出现。 一个3 TOPS的NPU对数据的吞吐需求是极其庞大的。此时,LPDDR5X的带宽开始成为一个瓶颈。NPU可能因为数据供应不足而频繁处于“饥饿”或等待状态,其峰值算力只能在极短的时间内达到,实际平均算力可能只有1.5 TOPS,算力利用率极低 (<50%)

Ambiq优势显现: HBM提供数百GB/s的带宽,可以轻松地让3 TOPS的NPU 以接近100%的利用率持续运行。这带来了两个决定性的优势:

实际性能优势: 同样是3 TOPS的纸面算力,Ambiq能提供持续稳定的高强度计算,而恒玄的方案则会因为内存瓶颈而大打折扣。

单位任务能耗优势: Ambiq的“速战速决”(Race to Sleep)策略此时威力尽显。它能以最高效率极速完成计算任务,然后让整个系统进入深度睡眠。虽然其峰值功耗可能更高,但完成同一任务所消耗的总能量会远低于那个因内存瓶颈而不得不长时间运行的恒玄方案。

结论:当AI模型和应用需要的算力进入2-4 TOPS范围时,Ambiq基于HBM的架构将开始展现出“优势”。

第三阶段:10 TOPS及以上时代

竞争者A (下一代恒玄): 在物理上几乎不可能用LPDDR内存有效驱动一个10 TOPS的NPU。即便能把NPU做出来,95%的时间也都会在等待数据,整个芯片将变得毫无效率。

竞争者B (Ambiq Atomiq + HBM): 这正是HBM架构的主场。只有这种级别的内存带宽,才能支撑起如此巨大的算力。

在这个阶段,Ambiq的架构优势是明显的。

总结:

恒玄科技可以通过迭代工艺在2 TOPS以下的赛道上保持强大竞争力。但当市场对边缘AI的算力需求跨过 2-4 TOPS 的门槛时,内存墙将不可避免地出现。届时,Ambiq Atomiq集成了HBM的架构将凭借其超高带宽带来的高算力利用率和“速战速决”的能效优势,建立起绝对的、非线性的竞争优势。10 TOPS则是这场竞争的终点,未来只有HBM架构的玩家才能留在牌桌上。

Atomiq也给Ambiq带来很大的研发费用,2024年占比38%。Ambiq写道“我们预计将增加研发支出,这体现了我们专注于开发全新解决方案(例如Apollo6、Atomiq、现有Apollo系列中的SoC变体)以及进一步渗透现有市场的战略,例如医疗/保健、工业边缘计算以及智能家居和楼宇。 拓展汽车、数据中心和计算等新市场。我们无法预测是否拥有足够的资源来达到保持竞争力所需的研发投入水平。例如,使用0.4伏、0.5伏或0.6伏亚阈值和近阈值设计开发我们的解决方案的成本远高于使用标准0.8伏或0.9伏的开发成本。这笔额外的开发成本可能会使我们无法保持相对于拥有更多研发资源的大型竞争对手的技术优势。此外,我们无法保证我们研发支出的重点技术将在商业上取得成功或产生任何收入。如果我们增加研发成本但未能产生收入,我们的业务、财务状况和经营业绩将受到不利影响。

我们无法保证我们的低功耗方法能够保持竞争力。在相同的制造几何尺寸下,我们的 SPOT 平台可使器件的功耗比传统技术降低 2 到 5 倍。然而,低功耗可以通过其他多样化的技术方法实现。有可能出现新颖独特的低功耗方法,超越我们现有的技术,并带来更高效、更具成本效益或两者兼具的解决方案。如果出现这种情况,我们的财务业绩可能会受到影响。”

$恒玄科技(SH688608)$ $乐心医疗(SZ300562)$