在电子系统设计中,功耗与性能参数往往存在权衡关系:某项参数的提升必然削弱另一项参数的表现。
然而在电池供电的边缘设备上实现AI推理时,开发者既追求更高性能又要求更低功耗:延迟决定用户体验质量,但实现近实时响应的高处理器性能绝不能以牺牲电池充放电周期为代价。传统微控制器和处理器对此问题的解决成效有限。
其根本原因在于物理特性,根源可追溯至MCU及各类处理器中执行计算功能的硅芯片架构。当今数字芯片中的经典通用计算模块,其工作原理是:从存储器中读取数据,通过算术逻辑单元进行处理,再将结果输出至另一存储器。性能与功耗取决于存储器速度及其与逻辑单元的距离,但经典通用计算硅架构限制了芯片设计师优化这两项参数的能力。
该架构还阻碍了芯片设计师将计算系统拓扑与神经网络结构相匹配,导致实现神经网络处理的指令集架构(ISA)效率极低。
如今,一种基于硅技术根本性创新的新型AI处理器实现了功耗与性能的突破,使设备端边缘AI真正能够依靠电池供电运行。本文将讲述这种新型AI原生计算架构如何实现比传统微控制器和处理器高出两个数量级的功耗/性能提升。
AI原生处理器的核心构建模块
当前用于神经网络处理的主流数字处理器(无论是CPU、神经处理单元NPU还是图形处理单元GPU)在实现通用计算功能时存在两大根本性问题:
l 处理器的工作模式是:从存储器(通常是DRAM或SRAM)中读取数据,在算术逻辑单元(ALU)中处理数据,再将处理后的数据写回存储器。这种数据读写过程极度浪费时间和电能。
l 大规模并行神经网络运算主要由乘积累加(MAC)功能构成,其与传统处理器的指令集架构(ISA)匹配度极差。将神经网络的MAC运算编译至传统ISA会导致处理器周期严重浪费。
因此,优化AI运算的计算架构需要在数据访问和计算功能拓扑结构上采取不同策略。正是GPX系列处理器的创新设计,使Ambient Scientific实现了功耗与性能双重提升两个数量级的突破。
首项创新在于基础计算单元——模拟MAC单元(见图1)。该单元通过将数据处理与存储器协同部署,构建出内存计算单元,彻底消除了从外部DRAM或SRAM读取/写入数据的需求。
相较于传统数字计算模块,内存化布局不仅缩减了MAC电路规模,更消除了布线需求,大幅降低延迟与功耗。与此同时,Ambient Scientific在芯片上实现了3D内存结构,显著提升了模拟MAC单元处理神经网络矩阵运算中高数量操作数的能力。

图1:模拟MAC单元实现无需访问外部DRAM内存即可执行MAC运算
硅片映射神经网络拓扑结构
Ambient Scientific推出的硅片创新第二大核心在于处理模块的拓扑结构——其采用矩阵计算机架构。典型神经网络可表示为1x32x8矩阵(见图2)。

图2:神经网络通常可表示为输入值与权重的矩阵
Ambient Scientific的DigAn™矩阵计算机结构与此相呼应,其通过多个模拟MAC模块在硅片上组装而成(见图3)。

图3:单个矩阵计算模块
多个矩阵计算机通过分层连接,与神经网络的分层结构相匹配(见图4)。

图4:多层DigAn矩阵计算机
这是AI原生处理器的物理实现,其成果令人惊叹:传统计算架构执行典型1x32x8神经网络矩阵的32层计算需耗费1,235,200个时钟周期。而在DigAn矩阵计算机中,仅需32个周期即可完成。
Ambient Scientific开发的硅基创新技术通过两种互补方式革新了AI处理:
l 通过内存计算模块加速运算效率
l 大幅减少特定神经网络任务所需的运算次数
面向边缘AI应用的超低功耗矩阵计算SoC
为在芯片层面实现矩阵计算架构,Ambient Scientific开发了名为MX8单元的AI处理器核心(见图5)。这些核心提供高度可扩展的系统架构,使Ambient Scientific能够将矩阵计算芯片应用于各类设备:从小型10核边缘AI系统级芯片(SoC),到数据中心服务器中包含多达2000个核心的大型处理器。

图5:MX8人工智能处理器内核实现以AI为核心的DigAn指令集
首批搭载MX8内核量产芯片为GPX10及全新GPX10 Pro边缘AI SoC。这些超低功耗设备是完全集成的AI控制器,配备10个DigAn核心、多通道ADC、可同时连接多达10个模拟和数字传感器的传感器融合功能,以及用于执行非AI工作负载的Arm® Cortex®-M4F CPU核心(见图6)。

图6:GPX10 AI处理器模块图
DigAn矩阵计算架构在实际应用中的差异表现尤为显著:GPX10峰值AI性能达512 GOPs,可媲美主流边缘GPU性能,远超当前市面传统微控制器水平。
但其功耗却比边缘专用GPU低几个数量级:峰值AI性能功耗仅约80µW,而边缘GPU功耗高达6W。本质上,GPX10与GPX10 Pro实现了两大突破:在功耗相当的情况下,其AI性能可达典型MCU的100倍以上;或以低100倍以上的功耗,达到典型低端GPU的同等性能。
换言之,边缘设备现可实现低延迟、低功耗的持续AI推理,适用于关键词检测、物体识别和异常检测等功能,其功耗特性完全适配小型电池供电系统。GPX10和GPX10 Pro芯片已应用于众多嵌入式边缘产品设计,包括:
l 智能戒指
l 智能鞋履
l 智能头盔
l 可穿戴健康监测设备
l 智能手表
l 工业机械
l 牲畜监测及其他农业设备
丰富的开发生态系统助力电子系统设计
从事上述及其他产品开发的嵌入式系统工程师,可借助完善的工具资源生态系统实现创新设计理念。
GPX系列处理器兼容主流机器学习框架,包括TensorFlow、PyTorch、Keras和ONNX。Ambient Scientific为GPX设备开发的软件开发工具包(SDK)包含完整的模型训练工具链。
模型训练完成后,开发者可使用Ambient Scientific专为GPX SoC打造的AI集成开发环境(IDE)Nebula。该环境基于Eclipse平台,包含AI模型编译至MX8内核的工具,以及配置中间件(设备驱动、实时操作系统等)在设备Arm Cortex-M4F内核上运行的工具。
这意味着选择基于GPX10或GPX10 Pro进行边缘AI设计的开发者,可使用熟悉的平台软件进行模型开发,并通过Ambient Scientific IDE获得与传统微控制器相同的设计效率。
基础硅创新实现性能突破
Ambient Scientific的故事正是颠覆性创新的典范:当人们认识到AI计算本质上与传统微处理器执行的通用计算截然不同时,便自然得出结论——AI应用需要完全不同的计算功能。
通过在硅基上实现新型AI核心计算功能,Ambient Scientific成功实现了功耗与性能的双重提升,为真正意义上的AI应用在边缘设备上实现电池供电运行奠定了基础。当其他类型的人工智能处理器产品——无论是MCU、NPU还是GPU——仍受限于其计算架构固有的低效性时,Ambient Scientific将通过扩展其原生人工智能MX8核心,全面满足从边缘到云端的人工智能应用需求。(译自Embedded Computing)
