智能语音芯片已经开始集成AI专核

2021-07-08

智能音箱、智能家居如今涉足AI领域是个热门话题，到市场上就体现在这类产品的出货量以及厂商的宣传口径上。比较有趣的是，虽然智能音箱的所谓“主控”芯片制造商总在宣传自身的AI属性，绝大部分芯片内部还是鲜有AI专核，或者说神经网络专用计算单元。大概这类边缘设备的AI算力需求，靠CPU或可能包含的GPU就可以达成...
不过随着边缘算力需求提升，智能语音芯片算力加强本身也是这两年智能家居、智能音箱发展的趋势。比如面向智能音箱的主SoC中，CPU部分就有算力越来越高的趋势。不过通用处理器在面向智能音频设备时，效率并不高，所以我们看到有厂商开始为芯片加DSP与AI专核（NPU）。
这其中相对典型的全志科技近期推出的R329芯片及其智能语音解决方案，藉由这颗芯片及对应解决方案，我们大致也能窥见当前智能家居/智能音箱在AI这条路上的发展思路和方向，顺便看看在这类芯片真正有了AI专核以后，高算力的AI智能语音芯片是什么样子。

从配置看R329的定位
全球智能音箱芯片市场的主要玩家包括了高通、Intel、苹果、全志科技（Allwinner）、瑞芯微（Rockchip)、晶晨半导体（Amlogic）等。我们并不清楚在全球范围内或者国内，“主控”芯片厂商在智能音箱设备中具体的市场份额——不过从既有智能音箱的主芯片来看，国内的竞争似乎也相当激烈。
就全志来说，天猫精灵、小度在家、小度音箱Play、京东叮咚、小爱音箱Play、小爱音箱mini、腾讯听听、网易云音箱、索尼LF-S80D等这些相对较热的智能音箱都在用全志的主控芯片，这也让全志R328、R16、R58成为比较知名的智能音箱主控芯片。全志的R系列在定位上是面向边缘低功耗应用的芯片产品，不只是智能音箱产品：R40/R16另外相对知名的是在Banana Pi上有应用，R16也是石头科技扫地机系列产品的主控。
R系列产品中的R328去年也得到了Aspencore的“2019全球电子成就奖”音频处理器产品奖。在去年3月份的中国家电消费电子博览会上，全志展示过其强噪音环境的识别能力。就产品编号来看，R329似乎是R328的迭代产品，不过全志科技发言人告诉我们，这两款产品是不同定位的。
其中“R329是高阶定位，着力于大算力，3-8麦远场智能语音交互，可应用于带电池的超低功耗产品上，且接口丰富”，为当前市场中高端智能音箱提供更好的解决方案；而“R328偏向中端到入门级市场，2-3麦远场智能语音交互，成本更低”。
全志科技表示，R329的两大主要特点就是高算力与低功耗。其中高算力的部分，也更多涉及到了DSP与NPU。我们就尝试从这两方面来看看R329的产品特色。在此之前首先来全局看一看R329的参数配置与特性：
- 双核 Cortex-A531.5GHz 主频；
- DSP：双核 HIFI 4，400MHz 频率；
- NPU：周易 AIPU，800MHz， 0.256T；
- 存储：片上SRAM；内置 128MB DDR3；
- 扩展：集成多路音频ADC和DAC，3路I2S和8通道DMIC，同时集成LDOs。
针对完整的智能音箱方案，全志也提供配套的WiFi与蓝牙芯片、音频ADC芯片等，满足不同客户需求。
从这一串配置大致就能看出R329在定位上是预备做高算力的，而且主要针对的是不带屏幕的智能语音交互产品。通用处理器部分选择的是Arm Cortex-A53微架构：这部分在整个系统的职能通常是跑操作系统、应用、网络连接等。全志更早的R系列主流方案用的是A7微架构——这也是市面上不少竞品的选择，还有一些选择了A35。
A53和A7都属于高能效比的架构方案，这两者在渲染管线上有着比较多的相似性，比如顺序8级管线。不过前者又有比较显著的同频性能提升，包括改用64位Armv8-A指令集架构与扩展，更完整的超标量支持。A53的双发射有着更强的灵活性，分支预测精度有改进；另外整数、浮点单元、Neon以及存储性能都有提升。
后续的A35实际更多的着眼于效率，它在性能方面定位于A7同档，整体微架构与A53也很相似——前端有一些变化，在取指单元上做了重新设计，取指带宽对能效做了权衡，指令队列更小；Neon/浮点管线在面积效率上有变化。

全志方面为我们提供了A53相较A35的性能提升数据，除了每个周期整数乘法与浮点单精度与双精度FLOPS性能，还有一些基准测试。这个数据也基本符合Arm早前官方给出的，基于不同场景A35性能大约是A53的80%左右。具体到R329芯片，相比R328“提供1.58倍整数算力，1.98倍浮点算力”——后者采用的是双核A7（1.2GHz），所以这个程度的提升也在预期中。
DSP与AI专核
从通用处理器选择A53就能看出R329的定位，不过在IP选择上更能凸显高算力的应该还在于DSP与AI专核。前文就已经提到通用处理器部分跑的是操作系统、应用、网络连接等；DSP负责信号处理算法、音效；还有AI专核，即NPU专门用于本地ASR（自动语音识别）、NLP（自然语言识别）和TTS（Textto Speech）——都是在本地执行的，也就是我们常说的边缘计算。
R329的DSP部分是两个HIFI 4核心——这是CadenceTensilica HiFi DSP系列IP中的一个，在家族定位中也属于偏向高性能的DSP，在手机、车载、数字电视之类的产品上就有相对广泛的应用生态。HIFI 4实则本身就支持多通道基于对象的音频、数字助手前端处理和基于神经网络的ASR，虽然我们知道全志选择了将其中的部分特性交给NPU去完成。
从全志发言人了解到这两个HIFI 4核的其中一个可用作“音频前处理，如降噪、回音消除、唤醒词识别”；一个则可用于“音频后处理，实现音频解码、音效增强、录音等”；配合片上的SRAM可实现“低功耗小模型双麦降噪算法与小模型深度学习唤醒词”。从这个描述可见R329的DSP也有典型的轻度AI计算属性。双核DSP的设计在全志的其他R系列产品中也相当少见，这种设计本身也是为了针对部分音频应用场景提供专门的计算单元，获得更好的能效比，与低功耗相关。有关低功耗的部分还将在后文提及。
不过似乎在全志看来，仅通用处理器+DSP（以及片上SRAM）的设计，在实现更高算力方面仍然不够，所以R329还选配了一个专门的AI专用处理器：周易AIPU。周易AIPU是Arm中国研发的AI处理器IP。加AI专核在行业的同档竞品中似乎还是比较罕见的。

Arm中国此前有提到过AIPU相比DSP的优势，加上现在更多的AI专核也有考虑支持可编程性的问题，以适应不同算法。Arm中国能够利用自身优势来构建AI软件生态，而DSP虽然也能做AI处理，但不同架构间始终没有形成规模生态，对软件开发而言并没有那么友好。另外当然也就是AI专核拥有一套AI和神经网络优化的指令集，在算力和效率上，运行一些专门的负载任务时也会更出色。
Arm中国2018年11月发布的“周易”平台，主要包括两部分，一是AIPU，二是Tengine框架。AIPU最大的特点就是拥有一套AI和神经网络优化指令集，实现包括张量指令、实现定制硬件加速单元的特定AI指令，以及AI计算的标量指令等，另外也支持用户自定义硬件实现。
支持包括TensorFlow等各种通用框架也是当代AI处理器的标配了，Arm中国的资料提到AIPU“支持用户一键式加载算法”，并且通过高效、灵活的张量处理单元（tensor execution cell)实现编程灵活性。
有关AIPU比较具体的效率，全志也提供了一份算力与功耗对比的数据，如上图所示：这个程度的效率当然并不令人意外，毕竟AIPU是AI专核。不过在性能上相较600MHz的HIFI 4有25 倍的优势仍然能够表现出当代开发AI专用处理器的价值和趋势。需要注意的是，这里的对比限于单核性能与功耗。
据了解，全志R329是第一款公开发布的采用周易AIPU的芯片，得到了Arm中国的大力支持，说明双方对未来NPU在智能音箱及人工智能其它领域的应用是非常看重的。所以也比较容易想见R329在面对竞品时有着算力上的更大优势。

至于周易平台除了AIPU之外的Tengine框架，它实际并不依赖于AIPU，应该算是整个Arm AI生态的组成部分。它能够对现有Arm架构的芯片算力做提取，所以Tengine也支持Arm CPU、Mali GPU以及第三方AI单元，为AI应用开发提供一个抽象的运行时接口。全志针对R329自己也有为开发者提供全套软件工具链，很大程度应该也是在为周易生态添砖加瓦。
在更具体的应用上，全志表示：“ASR、NLP、TTS等技术对专用AI处理器提出了迫切需求；传统算法也逐渐被AI算法替代，国内外均有发布，用深度学习做端到端的算法，相对于传统降噪、回声消除和关键词识别算法，效果更优，具有更高的识别率。”
所以全志也告诉我们，在R329用上DSP+NPU+2MBSRAM时，让大模型双麦降噪算法跑在DSP上，大模型深度学习唤醒词跑在NPU上，能够实现低功耗特性。这应该是权衡算力与功耗之后，一种相对合理的搭配方式。
高算力下的功耗
DSP+NPU的搭配，本身就是为了提供更到位的运算效率，理论上自然能够在达成相同算力的情况下达成明显更低的功耗，前文Cortex-A7、HIFI 4 DSP以及AIPU的对比就提到专用核心不只是算力上的显著领先，还在于相同算力下的AI计算单元功耗仅有通用处理器的几十分之一。
不过在实现低功耗的问题上，R329集成在片上的2MB SRAM也是相当重要的组成部分。这种在片上集成较大容量SRAM的设定，在全志以往的R系列产品及同档竞品中也并不多见——某些竞品也有片上SRAM，但同档的配置通常在256KB这样的水平上。
较小的SRAM本身是无法运行低功耗降噪算法+唤醒模型的，还是需要搭配更慢的DDR。在 SRAM的配置下，算法模型大部分算力可以放到SRAM中运行。所以全志表示，R329的待机功耗为（1）内置硬件VAD（语音活动检测），做声音检测亦能实现30mW以下的待机；（2）DSP+RAM，实现小模型双麦降噪算法、小模型深度学习唤醒词，则为50mW待机功耗；（3）DSP+NPU+ SRAM，让大模型双麦降噪算法跑在DSP上，大规模深度学习唤醒词跑在NPU上，实现60mW待机功耗。所以R329本身适用于做带电池的方案。
最后，相关I/O部分实则也是值得一提的。R329集成了2路音频DAC，可以直接外挂模拟功放实现立体声，1.1声道输出，通过I2S则可以实现5.1/7.1声道的音频输出；集成多路音频ADC——相比竞品有更强的音频接口扩展性，也就能够提供多麦拾音方案。
未来我们再观察全志R329的市场表现，大致可以窥见智能语音解决方案的这种高算力是否会成为智能家居市场的趋势。在全志看来，这个答案还是比较肯定的。全志在接受我们采访时，就算力需求在时代变迁中的变化举了个例子：
“比如刚开始通过MP3音频格式实现multiroom，客户对于这个功能很惊喜，但随着客户逐步习惯智能语音交互这一基本功能后，就提出智能音箱的音质也要跟传统音箱对标，音频的传输格式就从MP3大幅提升到了AAC，再叠加multiroom，这个功能对应的对AP的算力要求就会出现倍数增加，因为是音频功能的体验，还需要确保很高的实时同步性。”
“消费者的要求越来越多，也越来越高，使得对于AP的规格和算力的要求也在同步提升，智能音箱在不断增加新的功能，比如multiroom、TWS、DLNA、BT MESH、更震撼的音效；客户逐步不再满足简单EQ和DRC的处理，虚拟低音、3D环绕立体声等高阶音效的需求不断提出。”这大概就是R329出现的契机。
Strategy Analytics发布的研究报告指出，2019年全球智能音箱出货量总计1.25亿台，比2018年增长了60%。在阿里、百度、小米等推动下，中国智能音箱的出货量从2018年的2190万增长到了2019年的5200万，呈现井喷式增长。
全志科技即是语音主控芯片市场的参与者，智能音箱是该公司重点投入的一个领域。2018年全志在智能音箱的R系列产品已经取得一定突破。2019年全志推出智能语音专用处理器 R328就有不错的市场成绩。R329即是基于R328的升级产品，定位于高算力、低功耗的AI语音专用芯片。
全志发言人表示，2020年全志面向智能音箱会推出多款芯片。除R329之外，目前全志正在规划下一代无屏智能音箱集成WiFi/BT RTOS系统芯片，面向低成本产品市场迭代需求；而针对带屏音箱产品迭代，全志即将推出定位高性能的四核A53芯片R818。

东莞市世科智能科技有限公司
电话：0769-82286297
传真：0769-82285691
网址：www.wortech.cn
联系地址：东莞市长安镇长西路万科中心6楼