arm内核有哪些_arm内核有哪几种

汽车芯片行业深度报告：软件定义汽车，AI芯片是生态之源　　来源：雪球App，作者：未来智库，（https://xueqiu.com//）　　温馨提示：如需原文档，请登陆未来智库www.vzkoo.com，搜索下载。　　1、芯片是软件定义汽车生态发展的基石　　在智能网联汽车产业大变革背景下，软件定义汽车理念已成为共识。传统汽车采用的分布式 E/E 架构因计算能力不足、通讯带宽不足、不便于软件升级等瓶颈，不能满足现阶段汽车发展的需求，E/E 架构升级已成为智能网联汽车发展的关键。　　汽车 E/E 架构升级主要体现在：1）硬件架构升级。由分布式 ECU 向域控制/中央集中架构方向发展。好处在于：提升算力利用率，减少算力设计总需求；数据统一交互，实现整车功能协同；缩短线束，降低故障率，减轻质量。2）软件架构升级。通过 AutoSAR 等软件架构提供标准的接口定义，模块化设计，促使软硬件解耦分层，实现软硬件设计分离；Classic AutoSAR 架构逐步向 Classic AutoSAR 和 Adaptive AutoSAR 混合式架构方向发展。好处在于：可实现软件/固件 OTA 升级、软件架构的软实时、操作系统可移植；采集数据信息多功能应用，有效减少硬件需求量，真正实现软件定义汽车。3）通信架构升级。车载网络骨干由 LIN/CAN 总线向以太网方向发展。好处在于：满足高速传输、高通量、低延迟等性能需求，同时也可减少安装、测试成本。　　从博世对 E/E 架构定义来看，硬件架构的升级路径表现为分布式（模块化→集成化）、域集中（域控制集中→跨域融合）、中央集中式（车载电脑→车-云计算）。即为分布式 ECU（每个功能对应一个 ECU）逐渐模块化、集成向域控制器（一般按照动力域、底盘域、车身域、信息娱乐域和 ADAS 域等），然后部分域开始跨域融合发展（如底盘和动力域功能安全、信息安全相似），并发展整合为中央计算平台（即一个电脑），最后向云计算和车端计算（中央计算平台）发展。其中车端计算主要用于车内部的实时处理，而云计算作为车端计算的补充，为智能汽车提供非实时性（如座舱部分场景可允许微秒级别的延迟）的数据交互和运算处理。　　
　　硬件架构升级驱动芯片算力需求呈现指数级提升趋势。传统汽车功能简单，与外界交互较少，常为分布式 ECU，主要为控制指令运算（约为百万条指令每秒）、无 AI 运算能力、存储较小；智能网联汽车，不仅需要与人交互，也需要大量与外界环境甚至云数据中心交互，未来将面临海量的非结构化数据需要处理，车端中央计算平台将需要 500+ 百万条指令/秒的控制指令运算能力、300+TOPS（即为 300*1012 次每秒）的 AI 算力。　　
　　智能网联汽车四大核心技术：芯片、操作系统、算法、数据共同形成生态闭环，芯片是智能网联汽车生态发展的基石。类比手机产业链，我们认为芯片/操作系统或成为寡头垄断格局，而从当下行业发展看，芯片或格局相对较为稳定，且处在产业核心位置。2. 汽车处理芯片由 MCU 向 AI 芯片方向发展　　半导体可分为模拟芯片、数字芯片、OSD 三大类。模拟电路是指处理模拟信号的电子电路。模拟信号具有连续性，信号传播的信息包含在幅度、频率、相位的变化上，常应用于放大信号，信号源两方面。数字电路是指处理数字信号的电子电路。数字信号以二进制逻辑代数为基础，实现简单，系统可靠，具有算数运算和逻辑运算的功能。OSD 包括光电器件、传感器、分立器件三个细分类型。　　
　　2.1. 汽车数据处理芯片运算由控制指令向 AI 运算方向发展　　现阶段，汽车芯片市场上对汽车数据处理芯片分类有按三类：1）智能运算为主的 AI 芯片；2）算力较强的主 CPU；3）算力较弱的 MCU（仍可视为 CPU）。也有按两类： 1）智能运算为主的 AI 芯片；2）CPU 运算为主的 MCU。为了便于理解，主 CPU 和 MCU 的主要玩家都是同一类，而且 CPU 与 MCU 本质均为控制指令运算，因此我们采用第二种分类方法。　　汽车芯片由以控制指令运算为主的 MCU 向智能运算为主的 AI 芯片方向发展。1）控制指令运算可执行如等待指令、停机指令、空操作指令、中断指令等，其运算单位为 DMIPS：即 Dhrystone MIPS 测试下，计算能力为百万条指令/秒，一般通用芯片常用其表示，如传统汽车电子的 MCU 等，代表厂商如英飞凌、瑞萨、恩智浦等。2）AI 矩阵运算常指对矩阵运算做加速的能力，对应用于图像、视频等非结构化数据的运算处理的情况下，单位功耗将更低，计算速度更快，其运算单位为 TOPS、Tflops，均指每秒运算 1012 次。TOPS：指数据类型为整数型，常用于自动驾驶等领域，代表产品如华为昇腾系列芯片、地平线征程系列芯片、寒武纪的 MLU 系列芯片等。Tflops：指数据类型为单精度浮点数，较整数型数据精度更高，通用 AI 芯片常用它表示，常用于如核实验室运算、分子动力学运算等，代表产品如英伟达的 GPU 芯片。　　在智能网联汽车领域，Int8 数据类型精度即可满足现阶段 AI 运算要求。Int 8 和 FP32 分为定点数和浮点数，小数点的位置是固定的，则为定点数，小数点的位置是浮动的，则为浮点数。Int8 代表 8 个字节，此外，还有 int4，int16 等字节数越高，计算精度会提升，但占用存储增多，会降低计算速度，所以为保证满足数据精度和运算速度，常用 Int8 数据类型，单位为 TOPS（即 1012次/秒）。　　汽车芯片结构形式由 MCU 向 SOC 异构芯片方向发展。汽车数据处理芯片按应用可分为 MCU（微控制器）、SoC（System on Chip 系统级芯片）。MCU 结构简单，可视为简化版本的 CPU，其将 CPU 的频率和规格适当缩减，并将内存、计数器、IO 接口、 I/D 转换等结构都整合到单一芯片，形成芯片级的计算机，主要用于汽车执行端 ECU 中进行控制指令运算。　　SoC 是一颗系统级芯片，常由 CPU+GPU+DSP+NPU+各种外设接口、存储类型等电子件组成，现阶段主要应用于座舱 IVI、域控制等较复杂的领域。SOC 较 MCU 集成程度更高，常集成 AI 处理单，功能更复杂。SOC 芯片：1）硬件集成规模更为庞大，提升资源利用效率。常额外集成音频处理 DSP/图像处理 GPU/ 深度学习加速单 NPU 等，单颗芯片上集成更多的配套电路，减小了面积，提升资源利用率，片上互联利于集成电路之间的高速互通互联。2）芯片上软件配套更大，提升处理效率。SOC 芯片上有丰富的软件配套（工具链、编译器等），提升了处理效率。3）可支持多任务的复杂系统。但并非所有的 SOC 芯片均为 AI 芯片，需集成一定规模的时间网络单才是 AI 芯片，如华为昇腾芯片、地平线征程芯片、寒武纪 MLU 芯片、特斯拉 FSD 均为此类芯片。　　2.2. ARM 内核提供芯片控制指令运算能力　　CPU 架构可分为 X86 为代表的复杂指令集架构，和 ARM 为代表的精简指令集架构。汽车 CPU 架构主要为 ARM 架构，在 MCU 和 SOC 中担任控制指令运算。CPU 架构可分为 CISC（复杂指令集）架构和 RISC（精简指令集）架构。1）复杂指令集指令可变格式，包括 8、16、32、64 位，其特点是单指令功能强大且复杂，指令执行周期长，可以直接操作内存，常见的复杂指令集如 X86，代表企业 intel、AMD。2）精简指令集的特点是单指令功能简单、执行速度快，编译效率高，不能直接操作内存，常见的精简指令集有 ARM、MIPS、OpenRISC 以及 RSIC-V 等,代表企业：ARM。ARM 处理器内核广泛用于嵌入式系统，具有执行效率高，低成本等优点。　　ARM Cortex 系列主要分为 A、R、M 三类。1）Cortex-A 系列：常集成于 SOC 中，面向性能密集型系统的应用处理器内核，带宽多为 64/32 位，主频可达 GHz 级别（1GHz=103MHz），当主频达到 1GHz 时，其单核控制指令算力为几千 DMIPS（DMIPS 即为百万条指令每秒），多用于汽车座舱娱乐信息系统或 ADAS 领域；2）Cortex-M 系列：常集成于 MCU 中，主要面向各类嵌入式应用的微控制器内核，主频为几十-几百 MHz 级别，其单核控制指令算力为几十至几百 DMIPS，多用于汽车执行端控制领域； 3）Cortex-R 系列面向实时应用的高性能内核，介于 A 与 M 之间。　　
　　2.3. AI 处理器提供芯片智能运算能力　　AI 处理器可分为云端处理器、边缘端处理器、终端处理器。1）云端 AI 处理器，支持 Int8 定点运算或 FP16、FP32 浮点运算，支持深度学习推理/训练要求，主要应用于政府、企业数据中心的服务器中，如服务金融业、航空航天、气象预报、宇宙演化模拟以及抗震分析等领域计算。此外在未来 5G 应用，更多的汽车数据会传送到车企数据中心用来训练模型，实现软件、算法的优化。2）边缘端 AI 处理器，Int8 定点运算，支持深度学习推理要求，主要应用于工控机、安防摄像头、机器人、汽车车端等领域，由于所搭载设备的电力资源有限，能效比高（算力/功耗，值越高越经济）、接口丰富等是关键。3）终端 AI 处理器主要支持深度学习推理功能，主要应用于手机等移动终端，如华为麒麟系列芯片。未来云边端三类处理器并非竞争关系，而是未来会进一步协同发展，云端训练模型实现算法软件的优化，并提供给边缘/终端进行本地化 AI 运算。　　车端 AI 处理器现阶段主要负责深度学习的推理任务。智能算法范围由大至小依次为：人工智能、机器学习、深度学习、神经网络。应用场景越少，对应需要的实现的算法越少，就越适用于专用芯片，可通过精简处理器软硬件模块，使处理器计算效率、能效比更高。　　
　　2.4. 车规级芯片条件苛刻　　车规级芯片标准远高于消费级，认证流程长。1）工作环境更为恶劣：相比于消费芯片及一般工业芯片，汽车芯片的工作环境温度范围宽（-40 至 155 摄氏度）、高振动、多粉尘、多电磁干扰。2）可靠性安全性要求高：一般的汽车设计寿命都在 15 年或 20 万公里左右，远大于消费电子产品寿命要求。在相同的可靠性要求下，系统组成的部件和环节越多，对组成的部件的可靠性要求就越高。3）车规级芯片认证流程长。一款芯片一般需要 2 年左右时间完成车规级认证，进入车企供应链后一般拥有 5-10 年的供货周期。　　
　　汽车标准需认证可靠性标准 AEC-Q 系列、质量管理标准 ISO/TS16949 其中之一，此外需要通过功能安全标准 ISO 26262 ASIL B(D）。ISO 26262 在 2011 年 11 月 15 日正式发布，主要包括四个等级，分别为 ASIL A/B/C/D。ISO 26262 安全是汽车电子件稳定性优劣的评判依据之一，通过该等级代表其产品稳定性合格，耐用，但不代表其算力、能效比高。此外，还需要通过零失效的供应链质量管理标准 TS16949/ISO 9000 国际认证体系下的汽车行业分支的标准认证；另一个是 AEC-Q 认证，由克莱斯勒、通用、福特制定的汽车电子件安全性检测标准。　　
　　3. MCU 引领汽车由机械化时代走向电气化时代　　3.1. MCU 承担汽车执行 ECU 的运算大脑　　汽车发展初期，控制功能较少，一般新增一个功能便新增一个 ECU（Electronic Control Unit，即电子控制单），即为典型的分布式电子电气架构。因此，一般汽车中包括多个 ECU，每个 ECU 管理不同的功能，而 MCU 芯片嵌入在 ECU 中作为运算大脑。MCU 的工作过程：传感器输入信号，输入处理器对信号进行模数转换、放大等处理后，传递给 MCU 进行运算处理，然后输出处理器对信号进行功率放大、数模转换等，使其驱动如电池阀、电动机、开关等被控件工作。MCU 主要有 8 位、16 位、32 位，位数越多越复杂，处理能力越强，可实现的功能越多。　　
　　MCU 单车价值量提升的核心逻辑在于：1）芯片用量提升，应用领域由传统底盘延伸至整车。随着汽车电子化发展，ECU 逐渐占领整个汽车，从防抱死制动系统、四轮驱动系统、电控自动变速器、主动悬架系统，到现在逐渐延伸到了车身各类安全、网络、娱乐控制系统等领域。2）芯片集成复杂化，单价提升。以发动机管理系统 ECU（MCU 为其核心芯片）为例，汽车电子发展的初期，ECU 最早仅应用于发动机的控制，如汽车发动机的排气管（氧传感器）、气缸（爆震传感器）、水温传感器等核心部件才会放置传感器，数量少。之后随着国三至国五标准的提升，在油耗控制、信号输出控制等方面需要芯片处理的能力增强，推动 MCU 芯片集成度提升，产品升级带来价值提升。　　
　　3.2. 预计 2025 年我国汽车 MCU 市场达 32.9 亿美，CAGR 7.7% 　　2025 年我国汽车 MCU 市场规模达 32.9 亿美，未来 6 年 CAGR 为 7.7%。经测算，2019 年我国汽车 MCU 市场规模为 21.1 亿美，同比-2.7%，随着汽车智能化加速，更多的功能将会被整车搭载，大量执行件需要被 MCU 所控制，到 2025 年 MCU 市场规模达 32.9 亿美，CAGR 为 7.7%，到 2030 年将达 47.6 亿美。　　3.3. 汽车 MCU 行业加快整合集中度提升　　全球 MCU 通用市场并购加速。我们重点参考 MCU 通用领域（汽车、工业、消费电子等）市场，MCU 厂商为争夺市场份额，近年来发生了数起大规模并购。NXP 在 2015 年以 118 亿美收购飞思卡尔，完成了在汽车电子领域的布局，排名也一举从第六上升至第一；Cypress 在 2015 年以 40 亿美收购 spansion；Microchip 在 2016 年完成对 Atmel 的收购，成为全球第二大 MCU 厂商。我们判断，汽车 MCU 市场也将随通用市场的加快整合，实现集中度的提升。　　欧美日前五大汽车 MCU 供应商占据全球 82.7%市场份额，头部集中效应显著。根据 Stratety Analytics 分析数据，全球汽车 MCU 市场前 5 占 82.7%的市场份额，前五大 MCU 供应商分别为日本瑞萨电子，欧洲：NXP、英飞凌，美国：德州仪器、微芯科技。　　全球前八大厂商也同样占据我国汽车 MCU 93%的市场份额。仍由欧美日传统汽车电子厂商占据绝大部分市场份额，我们重点参考 IHS 数据分析，目前中国 MCU 市场，前八大 MCU 厂商的市场占有率达到 93%。国产化率不足 5%，替代空间大。国内企业技术较为薄弱，企业规模与前八大厂商差距较大，现阶段主要为工业控制、仪器仪表、消费电子、物联网等通用领域供货。随着国内企业技术逐渐成熟，国内厂商凭借价格和服务优势，正逐步抢夺低端 MCU 市场，进口替代趋势逐渐明显。但由于车规级标准较高，技术和市场发展均晚于一般工业和消费级芯片。　　
　　
　　4. 软件定义汽车时代来临，域控制 AI 芯片是重要一环　　4.1. AI 芯片是智能汽车时代实现域控制的核心　　汽车由分布式架构向域控制/中央集中式架构方向发展。传统分布式硬件架构面临智能汽车时代多维感知需求和海量非结构化数据处理的需求，一般每新增一个应用功能，便新增对应的感知传感器、决策、执行层。随着智能网联汽车时代的到来，以特斯拉为代表的汽车电子电气架构改革先锋率先采用中央集中式架构，即用一个电脑控制整车。全球范围内各大主机厂均已认识到软件定义汽车的大趋势，纷纷升级自身的电子电气架构，虽不同主机厂采用几个电脑控制整车的方案不同，但架构域控制/集中化方向相同。域控制器逐渐集成前期的传感器处理器、数据融合、路径规划、决策等诸多运算处理器功能，因此对域控制器芯片算力需求大幅提升。　　非结构化数据导致传统 MCU 不能满足需求，AI 作为协处理器逐渐成为智能时代的核心。随着芯片需要处理传感器传来的大量汽车内外部环境信息，而且也要处理大量图片、视频等非结构化数据，面向控制指令运算的 MCU 不能满足需求。AI 处理器作为智能时代的协处理器，成为智能汽车时代的核心。一般待处理数据信息会先传递给 CPU(等同于 MCU)，CPU 发现有大规模的非结构化数据，自身无法处理，便将其传输给 AI 处理器运算，而 CPU 便暂停运算，等待 AI 处理器运算结束后，再进行下一步操作，所以 AI 处理器是人工智能时代的协处理器,是现阶段智能汽车时代运算的核心。　　
　　4.2. 预计 2025 年我国汽车 AI 芯片市场超 91 亿美，CAGR46.2% 　　假设：1）汽车市场容量预测。如前文 MCU 测算假设一致，我国汽车产量 2019-2025 年复合增速为 2%。　　2）各级别自动驾驶渗透率预测。L3、L4 级分别于 2020 年、2023 年规模量产，每年并以 3-4%渗透率提升。根据工信部发布的《汽车中长期发展规划》指出，我国 2020 年自动驾驶渗透率达 50%，2025 年渗透率达 80%。L3 级于 2020 年开始量产并规模投放市场，渗透率快速提升，随着 L4 级车于 2023 年开始量产，低级别渗透率陆续到达渗透率峰值后又缓慢下降。　　3）各级别自动驾驶 AI 芯片单车价值预测。2020 年 L1-L3 级 AI 芯片单车价值分别为 50 美、150 美、500 美，随着技术逐渐成熟，2030 年下降到 41 美、111 美、315 美。我们预计到 2023 年 L4 级高级自动驾驶出现，AI 芯片单车价值约为 1500 美，到 2030 年下降到 931 美。　　2025 年我国 AI 芯片市场超 91 亿美，未来 6 年复合增速达 46.4%。经测算，2020 年我国汽车 AI 芯片市场规模为 15 亿美，同比增长 59.4%，随着汽车 EE 架构加速升级，域控制器/中央计算平台被广泛使用，到 2025 年 AI 芯片市场规模达 91 亿美， CAGR 为 45.9%，到 2030 年将达 177 亿美，十年复合增速 28.1%。　　4.3. 集成更多 AI 单是智能芯片技术路径发展的大趋势　　CPU，又称中央处理器，擅长逻辑控制和通用类型数据运算，具有不可替代性。CPU 有很强的通用性，可处理不同的数据类型，主要负责顺序控制、操作控制、时间控制、数据加工等操作，因此在任何一个电脑或嵌入式的计算中都有 CPU 或其裁剪版本。CPU 由控制器（Control），寄存器（Cache、DRAM）和逻辑单（ALU）构成，其中控制器和寄存器占比较大，而处理数据的逻辑单占比较小，因此对于专用领域数据处理能力较弱。代表厂商即为 X86 处理器的英特尔和嵌入式处理器的 ARM。　　GPU，又称图形处理器，俗称显卡，擅长大规模并行计算。GPU 拥有计算单数量众多和超长的流水线，处理的数据类型通常为高度统一的、相互无依赖，省去了大量 CPU 的不必要控制指令计算模块，并行计算能力较 CPU 强。随着人工智能的发展，GPU 不断被应用于数值模拟、机器学习、视觉处理、语音识别等领域，厂商代表即为英伟达。　　
　　FPGA 全称是 Field Programmable Gate Array：又称可编程逻辑门阵列，算力较高，适合小规模定制化开发测试。用户可通过烧入配置文件来定义其内部结构的连线，从而达到定制电路的目的。FPGA 的芯片量产成本较高，能效比较差，不如 ASIC 专用芯片。适用于科研、企业开发阶段，一旦方案确定，其成本优势就不再突出。代表厂商：赛灵思、阿尔特拉（被英特尔收购）、深鉴科技。　　ASIC 全称是 Application-Specific Integrated Circuit：是一种为专门目的而设计的集成电路，具有算力最高，能效比优等特点。ASIC 面向特定用户的需求，适合较为单一的大规模应用场景，运行速度在同等条件下比 FPGA 快。但在架构层面对特定智能算再适用，需要跟新换代。面对现阶段，AI 算法日新月异，每年都有大量的算法被开发出来，对于自动驾驶领域适用性不强。所以现阶段并没有真正意义上的 ASIC 芯片。　　N-SOC，（即添加神经网络单的系统级芯片）是指在芯片中集成更多的神经网络单，以实现快速的 CNN（卷积神经网络）运算。N-SOC 是现阶段市场的新名词，主要系随着 AI 芯片的发展，传统定义方法并不完全适用，N-SOC 区别于 ASIC 的智能算法被硬化，但其并不是一颗完全通用芯片，仅支持少量的算法。典型的代表企业：英特尔旗下的 Mobileye、华为（达芬奇架构 Ascend 系列）、寒武纪（MLU 系列）、百度（昆仑云）、阿里平头哥、Google（TPU）等。　　
　　由通用向专用排序依次：CPU、GPU、FPGA、ASIC；数据处理成本经济性（由优至差）：ASIC、FPGA、GPU、CPU。1）CPU 最通用，算力差，能效比最差，但除了运算，还包括控制指令，不可被替代；2）GPU 为较为通用的芯片，算力高，架构较为开放，可允许主机厂基于底层硬件架构开发自己的专门算法，但能效比较差；3）FPGA，算力一般，可根据客户需求用配置文件更改芯片结构的连线，实现定制电路，适用于实验室科研、前期开发等小批量应用；4）ASIC 为专用芯片，算力高、能效比优，节约不必要开发资源，规模量产成本最低，但支持算法不够灵活。　　AI 芯片通过添加神经网络单实现 AI 运算的更高效。目前市场对未来汽车 AI 芯片采用通用 GPU、FPGA、ASIC 芯片方案仍有较大争议，我们认为汽车数据处理芯片不断异构化，通过不断添加神经网络单实现 AI 运算是未来发展的主要方向。除了华为、地平线、寒武纪等 AI 芯片不断增加神经网络单外，而作为通用 GPU 的代表供应商英伟达的自动驾驶系列芯片，也通过添加神经网络单，以实现对 AI 处理越来越高效。但总体而言 GPU 仍功耗较高，丰富的通用模块可实现对各种场景的适用性，但也带来了成本过高，功耗过高的问题。而新出现的 N-SOC 虽不是 ASIC 固定算法，具有成本/ 功耗较低等优点，但其针对各种场景的适应性仍较弱。在汽车领域，未来两者未来性能、成本等方面会有相互靠近的趋势。5. 域控制器 AI 芯片呈现三强多极竞争格局　　结论：特斯拉 FSD 芯片自研自用，引领产业发展，属于独立一级；全球 GPU 领域 AI 龙头英伟达和背靠英特尔的汽车 AI 芯片龙头 Mobileye 属于第一阵列；华为技术强劲自建生态体系属于 1.5 阵列，有望快速突围进入第一阵列；国内智能驾驶 AI 芯片新锐地平线、云边端全领域覆盖 AI 新兴寒武纪等处于第二阵列；传统汽车电子厂商及其他潜在进入者处于第三阵列　　
　　特斯拉自研 FSD 方案属于另一极。主要优势：由于其自研自用，根据需求研发专用芯片，减少不必要的软硬件模块，1）缩短研发周期，减少研发设计工作量；2）提升能效比；3）用户数据驱动研发优化。主要劣势：1）生态较为封闭，仅内部开发和使用，无法建立完善的生态体系。2）若使用量有限，芯片研发需要投入大量资金，软硬件开发的成本难以通过大规模使用均摊成本。　　Mobileye 与英伟达属于第 1 阵列。在 L3 级到来以前，两公司产品几乎不会处于正面竞争，随着自动驾驶进程加速发展，竞争会逐渐加剧。短期来看，Mobileye 面向 L3 级以下市场，产品更加成熟，会更占优势。中长期来看，英伟达面向 L3 级以上预研市场在 AI 领域实力深厚，后发有力，优势会更加突出。　　NIVIDA 属于第 1 阵列，作为通用 AI 芯片龙头，占据 L3 级及以上市场，对外提供芯片级产品，而非芯片+算法的解决方案，是合资品牌的优选。主要优势：1）中立第三方，最丰富的生态体系。定位 Tier 2 芯片供应商，提供芯片或开发平台，具备最完善的软件工具链和应用生态；2）算力高（但利用率仍有待提升），Xaier 芯片的 30TOPS 高于 Eye Q4 的 2.5TOPS，Orin 芯片的 200TOPS 高于 Eye Q5 的 24TOPS；3）支持各类传感器数据融合，可提供摄像头+雷达等各类传感器数据融合处理；4）提供云服务，有望数据实现优化。主要劣势：主要系 GPU 通用芯片，有大量的非必要软硬件模块， 1）成本价格较贵，浪费资源，后续有望规模量产后实现快速下降；2）能效比差，后续产品开发加入更多的 DLA 深度学习加速器模块，能效比有望改善。　　Mobileye 属于第 1 阵列，背靠英特尔，占据 L2 级及以下市场，芯片+算法绑定的一体式解决方案。主要优势：1）经验丰富&质量可靠，产品已经有众多量产车搭载，质量和适配过关；2）客户资源最丰富，国内外绝大多数主机厂和 Tier1 级供应商均为其客户；3）价格较为合理。主要劣势：1）算力提升明显低于其他厂商，最新 EyeQ5 算力峰值仅 24TOPS，而市场认为 L3 级算力需求 30TOPS 以上，后期芯片仅靠提升 VMP 等手段，算力提升或难以为继，又或者因为高度定制化针对视觉领域，减少不必要的软硬件资源，算力不高但性能仍满足需求；2）黑盒子模式限制用户创新，算法和芯片捆绑销售，或与厂商规模较小，为客户提供定制化服务，在主机厂软件开发能力较差的初期阶段受广泛欢迎，但随着开发能力提升，一体销售的灵活度较差，客户难以做出差异性产品。根据规划 Eye Q5 或将开放融合算法，但感知算法并未提及。　　华为属于第 1.5 阵列，凭借强劲的技术实力有望快速进入第一阵列，主要针对 L2+ 及以上市场，模式与 NVIDIA 类似，现阶段对外提供平台类产品（开发平台），而非解决方案，是国产品牌的优选。主要优势：1）算力高，能效优，计算平台可提供 64~350TOPS，端到端 1TOPS/W（芯片级 2TOPS/W）；2）支持各种传感器融合处理；3）华为整体技术雄厚，生态体系有望迅速完善，依托华为从底层芯片、操作系统、应用算法、5G、云计算服务等迅速建立丰富生态体系；4）提供云服务，有望数据实现优化。主要劣势： 1）无量产车，缺乏相关的经验积累，暂时无数据优化软件算法，搭载量产车或到 2021 年底左右；2）现阶段生态体系仍弱于英伟达，所以目前华为广交朋友圈，依靠众多领域的优势构建庞大生态体系；3）客户对其“不造车”尚持怀疑，或影响合作。　　地平线属于强势第 2 阵列，模式与 Mobileye 类似，对外主要提供解决方案类产品（芯片+算法），未捆绑销售，AI 芯片于 2020 年已搭载在长安 UNI-T 座舱域。自动驾驶域芯片尚未搭载量产车，现阶段主要针对 L2 级及以下市场，对外提供芯片+算法方案。主要优势：1）作为中立第三方，芯片和算法可分开销售或一体式解决方案，受客户信任；2）国产芯片，国内优选。主要劣势：1）现阶段算力较低，无丰富生态，创企等； 2）尚未通过功能安全认证，无自动驾驶芯片量产车。　　寒武纪属于第 2 阵列，或从车路协同、云服务（数据中心）等领域实现快速切入。主要优势：1）云边端三类产品可从各种商业模式供应给智能车产业领域，云端产品可供应车企/Tier 1 数据中心或提供给云服务供应商；边缘端产品供应给政府类客户用于车路协同设备使用；边缘/终端产品供应给主机厂等。2）国产芯片，国内优选、中立第三方。主要劣势：1）与车企合作较少，无丰富生态，创企等；2）尚未通过功能安全认证。　　5.1. 特斯拉：自研 FSD 芯片，引领产业发展　　总结：特斯拉自研 FSD 方案属于另一极。主要优势：由于其自研自用，根据需求研发专用芯片，减少不必要的软硬件模块。1）缩短研发周期，减少研发设计工作量；2）提升能效比；3）用户数据驱动研发优化。主要劣势：1）生态较为封闭，仅内部开发和使用，无法建立完善的生态体系。2）若使用量有限，芯片研发需要投入大量资金，软硬件开发的成本难以通过小规模使用均摊成本。　　Autopilot 1.0 系统因 Mobileye EyeQ3 算力低、算法和芯片捆绑销售限制创新被弃用。2014 年特斯拉发布 Autopilot 1.0，视觉芯片采用 Mobileye EyeQ3，数据融合芯片采用英伟达 Tegra 3。搭载 1 个前置摄像头、1 个后置倒车摄像头(不参与辅助驾驶)、1 个前置雷达、12 个超声波传感器。特斯拉弃用主要原因在于：EyeQ3 算力仅 0.256TOPS，而且视觉感知算法和芯片捆绑销售，影响产品创新。　　Autopilot 2.0 系统因 NVIDIA PX2 方案能效比差，成本较高被弃用。2.0 系统较上一代提升 40 倍性能，系统由 1.0 系统的雷达引导为主，转变为以摄像头为主，雷达作为辅助。硬件方案采用 NVIDIA 的 1 颗 Tegra Parker 芯片和 1 颗 Pascal 架构芯片方案；支持 8 个摄像头、12 个超声波雷达和 1 个前置毫米波雷达。2.5 系统仍是 NIVIDIA 方案的延续。特斯拉弃用 NVIDIA 方案主要原因在于：NVIDIA PX2 方案 GPU 芯片仍有较多的软硬件资源浪费，能效比（算力/功耗）较差，成本较高。　　特斯拉 Autopilot 3.0 系统自研 FSD+算法。3.0 系统采用了自研的 FSD 芯片方案， 2 颗 FSD 芯片实现冗余设计，共 2*72TOPS/72W，针对自身应用算法和场景专门设计 FSD，可减少不必要的软硬件模块，实现资源的最大化利用。Autopilot 3.0 实际应用性能相比 2.5 版本提升 21 倍，功耗仅高 25%，其成本却只有 2.5 版本的 80%。两颗芯片将运算结果互相比对，若结果正确则执行操作，若错误则返回重算，而且若某颗芯片出现故障，自动驾驶系统仍不受影响。　　FSD 芯片是一颗 CPU+GPU+ISP+2*NPU 的异构芯片。芯片异构化是总体发展方向，让专用处理单运算对应的操作。1)CPU 是 1 个 12 核心 ARM A72 架构的 64 位处理器，运行频率为 2.2GHz；2）GPU 能够提供 0.6TFLOPS 计算能力，运行频率为 1GHz； 3）2 颗 NPU（神经网络单）运行在 2.2GHz 频率下能提供 2*36TOPS 的处理能力。为了提升神经网络处理器的内存存取速度以提升计算能力，每颗 FSD 芯片内部还集成了 32MB 高速缓存　　FSD 芯片针对自身需求专门开发，是特斯拉芯片性能高和功耗优的重大法宝。发布 Autopilot 3.0 时，特斯拉宣称 FSD 芯片算力为 72TOPS，系统整体算力 2*72TOPS，而 NVIDIA Xavier 芯片仅为 21TOPS。尽管之后 NVIDIA 公布 Xavier 理论计算能力为 30TOPS，但依然不及 FSD芯片。而NVIDIA DRIVE AGX Pegasus计算平台，基于2*Xavier 和 2*TensorCore GPU，算力达到 320TOPS，功耗为 320W，高于 Autopilot 3.0 系统的 72W。主要系 FSD 芯片作为特斯拉专用芯片，较 GPU 的通用芯片可减少不必要的软硬件模块，实现资源的最大化利用。　　
　　5.2. NVIDIA：全球通用 AI 芯片龙头，构建生态王国（略）　　结论：NIVIDA 属于第 1 阵列，作为通用 AI 芯片龙头，占据 L3 级及以上市场，对外提供芯片级产品，而非芯片+算法的解决方案，是合资品牌的优选。主要优势：1）中立第三方，最丰富的生态体系。定位 Tier 2 芯片供应商，提供芯片或开发平台，具备最完善的软件工具链和应用生态；2）算力高（但利用率仍有待提升），Xaier 芯片的 30TOPS 高于 Eye Q4 的 2.5TOPS，Orin 芯片的 200TOPS 高于 Eye Q5 的 24TOPS；3）支持各类传感器数据融合，可提供摄像头+雷达等各类传感器数据融合处理；4）提供云服务，有望数据实现优化。主要劣势：主要系 GPU 通用芯片，有大量的非必要软硬件模块， 1）成本价格较贵，浪费资源，后续有望规模量产后实现快速下降；2）能效比差，后续产品开发加入更多的 DLA 深度学习加速器模块，能效比有望改善。　　5.3. Mobileye：背靠英特尔，全球自动驾驶 AI 芯片龙头（略）　　结论：Mobileye 属于第 1 阵列，背靠英特尔，占据 L2 级及以下市场，芯片+算法绑定的一体式解决方案。主要优势：1）经验丰富&质量可靠，产品已经有众多量产车搭载，质量和适配过关；2）客户资源最丰富，国内外绝大多数主机厂和 Tier1 级供应商均为其客户；3）价格较为合理。主要劣势：1）算力提升明显低于其他厂商，最新 EyeQ5 算力峰值仅 24TOPS，而市场认为 L3 级算力需求 30TOPS 以上，后期芯片仅靠提升 VMP 等手段，算力提升或难以为继，又或者因为高度定制化针对视觉领域，减少不必要的软硬件资源，算力不高但性能仍满足需求；2）黑盒子模式限制用户创新，算法和芯片捆绑销售，或与厂商规模较小，为客户提供定制化服务，在主机厂软件开发能力较差的初期阶段受广泛欢迎，但随着开发能力提升，一体销售的灵活度较差，客户难以做出差异性产品。根据规划 Eye Q5 或将开放融合算法，但感知算法并未提及。　　5.4. 华为：依托芯片，欲打造最强生态体系　　总结：华为属于第 1.5 阵列，凭借强劲的技术实力有望快速进入第一阵列，主要针对 L2+及以上市场，模式与 NVIDIA 类似，现阶段对外提供平台类产品（开发平台），而非解决方案，是国产品牌的优选。主要优势：1）算力高，能效优，计算平台可提供 64~350TOPS，端到端 1TOPS/W（芯片级 2TOPS/W）；2）支持各种传感器融合处理；3）华为整体技术雄厚，生态体系有望迅速完善；依托华为从底层芯片、操作系统、应用算法、5G、云计算服务等迅速建立丰富生态体系；4）提供云服务，有望数据实现优化。主要劣势：1）无量产车，缺乏相关的经验积累，暂时无数据优化软件算法，搭载量产车或到 2021 年底左右；2）现阶段生态体系仍弱于英伟达，所以目前华为广交朋友圈，依靠众多领域的优势构建庞大生态体系；3）客户对其“不造车”尚持怀疑，或影响合作。　　华为芯片主要有五大系列，昇腾芯片是车端 AI 计算核心。1）麒麟芯片是手机等移动终端设备芯片，主要包括应用于高端领域的 9 系列，包括麒麟 990、麒麟 980、麒麟 970 等。除此之外，麒麟还拥有 6 系，7 系以及 8 系等面向中低端系列的芯片；2）鲲鹏芯片主要面向服务器领域，鲲鹏 920 芯片完全由华为自主研发，是全球第一款 7nm 的数据中心 ARM 处理器，主要适用于华为的泰山服务器；3）昇腾芯片是 AI 领域的处理器，昇腾芯片分为云端和边缘端两个系列，云端（数据中心等大算力需求）为昇腾 910，边缘端（设备端等）为昇腾 310，现阶段运用车端的主要是昇腾 310；4）巴龙芯片是基带（通信）芯片，如支持 5G 双模的巴龙 5000，主要应用在麒麟 980 和麒麟 990 上，其中麒麟 990 还推出了集成巴龙 5000 基带芯片的版本；5）凌霄芯片是路由器芯片，其中 Hi5651 芯片是业界首款 4 核 1.4GHz 家庭路由处理芯片。　　基于昇腾 310 AI 芯片的 MDC 计算平台是华为车端生态的坚实根基。在 2018 年推出 MDC 计算平台以及高阶自动驾驶全栈解决方案，包括分别对应于 L3、L4 级自动驾驶的 MDC 300 和 MDC 600 平台。MDC 集成了华为自研的 Host CPU 芯片、AI 芯片、 ISP 芯片与 SSD 控制芯片，并通过底层的软硬件一体化调优，在时间同步、传感器数据精确处理、多节点实时通信、最小化底噪、低功耗管理、快速安全启动等方面业界领先。 MDC 的核心是昇腾 310 芯片，主要用于 AI 计算。昇腾 310 是一颗 N-SOC 芯片，采用自研达芬奇架构，算力功耗 16TOPS/8W，12nm 工艺，其主要应用于整个边缘端市场， 2019 年底已量产可提供给工业领域客户。　　MDC 300 计算平台支持 L3 级自动驾驶。MDC 300 由华为昇腾 310 芯片、华为鲲鹏 CPU 芯片和英飞凌的 TC397 三部分构成，算力为 64TOPS，支持 L3 级自动驾驶需求，可接入 11 个摄像头、6 个毫米波雷达、12 个超声波雷达、6 个激光雷达。　　MDC600 计算平台支持 L4 及以上自动驾驶。MDC 600 包括鲲鹏 CPU+8 块昇腾 310+ISP，支持 L4，算力为 352TOPS，支持 L4 及以上自动驾驶，可接入 16 个摄像头、 16 个超声波雷达、8 个激光雷达、6 个毫米波雷达。　　MDC 是一套开放的车规级平台，优势突出。1）高能效：整套计算平台可实现端到端 1TOPS/W 能效（芯片级高达 2TOPS/W 能效）。2）开放：MDC 具备组件服务化、接口标准化、开发工具化的特性，基于此平台可快速开发、调测、运行自动驾驶算法与功能。针对不同级别的自动驾驶算力需求，MDC 可提供一套软件架构，不同硬件配置，内部支持 ROS 与 Adaptive AutoSAR 软件架构，具备较好的跨域通信能力。3）高安全：华为的自动驾驶全栈解决方案、MDC 智能驾驶硬件平台、车载操作系统鸿蒙内核近期均已通过 ASIL-D 功能安全认证。　　在商业合作模式方面，华为不提供芯片级别的解决方案，只提供 MDC 系统级产品。已合作客户包括奥迪，一汽、沃尔沃、东风、苏州金龙、山东浩睿智能、新石器等。　　车企面对自动驾驶的快速开发和功能迭代，主要面临几大挑战：1）处理海量数据，成本高。一辆测试车 1 小时产生 8TB 数据，一天按 8 小时，一个月按 22 天计算，单车将产生约 1.3PB /月的数据，而有效数据仅为 0.05%，同时还有 80 万张/车/天图片待人工标识。2）训练及仿真需要优异 AI 算法和强大算力。从训练和仿真来看，单车预计需累积里程 100+亿公里，300GPU/2 天模型训练，仿真测试则每天需处理 100 万公里。3）仿真是自动驾驶持续提升安全的关键。仿真不可代替实车，但是前期开发实验过程仿真可快速实现和减少大量试错成本，不仅需要大量场景支持在线仿真，同时也需要有以实车为主的决策规划仿真系统。4）工具分散不能统一管理。现有工具多为烟囱式孤岛，分散，不利于大数据的统一、AI 能力的统一构建，及高效运营管理。　　华为“八爪鱼”自动驾驶云服务是基于昇腾 910AI 芯片的数据中心云服务。“八爪鱼”自动驾驶云服务覆盖自动驾驶数据、模型、训练、仿真、标注等全生命周期业务，向车企及开发者，提供了包括数据服务、训练服务、仿真服务在内的 3 大服务。1）数据服务：处理车载硬件平台上输出的传感器数据，回放雷达、摄像头等不同格式的数据；支持 PB 级海量存储、交互式大数据查询和海量数据治理。2）训练服务：管理和训练自动驾驶模型，不断在新的数据集和测试集上提升模型的准确度，持续提升自动驾驶安全系数。平台提供软硬件加速，能大幅缩短训练时间，提升训练效率。3）仿真服务：提供仿真、场景库管理、场景片段、评测系统等应用工具，确保自动驾驶模型合规、安全、可度量、质量达标，快速集成到版本中。　　现阶段自动驾驶云服务供应商主要为华为、英伟达两家巨头。目前数据中心云端芯片供应商主要包括华为、英伟达、寒武纪等，而 google、百度等均为自研内供。其他企业需要数据中心云服务可通过直接外购云计算服务或者自建数据中心两种放式。　　
　　5.5. 地平线：对标 Mobileye，AI 芯片率先搭载 UNI-T 座舱域（略）　　结论：地平线属于强势第 2 阵列，模式与 Mobileye 类似，对外主要提供解决方案类产品（芯片+算法），未捆绑销售，AI 芯片于 2020 年已搭载在长安 UNI-T 座舱域。自动驾驶域芯片尚未搭载量产车，现阶段主要针对 L2 级及以下市场，对外提供芯片+算法方案。主要优势：1）作为中立第三方，芯片和算法可分开销售或一体式解决方案，受客户信任；2）国产芯片，国内优选。主要劣势：1）现阶段算力较低，无丰富生态，创企等；2）尚未通过功能安全认证，无自动驾驶芯片量产车。　　地平线成立于 2015 年 6 月，创始人系百度深度学习研究院院长余凯博士，学术背景浓厚，2017 年被英特尔领投。2017 年 12 月发布中国首款边缘端人工智能视觉芯片征程（Journey）系列和旭日（Sunrise）系列。征程系列主要用于智能驾驶领域，旭日系列主要用于物联网领域。合作伙伴包括奥迪、博世、长安、比亚迪、上汽、广汽等国内外的顶级 Tier1，OEM 厂商。　　5.6. 寒武纪：源于中科院，面向云边端全领域（略）　　结论：寒武纪属于第 2 阵列，或从车路协同、云服务（数据中心）等领域实现快速切入。主要优势：1）云边端三类产品可从各种商业模式供应给智能车产业领域，云端产品可供应车企/Tier 1 数据中心或提供给云服务供应商；边缘端产品供应给政府类客户用于车路协同设备使用；边缘/终端产品供应给主机厂等。2）国产芯片，国内优选、中立第三方。主要劣势：1）与车企合作较少，无丰富生态，创企等；2）尚未通过功能安全认证。　　寒武纪是智能芯片领域的先行者。寒武纪创始团队源于中科院，并长期致力于在人工智能与处理器架构交叉研究，DianNao、DaDianNao、PuDianNao、ShiDianNao、 DianNaoYu 等系列深度学习处理器架构或指令集成果在国际学术界引起的轰动性效应。随着研究成果趋于成熟，2016 年寒武纪公司成立，并着手将其芯片和指令集业务向商用方向转化，截止目前，寒武纪是国际上少数几家全面系统掌握了智能芯片及其基础系统软件研发和产品化核心技术的企业之一。　　寒武纪产品覆盖云端、边缘端、终端。寒武纪已面向云端、边缘端、终端推出了三个系列不同品类的通用型智能芯片与加速卡产品，以及共用相同自研指令集、处理器架构和基础系统软件平台，完成了“云边端一体化”建设，可覆盖人工智能领域高度多样化的应用场景（如视觉、语音、自然语言理解、机器学习等）。　　5.7. 域控制器 AI 芯片潜在进入者　　AI 芯片具备成为域控制器 AI 芯片的潜质：1）需要通过车规级/功能安全标准；2）算力至少应为 TOPS 量级；3）能效比（算力/功耗）应 TOPS/W 量级；4）与主机厂或 Tier1 供应商较长时间的合作适配等几个特点。　　边缘端芯片公司：以下厂商均未涉及汽车领域，更未通过车规级。比特大陆产品主要用于矿机芯片，功耗过高；云天励飞算力较低。　　云端 AI 芯片公司：1）百度、谷歌在自动驾驶领域布局最多，主要针对 L4 级以上自动驾驶领域，自研硬件、算法、编程框架等。例如百度自研算法、编程框架 PaddlePadlle，其昆仑芯片为云端芯片，目前已搭载于服务器，具备开发自动驾驶域 AI 芯片的技术能力。2）阿里、腾讯通过投资创企或设立企业进行布局 AI 芯片，芯片主要对内提供数据中心云端芯片，暂不涉及自动驾驶领域。3）国内外云端创企如 Grop、Graphcore、依图科技等暂时主要针对数据中心云端芯片，短期内无法布局更多领域。　　FPGA 芯片公司：主要为赛灵思（美国），深鉴科技（赛灵思收购），阿尔特拉（英特尔收购）。整体算力较低，能效比低于 N-SOC，通用性能低于 GPU，需要 Tier 1 级供应商定制化芯片结构以及提供一整套的算法应用方案。　　传统汽车电子巨头：瑞萨电子、NXP、英飞凌、TI 等均部署自动驾驶领域计算平台产品。但现阶段提供的计算平台产品仍属于 CPU 占主导的范畴，AI 算力较低，而且能耗较大。部分企业通过并购或投资 AI 芯片创企的方式快速切入汽车 AI 芯片领域。6. 重点企业（略，详见报告原文）　　…… 　　（报告观点属于原作者，仅供参考。报告来源：东吴证券）　　报告请登录未来智库www.vzkoo.com。

arm内核有哪些_arm内核有哪几种

相关推荐