NVIDIA高性能AI计算平台助力舱驾跨域融合创新

25 10月 2023

2023-10-25 08:21

在车端AI计算平台方面，软件定义汽车意味着计算平台设计必须考虑为将来3~5年甚至更长时间的软件功能升级需求预留足够的算力，为满足未来几年自动驾驶或者舱驾融合产品更高AI算力的需求，NVIDIA将于2024年为量产客户提供是全球首款单芯片1000 TFLOPS FP8 AI算力的DRIVE AGX Thor AI车端计算平台。

2023年9月22日，在2023第三届智能汽车域控制器与中央计算平台创新峰会上，NVIDIA自动驾驶软件总监冯栋栋表示，NVIDIA DRIVE是为软件定义汽车推出的端到端平台，包括DRIVE DRIVE AGX AI计算平台, DRIVE OS软件平台、DRIVE Hyperion数据采集和开发套件、DRIVE Constellation虚拟仿真平台和DGX高性能AI训练服务器。NVIDIA将会为更安全、高效的自动驾驶和舱驾融合产品提供更高性能的AI计算平台。

冯栋栋｜NVIDIA自动驾驶软件总监

以下为演讲内容整理：

AI是汽车行业新的驱动力

随着近几年网络模型复杂性的不断增加和模型参数的爆发式增长，AI应用提出了更高的算力要求，AI计算平台作为基础设施对数据中心端和车端舱驾跨域融合产品创新起着十分关键的作用。

NVIDIA在1999年推出了GPU图形处理器激发了PC游戏市场的增长，重新定义了现代计算机图形。近几年，数百TB数据的深度推荐系统和包含数千亿参数的对话式AI大模型对数据中心端提出了更高的算力需求，我们推出了让大型模型能够快速访问大型内存池的Grace CPU以及CPU+GPU紧密结合的新架构。NVIDIAGrace™ CPU提供高性能、高能效的计算资源，以满足不同的数据中心和高性能计算机需求。NVIDIA Grace CPU超级芯片采用NVLink - C2C技术，可提供144个ARM核和1 TB/s的内存带宽。

NVIDIA Grace Hopper™超级芯片将Grace CPU和Hopper架构GPU与NVIDIA NVLink® - C2C相结合，为加速AI和高性能计算(HPC)应用提供CPU + GPU一致性内存模型。NVIDIA BlueField® DPU （数据处理器）实现对各种高级网络、存储和安全服务进行加速和隔离。NVIDIASmartNIC产品ConnectX-7提供多达4个连接端口和400Gb/s的吞吐量，可为AI企业提供接近数据中心规模的硬件加速网络、存储、安全和管理服务。NVIDIA QuantumInfiniBand交换机系列是为HPC和数据中心提供完整的交换机系统和网络管理产品组合。

此外我们还提供车端AI计算SOC产品，比如大家都比较熟悉的满足Automotive行业的DRIVE Orin和DRIVE Thor SOC 。

图源：嘉宾演讲素材

我们把NVIDIA GPU、CPU、DPU、NIC、Switch和SOC产品进行组合提供更多的AI计算平台产品，包括服务于高性能AI数据中心的DGX、提供高性能计算机领域的HGX、服务边缘端的EGX、提供Omniverse Cloud服务的OVX以及支持自动驾驶和舱驾融合产品的DRIVE AGX AI计算平台。

在这些硬件平台之上，我们持续迭代开发了很多软件栈，比如CUDA并行计算和编程模型，CUDA-X AI软件加速库集合，TensorRT™AI推理引擎和RTX光追加速®库。在CUDA、CUDA-X、TensorRT™和RTX®的基础上，我们推出了NVIDIA AI和NVIDIA Omniverse两大平台，在这些平台上我们为各行业提供了丰富的AI框架和应用，包括极端天气预测和能源公司的数字孪生模拟、视频会议分析、对话式AI、虚拟数字人、汽车自动驾驶平台和舱驾融合平台、机器人、虚拟数字工厂、AI视频分析、医疗设备开发和部署等。

NVIDIA GenerativeAI和Omniverse平台已经在多个行业中广泛应用，NVIDIA Omniverse是一个工业数字化平台。我们的多个OEM客户基于GenerativeAI和Omniverse构建自己的产品。比如通过我们的Omniverse进行汽车概念设计、造型设计和工程设计、软件和电子设计、智慧工厂产线、自动驾驶仿真测试和汽车零售数字化体验等。汽车行业之所以积极实施数字化是因为GenerativeAI和Omniverse可以帮助提高行业的效率、生产力并节省了大量的成本。

图源：嘉宾演讲素材

基于GenerativeAI以及Omniverse，我们的OEM客户可以通过数字化实现全球协作，分布在全球不同区域的设计师和艺术家可以协同工作进行设计方案图像生成，外观造型定制化和快速设计迭代。

客户还可以部署自己的数字工厂进行配置，也可以通过Omniverse生成工厂的仿真数据来训练工厂机器人。另外，通过Omniverse可以实现数字工厂的流程优化和产线部署。

我们的客户BMW使用Omniverse来规划全球近36家工厂的运营，在2023年3月NVIDIA GTC上宣布了他们的首座数字工厂开业，该实体工厂将于2025年在匈牙利开业，通过数字化帮助OEM提前两年规划部署工厂。同时，BMW在Omniverse中使用NVIDIA Isaac Sim生成一些仿真数据对工厂机器人和机械手臂进行相应的训练和仿真测试。

梅赛德奔驰基于Omniverse构建数字工厂，优化和规划未来新车型产线部署。沃尔沃和通用汽车通过Omniverse管理整个3D资产管道，连接他们的设计师、艺术家以及雕塑家来创建3D组件，并将这些3D组件虚拟地组装成汽车的数字孪生体。在工程和仿真中通过Omniverse实现了可视化的空气动力学的仿真，从而缩短设计时间。丰田正在使用Omniverse来建立虚拟工厂，以优化生产时间。 Lotus正在使用Omniverse来搭建虚拟工厂和虚拟设计焊接站。Lucid Motors使用Omniverse基于真实的汽车设计数据建立数字商店，提升销售服务体验。

图源：嘉宾演讲素材

随着近几年自动驾驶越来越热，我们的客户已经将NVIDIAAI计算平台用在乘用车Robotaxis、卡车、低速物流车、无人巴士和农用车领域上，我们相信在未来自动驾驶技术将会应用于更多的细分领域市场和应用场景。过去燃油车时代，发动机的马力代表着动力；当前AI时代，AI计算平台的算力将成为软件定义汽车新的驱动力。我们认为，在未来，汽车不再是单纯的交通工具，客户期望的汽车形态将是由软件定义的汽车。

高性能AI计算平台在自动驾驶的感知、建图，规划和决策方面都发挥着重要的作用。尤其是随着Transformer和BEV在解决感知任务方面日趋成熟，并展现出卓越的性能。这也是我们为什么一直致力于研发更高性能DRIVE Thor AI计算平台和DRIVE OS 7软件平台来满足未来几年自动驾驶和舱驾融合产品的对更高AI算力需求。

在自动驾驶的整个开发过程中，业界十分关注自动驾驶Cornercase的场景如何解决。针对这一点，很多OEM都在部署相应的仿真测试。大家普遍认为自动驾驶仿真有两大挑战。第一是如何生成一个具有足够细节和真实的仿真场景，能够让自动驾驶AI算法将仿真场景感知为真实的世界。第二是如何生成创建足够大的数据集和场景集合，以覆盖到自动驾驶AI算法所需要的全面训练和测试的case。

图源：嘉宾演讲素材

为了应对这些挑战，我们开发了基于AI的工具集，包括Neural Reconstruction Engine™， Omniverse Replicator™和DRIVE SIM™.

Neural Reconstruction Engine™，可以将真实世界的数据直接带入仿真环境中，大大增加真实感并加快仿真数据的生产速度。也就是说可从采集视频数据自动的提取出环境、3D资源和场景然后转换为交互式3D测试环境，开发者可在此环境中修改场景、添加合成对象（比如添加各种车辆，障碍物、行人等等），并应用随机化技术，使仿真场景更具挑战性。

NVIDIA Omniverse Replicator™主要用来生成训练数据，借助Replicator™，开发者可以为corner case和复杂场景创建多样化的合成数据集，包括基于物理传感器数据和像素准确的真值标签。这些标签包括深度、速度、遮挡和其他难以标记的参数。我们的DRIVE Sim能够对AI的算法进行软件的在环测试。

基于生成式AI，我们可以很方便的对构建出来的原始3D资源进行多样化处理和编辑更改。比如针对交通路牌的2D文字，可以通过Neural Reconstruction Engine™增加涂鸦或者生成铁锈斑点等等，用这些生成数据来训练感知网络和测试验证。

NVIDIA DRIVE AI计算平台

在智能座舱交互体验方面，我们做了许多创新的应用。我们基于AI可以实现个人的数字助理以及推荐系统。比如通过AI数字人助理问答行驶过程中的非常见交通指示牌、AI数字人助理主动提醒日程安排，以及通过DMS系统探测到驾驶员疲劳而进行咖啡店或者休息区推荐。

在自动驾驶的开发过程中，通常要求端到端的数据闭环，包括数据采集、数据处理、数据标注、AI模型训练，再把训练后的模型部署在车端进行相应的行车、泊车、主动安全，座舱AI的应用的测试验证，以及基于SIL和HIL仿真测试。

为了赋能我们的客户更加高效开发自动驾驶以及舱驾融合产品来实现软件定义汽车，我们推出灵活可扩展的NVIDIA DRIVE端到端平台方案。DRIVE Hyperion是NVIDIA自动驾驶数据采集和开发套件，该套件包含NVIDIA DRIVE AGX计算平台、主流传感器。同时，集成DRIVE OS软件平台、Driveworks中间件及数据采集相关的软件。我们的客户、合作伙伴可以基于DRIVE Hyperion开发套件快速搭建自动驾驶数据采集车和测试车辆，从而进行多传感器数据采集和自动驾驶算法测试验证。

DGX是NVIDIA为DNN模型训练提供的高性能AI服务器。DGX™服务器，提供超高的计算密度、计算性能和灵活性。DGX™集成8个NVIDIA高性能Tensor Core GPU，每个GPU配备NVIDIA® NVLink®，GPU之间的双向带宽高达900GB/s。每台DGX集成4个NVIDIA NvSwitch。基于DGX这些优势，用多台DGX结合NVIDIA DGX SupperPOD™ 、NVIDIA BlueField®-3DPU及NVIDIA Base Command™可以构建超级计算机或者AI集群。为具有挑战性的自动驾驶海量数据进行DNN模型训练和建图提供灵活可扩展的AI计算性能。

DRIVE Constellation™虚拟仿真平台可以帮助客户在自动驾驶汽车上路测试之前虚拟仿真几乎所有的天气环境、交通场景，道路场景和Corner Case，从而实现DNN模型和算法的仿真测试。DRIVE Constellation系统由Simulator和Computer两台设备构成，提供虚拟仿真功能和数据回放功能。

经过仿真测试后的DNN模型和算法，可以部署在DRIVE AGX Orin或者DRIVE AGX Thor车端平台进行相应的自动驾驶功能道路测试和验证。自动驾驶车辆功能道路测试的过程中也可以进行传感器数据采集，因此，基于NVIDIA DRIVE平台进行数据采集、数据训练，虚拟仿真，自动驾驶道路测试验证就形成了一个数据闭环。

图源：嘉宾演讲素材

2018年我们推出了全球首款1 TOPS AI计算芯片Parker；2020年成功量产30TOPS芯片DRIVE Xavier；2022年成功量产254TOPS并且符合功能安全的DRIVE Orin芯片， DRIVE Orin相比DRIVE Xavier AI推理性能提升8倍多。为了满足未来几年OEM和Tier1对更高算力AI计算芯片的需求，2024年将量产全球首款单芯片1000 TFLOPS的AI推理能力芯片DRIVE Thor。

图源：嘉宾演讲素材

目前还有很多车型在用分布式的电子电气架构，未来几年大家将关注如何实现集中式架构或中央架构。为了满足集中式架构和中央架构，我们正在研发DRIVE Thor计算平台。DRIVE Tho是高性能集中式车载计算芯片，包含770亿个晶体管，单芯片提供1000TFLOPSFP8精度的AI推理能力，并且集成了下一代Transformer引擎，能够更好的支持Transformer大模型推理。Transformer引擎支持FP8和FP16混合精度，从而减少内存占用并提高性能，同时仍能保持大型模型的准确性。

图源：嘉宾演讲素材

DRIVE Thor SOC既支持高阶自动自动驾驶，也支持舱驾融合产品需求。为更好地解决舱驾融合产品功能安全域和非功能安全域的GPU隔离问题，DRIVE Thor支持MIG （Multi-Instance GPU）隔离技术，把不同GPC隔离开并分配给自动驾驶域和座舱域使用。另外，我们把用于数据中心产品的NVLink-C2C技术首次引入到车端AI计算芯片DRIVE Thor。NVLink-C2C互连技术可提供统一的，缓存一致性的内存地址空间，从而能够简化可编程性。基于NVLink-C2C实现的DRIVE Thor Supper Chip可提供2000 TOPS FP8 AI推理能力。

NVIDIA DRIVEOS软件平台

目前，我们在全球已经有40多个客户基于DRIVE Orin平台开发自动驾驶产品，20多个OEM已经成功量产交付。为了让当前DRIVE Orin平台上客户开发的应用软件和算法能平滑迁移到DRIVE Thor平台和DRIVEOS7上，我们提供统一软件架构和API兼容。

对有功能安全需求的客户，我们提供的符合功能安全的并且通过第三方权威机构TUV SUD认证的DREIVE OS QNX给客户。我们通过CUDA生态系统提供大量的CUDA算子库，帮助客户加速自动驾驶软件的开发。此外，我们还提供DNN模型训练DGX AI服务器和数据中心产品。

基于舱驾融合产品的需求，我们正在研发DRIVE OS 7，DRIVE OS 7将最大化沿用现有DRIVE OS 6的架构，在现有虚拟化架构上增加对仪表域和Infotainment域的支持，仪表域支持Linux或QNXOS，Infotainment域支持AndroidAutomotive，智驾域支持Linux或QNXOS。基于DRIVE OS 7灵活可配置的架构，可以很方便的配置多种OS配置组合，满足不同客户的需求。

DIRVE OS 7最大化兼容DRIVE OS 6软件平台的NvMedia、Nvstreams、CUDA

和TensorRT SDK功能和接口。OEM 、Tier 1和算法公司基于DRIVE Orin计算平台开发的自动驾驶和舱驾融合软件可以高效、快速地迁移到DRIVE Thor计算平台DRIVE OS 7软件平台。

NvMedia实现Camera Image Capture、Image 2D process、ISP Processing 、Camera data encode/decode以及camera image pipeline的搭建。

NvStreams高效地在CPU、GPU、可编程视觉加速器PVA之间共享Image data buffer，并处理同步控制数据流以及在多个硬件加速引擎之间的数据依赖。

TensorRT是NVIDIA高性能深度学习推理平台，包括AI实时推理引擎和优化工具。训练好的AI模型可以使用TensorRT Optimizer进行网络层优化和量化，然后生成TensorRT Runtime Engine并部署到DRIVE Orin或者DRIVE Thor车端计算平台进行实时AI Inference。

CUDA是NVIDIA GPU上开发的用于通用计算的并行计算平台和编程模型。NVIDIA 2006年发布CUDA以来，CUDA已经被广泛部署到高性能计算机，数据中心，工作站，电脑，IOT边缘设备和自动驾驶汽车。2021年CUDA下载量达到8百万次，全球的开发者超过3百万人。

NVIDIA DRIVE是我们为软件定义汽车推出的端到端平台，包括DRIVE DRIVE AGX AI计算平台、DRIVE OS软件平台、DRIVE Hyperion数据采集和开发套件、DRIVE Constellation虚拟仿真平台和DGX高性能AI训练服务器。另外，NVIDIA Omniverse平台也可以帮助OEM在汽车概念、造型设计、工程设计、智慧工厂产线部署和零售体验方面降本增效。

我们已经在各个层面与行业内的乘用车，商用车主机厂，Tire 1，算法供应商，合作伙伴展开深度合作。NVIDIA将继续为更安全、更高效的自动驾驶和舱驾融合产品提供集中式高性能AI计算平台。

（以上内容来自NVIDIA自动驾驶软件总监冯栋栋于2023年9月21日-22日在2023第三届智能汽车域控制器与中央计算平台创新峰会发表的《NVIDIA高性能AI计算平台助力舱驾跨域融合创新》主题演讲。）