传感器和感知算法-下|盖世大学堂舱驾、行泊一体系列知识讲解

21 02月 2025

2025-02-21 18:36

自动驾驶技术的核心之一是感知模块，它依赖于多种传感器如毫米波雷达和摄像头来识别和分类周围环境中的物体，包括行人、车辆和障碍物。这些传感器收集的数据被传递给神经网络进行处理，借鉴生物神经系统的结构，通过多层处理和学习，实现对环境的精准理解。特别地，BEV视角在多传感器融合中发挥关键作用，帮助神经网络处理多个视角的图像，提升目标检测和环境理解的准确性。端到端的解决方案正被探索，旨在简化自动驾驶系统中的感知、预测、规划和控制步骤，以提高系统效率和响应速度。

一、深度学习基础原理（一）神经网络的生物学启发与数学原理

在自动驾驶领域，传感器收集数据后，如何让系统“看懂”数据、识别目标是关键。神经网络的设计灵感来源于神经元，其基本原理是对输入数据进行处理以产生输出结果。神经元由神经核、树突等构成，外界刺激经树突传递，激发神经元产生反应。人工神经网络与之类似，通过对大量数据的学习，对不同输入产生特定响应。

从数学角度看，人工神经网络的核心运算为权重与输入数据的乘积再加上偏差。以图像识别为例，输入图像的像素值与权重相乘并加上偏差，不断调整权重和偏差以优化输出结果。若输出结果与标注不一致，便通过反向反馈机制修正权重和偏差，直至得到满意结果。这一过程需要进行大量的乘法和加法运算，因此，专门为处理此类运算设计的NPU或GPU在深度学习中发挥着重要作用。

（二）卷积神经网络的运算过程

卷积神经网络（CNN）是深度学习中常用的模型，由卷积和神经网络两部分组成。卷积操作通过一个特定的视框在图像上滑动扫描，为每个像素区域分配权重，从而生成新的特征图。与传统全连接方式相比，卷积减少了计算量，且在权重之上增加了权重，增强了模型对图像特征的提取能力。

卷积后的特征图在一定程度上失去了原图像的物理含义，但更便于模型进行后续的运算和特征提取。在卷积过程中，还可以根据图像大小和需求进行分层卷积，进一步优化运算效率。随着卷积层数的增加，数据量会不断增大，此时池化操作应运而生。池化通过将多个像素合并为一个进行处理，减少数据量，降低计算复杂度，提高运算效率。在实际应用中，卷积和池化的层数设置通常基于经验和对模型性能的考量。

二、视觉感知算法与目标检测（一）视觉感知算法的构成与流程

视觉感知算法主要由图像的预处理、神经网络模型和后处理三部分组成。预处理阶段对输入图像进行整合和前处理，为后续模型输入做准备；神经网络模型涉及深度学习算法，包含目标检测、语义分割、图像分类等多种功能；后处理则利用传统算法优化网络模型的输出效果。

在实际应用场景中，如自动驾驶的目标检测，由于现实中图像包含多个目标，简单的图像分类无法满足需求，需要进行语义分割。语义分割在预处理阶段先利用图像的阈值信息将目标框选出来，再针对每个框内的目标分别进行神经网络运算，以实现对多个目标的精准识别。像车道线检测、红绿灯检测和摄像头障碍物检测等任务，都需要先进行分割操作，然后再进行后续的检测和识别。

（二）障碍物检测的多头网络与多模型应用

障碍物检测通常需要获取目标物的多种信息，如动态或静态状态、速度、长宽高以及3D形状等。这并非仅通过一次神经网络运算就能完成，往往需要运行多个模型协同工作。例如，‌Fast R-CNN模型，首先进行语义分割，然后进行分类，再分别对2D和3D信息进行检测。

多头网络的出现就是为了解决这一问题，它通过不同的检测模块，对同一输入进行不同维度的检测，如一个模块输出分类结果，一个模块输出2D边框信息，另一个模块输出3D形状等，从而全面获取目标物的各类信息。车道线检测目前多采用神经网络方法，相较于传统的灰度识别，神经网络检测准确率更高，能有效减少偏差。

三、BEV空间感知模型（一）BEV模型产生的背景与原理

在自动驾驶中，传统基于透视视角的图像信息难以直接与其他传感器融合，且存在诸多局限，如地平面假设难以满足。为解决这些问题，BEV空间感知模型应运而生。

BEV模型通过神经网络，先将摄像头数据输入骨干网络提取特征，然后进行跨摄像头融合，最后转换到BEV空间。这种方法避免了传统方法中各摄像头数据单独处理后再融合带来的问题，如目标ID识别困难、位移偏差处理复杂等。BEV模型将多个摄像头的数据统一处理，通过调整权重和偏差，实现了更高效的融合，使得跨摄像头融合和时序多帧融合变得更加容易。

（二）BEV模型的优势、挑战与应用

BEV模型具有多方面优势，在空间融合方面表现出色，便于进行3D目标识别、跟踪和预测，能更有效地与其他传感器信息融合，为端到端优化提供便利。然而，其应用也面临一些挑战，对算力要求较高，至少需要50Tops算力；对传感器联合标定和时间同步的要求也很严格；并且需要大量的数据支持。

特斯拉采用了BEV网络，小鹏、地平线等企业也在积极研发，部分量产车型已体现出该技术的应用成果。BEV模型可实现多任务功能，如3D物体检测、语义地图构建和运动预测等，能根据不同时间的信息进行补偿和预测，为自动驾驶提供更全面、精准的环境感知。

四、占用网络与端到端方案（一）占用网络的原理与特点

O占用网络（ccupancy Network）是特斯拉为解决视觉长尾问题提出的模型。该模型将周边空间划分为小立方体，通过预测3D空间的占用概率（0/1）来还原目标物的形状和位置，并利用神经辐射场（NeRF）的可微分渲染图像进行监督训练。

占用网络的优势在于，它能够预测空间占用情况，有效解决非标物体的识别问题，还可利用多摄像头和视频时序信息，对动态车流进行测量，透过遮挡持续检测已存在的对象，且内存和计算效率较高，能在约10ms内运行。但它也存在数据量要求高、云端算力要求高的缺点。目前，特斯拉已开始应用该模型，其他企业仍处于起步阶段，预计2025年前后会有更多车型应用。

（二）端到端方案的概念与发展趋势

传统自动驾驶方案按感知、预测、规划、控制的顺序依次执行，结构简单、可解释性强，但存在规则复杂、场景泛化性不足的问题。端到端方案则融合了这些模块，形成一个统一架构，通过传感器输入，直接完成从原始数据到轨迹或控制信号的映射，更符合人类驾驶原理，具有更高的上限。

以UniAD基于nuScenes训练集的表现为例，其在各方面均优于传统技术。特斯拉FSD v12据称已实现端到端方案，国内的华为、小鹏等企业也在积极探索该领域。端到端方案与BEV、transformer的结合是当前的研究热点，这种结合能够充分发挥各技术的优势，实现从图像输入到决策输出的直接生成，减少中间模块的接口交互，提高系统的整体性能和效率。