最新最快汽车新闻
太阳能光伏网

传感器和感知算法-下|盖世大学堂舱驾、行泊一体系列知识讲解

自动驾驶技术的核心之一是感知模块,它依赖于多种传感器如毫米波雷达和摄像头来识别和分类周围环境中的物体,包括行人、车辆和障碍物。这些传感器收集的数据被传递给神经网络进行处理,借鉴生物神经系统的结构,通过多层处理和学习,实现对环境的精准理解。特别地,BEV视角在多传感器融合中发挥关键作用,帮助神经网络处理多个视角的图像,提升目标检测和环境理解的准确性。端到端的解决方案正被探索,旨在简化自动驾驶系统中的感知、预测、规划和控制步骤,以提高系统效率和响应速度。

一、深度学习基础原理(一)神经网络的生物学启发与数学原理

在自动驾驶领域,传感器收集数据后,如何让系统“看懂”数据、识别目标是关键。神经网络的设计灵感来源于神经元,其基本原理是对输入数据进行处理以产生输出结果。神经元由神经核、树突等构成,外界刺激经树突传递,激发神经元产生反应。人工神经网络与之类似,通过对大量数据的学习,对不同输入产生特定响应。

从数学角度看,人工神经网络的核心运算为权重与输入数据的乘积再加上偏差。以图像识别为例,输入图像的像素值与权重相乘并加上偏差,不断调整权重和偏差以优化输出结果。若输出结果与标注不一致,便通过反向反馈机制修正权重和偏差,直至得到满意结果。这一过程需要进行大量的乘法和加法运算,因此,专门为处理此类运算设计的NPU或GPU在深度学习中发挥着重要作用。

(二)卷积神经网络的运算过程

卷积神经网络(CNN)是深度学习中常用的模型,由卷积和神经网络两部分组成。卷积操作通过一个特定的视框在图像上滑动扫描,为每个像素区域分配权重,从而生成新的特征图。与传统全连接方式相比,卷积减少了计算量,且在权重之上增加了权重,增强了模型对图像特征的提取能力。

卷积后的特征图在一定程度上失去了原图像的物理含义,但更便于模型进行后续的运算和特征提取。在卷积过程中,还可以根据图像大小和需求进行分层卷积,进一步优化运算效率。随着卷积层数的增加,数据量会不断增大,此时池化操作应运而生。池化通过将多个像素合并为一个进行处理,减少数据量,降低计算复杂度,提高运算效率。在实际应用中,卷积和池化的层数设置通常基于经验和对模型性能的考量。

二、视觉感知算法与目标检测(一)视觉感知算法的构成与流程

视觉感知算法主要由图像的预处理、神经网络模型和后处理三部分组成。预处理阶段对输入图像进行整合和前处理,为后续模型输入做准备;神经网络模型涉及深度学习算法,包含目标检测、语义分割、图像分类等多种功能;后处理则利用传统算法优化网络模型的输出效果。

在实际应用场景中,如自动驾驶的目标检测,由于现实中图像包含多个目标,简单的图像分类无法满足需求,需要进行语义分割。语义分割在预处理阶段先利用图像的阈值信息将目标框选出来,再针对每个框内的目标分别进行神经网络运算,以实现对多个目标的精准识别。像车道线检测、红绿灯检测和摄像头障碍物检测等任务,都需要先进行分割操作,然后再进行后续的检测和识别。

(二)障碍物检测的多头网络与多模型应用

障碍物检测通常需要获取目标物的多种信息,如动态或静态状态、速度、长宽高以及3D形状等。这并非仅通过一次神经网络运算就能完成,往往需要运行多个模型协同工作。例如,‌Fast R-CNN模型,首先进行语义分割,然后进行分类,再分别对2D和3D信息进行检测。

多头网络的出现就是为了解决这一问题,它通过不同的检测模块,对同一输入进行不同维度的检测,如一个模块输出分类结果,一个模块输出2D边框信息,另一个模块输出3D形状等,从而全面获取目标物的各类信息。车道线检测目前多采用神经网络方法,相较于传统的灰度识别,神经网络检测准确率更高,能有效减少偏差。

三、BEV空间感知模型(一)BEV模型产生的背景与原理

在自动驾驶中,传统基于透视视角的图像信息难以直接与其他传感器融合,且存在诸多局限,如地平面假设难以满足。为解决这些问题,BEV空间感知模型应运而生。

BEV模型通过神经网络,先将摄像头数据输入骨干网络提取特征,然后进行跨摄像头融合,最后转换到BEV空间。这种方法避免了传统方法中各摄像头数据单独处理后再融合带来的问题,如目标ID识别困难、位移偏差处理复杂等。BEV模型将多个摄像头的数据统一处理,通过调整权重和偏差,实现了更高效的融合,使得跨摄像头融合和时序多帧融合变得更加容易。

(二)BEV模型的优势、挑战与应用

BEV模型具有多方面优势,在空间融合方面表现出色,便于进行3D目标识别、跟踪和预测,能更有效地与其他传感器信息融合,为端到端优化提供便利。然而,其应用也面临一些挑战,对算力要求较高,至少需要50Tops算力;对传感器联合标定和时间同步的要求也很严格;并且需要大量的数据支持。

特斯拉采用了BEV网络,小鹏、地平线等企业也在积极研发,部分量产车型已体现出该技术的应用成果。BEV模型可实现多任务功能,如3D物体检测、语义地图构建和运动预测等,能根据不同时间的信息进行补偿和预测,为自动驾驶提供更全面、精准的环境感知。

四、占用网络与端到端方案(一)占用网络的原理与特点

O占用网络(ccupancy Network)是特斯拉为解决视觉长尾问题提出的模型。该模型将周边空间划分为小立方体,通过预测3D空间的占用概率(0/1)来还原目标物的形状和位置,并利用神经辐射场(NeRF)的可微分渲染图像进行监督训练。

占用网络的优势在于,它能够预测空间占用情况,有效解决非标物体的识别问题,还可利用多摄像头和视频时序信息,对动态车流进行测量,透过遮挡持续检测已存在的对象,且内存和计算效率较高,能在约10ms内运行。但它也存在数据量要求高、云端算力要求高的缺点。目前,特斯拉已开始应用该模型,其他企业仍处于起步阶段,预计2025年前后会有更多车型应用。

(二)端到端方案的概念与发展趋势

传统自动驾驶方案按感知、预测、规划、控制的顺序依次执行,结构简单、可解释性强,但存在规则复杂、场景泛化性不足的问题。端到端方案则融合了这些模块,形成一个统一架构,通过传感器输入,直接完成从原始数据到轨迹或控制信号的映射,更符合人类驾驶原理,具有更高的上限。

以UniAD基于nuScenes训练集的表现为例,其在各方面均优于传统技术。特斯拉FSD v12据称已实现端到端方案,国内的华为、小鹏等企业也在积极探索该领域。端到端方案与BEV、transformer的结合是当前的研究热点,这种结合能够充分发挥各技术的优势,实现从图像输入到决策输出的直接生成,减少中间模块的接口交互,提高系统的整体性能和效率。

最新相关
宝马i3产品计划曝光 将增加其续航里程

宝马i3产品计划曝光 将增加其续航里程

中国汽车新闻网讯近日,有相关海外媒体报道称,宝马再次透露了关于i3的产品计划,未来将对动力电池进行提升,以增加其续航里程。据外媒称,宝马的新任首席执行官Oliver Zipse在近期的一次采访中表...

破局激光雷达内卷,图达通有了"新解法"

当汽车行业内卷持续白热化,多数企业被迫陷入"不卷即退"的困局时,图达通(Seyond)却用一份成绩单给出了不同的答案: 跳出内卷,才能更好地破局。日前,图达通发布2025年业绩报告。数据显示,去年图...

亿咖通科技,盈利拐点已至?

4月3日,亿咖通科技发布2025年全年财务业绩报告。报告显示,其整体营收保持增长,连续两个季度实现盈利,亏损幅度同比收窄,核心智能座舱及计算平台产品出货量大幅提升,海外市场收入占比进一步提高...

蔚来全新ES8第9万台新车交付

盖世汽车获悉,4月3日,蔚来全新ES8在合肥新桥产业园蔚来体验中心完成第9万台新车交付。该车型自2025年9月21日正式开启交付,历时195天达成这一交付里程碑。图片来源: 蔚来据蔚来公布的数据,2026...

博银合创项目签约落户苏州

据苏州日报报道,4月2日,博银合创项目正式签约落户苏州。图片来源: 苏州日报博银合创由博原资本与银河通用各出资50%联合成立,其中博原资本为博世集团旗下市场化产业投资平台,银河通用是专注于...