聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

使用单视摄像头和双低成本4D毫米波雷达的道路车辆3D检测和跟踪

2023-08-25 11:49 浏览: 455185 次 我要评论(0 条) 字号:

来源:TJ雷达成像实验室

编者按

作者提出了一种基于交叉融合策略的卷积神经网络(CNN)用于三维道路车辆检测,并且利用扩展的雷达-相机三维标定和扩展卡尔曼滤波(EKF)方法进行三维跟踪。实验结果表明,对于Astyx数据集,所提出的卷积神经网络模型的效果优于之前所使用的模型,相较之下,平均每帧提供多达1500个雷达检测点。


摘要

高分辨率四维毫米波雷达已越来越多地用于道路车辆的鲁棒三维检测和跟踪。4D雷达生成的丰富点云不仅可以在恶劣天气环境下提供更可靠的检测,还可以为道路上的物体提供3D跟踪功能。本文提出了一种基于交叉融合策略的卷积神经网络(CNN)用于三维道路车辆检测。训练后的CNN模型还通过双低成本4D毫米波雷达和单视摄像头进行了测试。提出了一种扩展的雷达-相机三维标定和扩展卡尔曼滤波(EKF)的三维跟踪方法。检测结果表明,所提出的卷积神经网络模型优于在Astyx数据集上使用的模型,平均每帧可提供多达1500个雷达检测点。

1 简介

毫米波(mmWave)雷达已经在高级驾驶辅助系统(ADAS)中应用多年,因为它具有对恶劣天气条件(如雾、雨、雪、灰尘和眩光)的免疫能力,以及通过多普勒测量估计目标速度的能力。在独立或传感器融合场景下的成功应用表明,在恶劣环境中精确测量被探测物体的距离和相对速度(使用多普勒测量)方面,该方法具有鲁棒性和可靠性。最近,TI公司发布了其低成本的高分辨率77 GHz调频连续波(FMCW)雷达芯片,该芯片提供4 GHz带宽和高达3.75 cm的距离分辨率。与连续波和24 GHz雷达传感器不同,FMCW雷达通过对发射信号进行预先设定的调制序列来提高其可靠性。减少的波长使更小的多输入多输出(MIMO)天线阵列,同时为环境扫描提供更好的性能。最先进的TI AWR1843芯片组具有三个发射器和四个接收器,用于四个维度的物体检测,即空间中的x, y, z位置和被检测物体的多普勒速度。FMCW雷达的原理是发射频率随时间线性增加的电磁波,也称为啁啾,并计算物体的距离、速度、到达角(AOA)。计算分别使用距离FFT(1D)、多普勒FFT(2D)和角度FFT跨多个接收天线进行。与其他商用77 GHz汽车毫米波雷达不同,除了锁定的前端无线电子系统外,用户对TI AWR1843雷达的编程和配置拥有绝对的源代码级别控制。这允许开发人员定制他们的雷达啁啾配置文件,框架配置文件或应用先进的雷达技术,如波束转向,根据他们的应用。使用实时DCA1000EVM数据采集卡,开发人员还可以通过TI雷达的LVDS接口记录原始ADC数据进行后处理。

毫米波雷达已成功应用于ADAS,如自适应巡航控制(ACC)、自动紧急制动(AEB)和变道辅助(LCA)。然而,与激光雷达传感器相比,它们通常不能产生足够密集的点云来进行目标识别和分类。识别人类、摩托车或车辆等分类任务不能仅通过检查被检测物体的雷达横截面(RCS)来完成。相反,雷达数据与来自其他传感器(如摄像头和激光雷达)的数据融合,可以提高目标检测和跟踪的准确性和效率。然而,由于激光雷达的高成本,目前还没有广泛应用于汽车。此外,在目前先进的自动驾驶汽车之外,成本是采用该技术的一个重大障碍。然而,毫米波雷达通常安装在现代汽车上,并在不利照明和天气条件下工作。鉴于这些优势,将单眼视觉数据与毫米波雷达融合以提高目标检测和跟踪性能的方法已经得到了大量的研究。本文对四维成像雷达产生的丰富点云进行了进一步的探索,用于道路车辆的三维检测与跟踪。本文的主要贡献包括:

•提出了一种基于应用需求的定制低成本汽车毫米波雷达配置。

•利用扩展卡尔曼滤波(EKF)实现雷达相机三维标定和三维跟踪的扩展版本。

•提出了一种融合多模态特征的卷积神经网络模型,用于道路车辆三维检测。


2 感知系统框架

      感知系统由安装在车辆前车顶的单个单视摄像头和安装在摄像头两侧的双TI AWR1843雷达组成,两者之间相隔36厘米,如图1所示。摄像机通过USB3.1电缆连接到PC上,以30fps的速度运行,分辨率为2304 × 1536。每台雷达通过波特率为921600的uart转usb电缆与PC相连,用于雷达数据传输。

图1 传感器配置的概述


2.1

雷达和相机分系统

TI AWR1843Boost EVM雷达具有板载蚀刻天线,带有三个发射器和四个接收器,以及内置锁相环(PLL),能够检测和跟踪多个物体的距离和角度[18]。AWR1843雷达配置为超近距离雷达(USRR),探测距离达30米,方位面视野为120度。USRR在帧转换中使用三个发射机(TX1、TX2和TX3)交替啁啾,以提高角度分辨率至原来的3倍。MIMO配置在相应平面合成了12个虚拟RX天线阵列(方位面8个虚拟RX天线,仰角面4个虚拟RX天线)。

如图2所示,集成的AWR1843 FMCW雷达内置模数转换器(ADC),最大中频(IF)为10 MHz。它能够在76-81 GHz工作频率下操作雷达收发器。开发者可以根据应用场景选择窄带宽1ghz (76-77 GHz)或宽带宽4ghz (77-81GHz)。AWR1843芯片组还集成了主子系统(MSS, Cortex-R4F),数字信号处理子系统(DSS, C674x DSP)和雷达硬件加速器。这些组件负责雷达配置和控制、雷达检测算法实现和雷达信号处理,如FFT、CFAR-CA。第二个专用的Cortex-R4F单片机被用作无线电处理器子系统,用于连续监测、射频校准和自检。该单芯片雷达传感器提供了CAN和CAN-FD接口,用于汽车应用。

图2 AWR1843芯片组的功能方框图


借助TI毫米波传感估计器,开发人员可以根据其雷达应用需求轻松计算出啁啾参数。这包括最大范围、最大速度、范围分辨率、速度分辨率,然后在测试期间对它们进行微调。一组按顺序的啁啾形成一个帧,用于周期性雷达目标检测。不同类型的啁啾可以共存于一个帧中用于高级子帧配置。该应用的最大可探测距离为30 m,距离分辨率为0.12 m,最大速度为30 km/h,速度分辨率为2 km/h,测量速率为30 Hz。所选择的典型可探测物体是一辆汽车,其RCS通常为5平方米。典型的FMCW啁啾及其配置参数如图3所示。配置参数如表1所示,是根据应用需求计算得出的,以及它们对雷达系统性能的影响。根据毫米波传感估计器用户指南[20],啁啾配置参数的计算假设最大空闲时间为7µs,最大ADC有效启动时间为12.2µs,采样频率设置为器件限制范围内的最小值。

图3 TI FMCW雷达的调啾原理图


表1 调啾配置参数


用于图像捕获的单视相机是NileCAM30 USB 3.4MP GMSL相机。它具有118度的宽视场,图像格式为UYVY或MJPEG。分辨率配置为2304 × 1536,以30 fps运行。


2.2

传感器校准

传感器校准是传感器融合前必不可少的步骤。准确细致的雷达-摄像机标定可以保证良好的目标检测和跟踪性能。在此应用中,首先对雷达和相机进行了单独校准。然后使用直接线性变换(DLT)对雷达和相机雷达图像数据对进行联合校准。

1)雷达和摄像机单独校准:TI AWR1843雷达传感器具有内部处理器,用于校准程序和自监控,以稳定雷达跨温度范围的前端性能。采用TI硬件和固件的组合实现了校准和监测机制。在目标距离检测标定方面,在距离AWR1843雷达5 ~ 30 m处,采用边长为196 mm、有效RCS为26.21 dBsm的强角反射镜。因此,反射器的检测距离足够精确,因此不使用距离偏差。利用一个108 mm正方形的9×7棋盘计算了单视相机的畸变系数和相机矩阵。

式中,a为角反射器的边长,λ为波长,σ为截面面积。

2)雷达与摄像机联合标定:根据[21]的结果,采用预处理归一化的DLT作为雷达与摄像机联合标定方法。在不同的距离和高度设置五个强反射镜的不同模式进行校准,如图4所示。为了获得更好的性能,分别对带有单视相机的左雷达和右雷达进行了标定,并在两种雷达的不同距离和不同高度的强角反射镜下收集了100对雷达-相机数据。

图4 单视摄像机和双雷达的校准


由于本应用中使用的毫米波雷达在三维空间中具有x, y, z维度,因此将[21]中描述的DLT方法从二维扩展到三维,用于雷达-相机校准。校准的目的是估计将雷达数据映射到二维图像的三维投影变换。

式中,p¯= [x, y,z,1] T, q¯= [u, v,1] T分别为雷达点和图像点的齐次坐标。H为变换矩阵,记为 H=[hi j]3×4

由式(2)可以将雷达点pi = [xi, yi,ziT映射到图像点qi = [ui, viT,如式(3)所示。

若h为

h=[h11,h12,h13,h14,h21,h22,h23,h24,h31,h32,h33,h34]T

则式(3)可修改为式(4)

式中

从收集到的雷达-相机数据对中,优化问题变为(5)

式中A = [AT1,...,ATN]T,在我们的例子中,N=100,并且||·||是一个向量的欧氏范数。

预处理标准化建议与DLT一起使用。Tp和Tq表示为¯pi¯qi的归一化矩阵,其中

然后,根据式(8)将一个任意检测到的雷达点[xi、yi、zi]T映射到一个二维图像上。

3 方法论

在这个应用中,使用双雷达来生成三维和多普勒速度的雷达点云。基于检测到的雷达点和RGB图像的多视图表示,训练卷积神经网络来检测3D空间中的汽车。采用扩展卡尔曼滤波(EKF)在雷达DSP子系统上对车辆进行三维跟踪。


3.1

卷积神经网络检测

本研究使用了与[9]中描述的类似的神经网络架构。而采用自监督模型自适应(self-supervised model adaptation, SSMA)块[23]在像素级融合不同的特征图,将[9]中的深度融合方案转化为交叉融合方案。利用每一帧的雷达点云分别生成前视图和鸟瞰图。基于雷达点云的RGB图像和BEV图像,利用三维区域建议网络生成建议。这些建议被投射到三个特征图中。为了将这三个特征图的信息与投影建议结合起来,采用了交叉融合方案。使用图5所示的SSMA块在像素级融合多视图特征图。卷积神经网络的架构如图6所示。使用了最后一个SSMA块的输出预测用四个角和两个高度编码的三维边界框,两个高度分别表示边界框的上、下平面到地平面的距离[24]。根据预测的三维方框角计算物体方向。

图5 SSMA块:将具有模态特征的特征图连接并输入卷积层生成权重矩阵。将权值矩阵与输入的连接矩阵的点积输入另一个卷积层,计算融合的特征映射。 [23]


图6 卷积神经网络结构:特征提取器为黄色,区域建议网络为绿色,SSMA块为橙色,卷积层为蓝色。


3.2

训练集和训练

使用[8]中的数据集,并将其分为训练集和测试集,比例为4:1。由于数据集规模较小,在训练过程中使用了与[9]中相同的数据增强方法。这些方法包括水平翻转图像、点云、地面真值盒和在相机图像中添加噪声[25]。使用KITTI数据集的相机和LiDAR数据训练的权值被设置为在Astyx数据集上训练所提出的卷积神经网络的初始权值。该网络进行了30000次迭代训练,学习率为0.0001,小批大小为1。在一台Nvidia GTX 1070 GPU上进行了5小时25分钟的培训。


3.3

车辆追踪

在TI AWR1843雷达的DSP子系统中实现了道路车辆的三维跟踪。利用DBSCAN[26]对雷达测点进行聚类,得到中心坐标和径向速度。测量向量zt如下所示。

考虑到多辆被检测汽车的估计位置和速度,使用[27]中扩展的卡尔曼滤波器进行三维目标跟踪。

状态向量µt定义在式(10)中。

测量向量与状态向量通过式(11)表示

式中H是一个非线性变换

物体随时间的运动如(13)所示。

式中

T是采样区间。向量wt表示与协方差矩阵Q相关的过程噪声,并由式(15)表示

式中,JH(·)是(17)中给出的雅可比矩阵。预测和测量更新显示从(18)到(22)

预测:

测量更新:

4 实验与结果

将Astyx测试集与训练好的模型一起用于评估3D道路车辆检测效果,如图7所示。将每帧采集的丰富的雷达点云与RGB图像一起转换为FV和BEV图像作为卷积神经网络的输入。附着在检测到的三维边界框上的金字塔表示车辆的前进方向。为了更好的评价,将基础真理分为易、中、难三类[9]。简单的类别意味着只评估完全可见的汽车,而在困难的类别中,所有的汽车都被评估。对于中度类别,完全闭塞的车被排除在评估之外。测试集使用3D平均精度(AP)和平均航向相似度(AHS)[15]在0.5相交超过联合(IoU)阈值处进行评估。本文提出的卷积神经网络与3DRC[9]的对比如表2所示。所提方法在易、中、难三类的3D ap分别为69.50%、50.05%、49.13%,如图8所示。从结果来看,该方法在简单类别中优于3DRC[9] 9.50%,在中等类别中优于2.05%,在困难类别中优于4.13%。这可能是由于更好的初始培训权重,额外的SSMA块和雷达FV图像。

图7 本文在Astyx数据集[8] [9]上提出的卷积神经网络模型的三维检测结果的一个例子。

图8 利用雷达和摄像机对汽车进行三维检测的精确召回曲线


表2 性能比较


将训练好的卷积神经网络模型用于双低成本雷达和单视摄像机的测试。图9中显示了三种不同的框架。每帧生成约100个有效雷达检测点。所有帧均检测到15 ~ 18米的静态目标。在右图中,被探测到的汽车正在靠近雷达,而在左图中,被探测到的汽车正在远离雷达。图9中的红星为雷达的三维跟踪结果。但是,在测试期间没有跟踪结果分析的基础事实,将在今后的工作中加以考虑。在图9中,所有的3D边界框都与被检测车辆有60%以上的重叠。这表明来自高分辨率雷达数据集(即Astyx数据集)的训练模型可以应用于图2所示的低成本雷达-相机设置。整体3D边界结果不如测试集上的结果好,这可能有几个原因。首先,即使使用双4D雷达生成丰富的点云,但每帧检测到的点数量仍然远远少于Astyx数据集给出的点数量。其次,每台雷达的探测性能都是定制化的,在最大距离、距离分辨率等方面设置了不同的参数要求,可能与采集Astyx数据集所用雷达的配置不一致。第三,由于硬件特性,TI AWR1843雷达方位面和仰角面的角分辨率没有和HiRes 6455雷达一样好。

图9 利用双低成本雷达和单视摄像机训练卷积神经网络模型的真实场景测试。红色的星星表示对应帧中的跟踪结果。不同帧中的雷达探测点采用不同的颜色。AWR1843芯片组的功能方框图

5 结论

本文提出了一种基于交叉融合策略的卷积神经网络模型,用于道路车辆的三维检测。然后,用双低成本4D毫米波雷达和单视摄像机对训练好的模型进行测试。提出了一种扩展版本的雷达-相机三维标定和EKF三维跟踪。所提出的神经网络在测试数据集上的结果表明,仅使用来自4D雷达和单个单视摄像头的输入,就可以实现很好的检测精度。

References


本文译自: 3D Detection and Tracking for On-road Vehicles with a Monovision Camera and Dual Low-cost 4D mmWave Radars

作者:Hang Cui, Junzhe Wu,Jiaming Zhang,

原文链接:https://ieeexplore.ieee.org/document/9564904



END




网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复