range-view · Yulin Wang

源于看了一篇基于rangeview的mot论文觉得range的方法可操作性强且耕耘不多。

————————————————2022-10-2更新——————————————————

Range RCNN: Towards Fast and Accurate 3D Object Detection with Range Image Representation

创新点：
RV-PV-BEV；
dilated convolution 2d【residual block】；
two-stage RCNN【解决bev视图没有高度的问题】
Input：range image 【编码距离、坐标、强度→输入距离图像5 × h × w】
处理：Kitti3D相机前视图中的目标【90°场景 5 × 48 × 512】；waymo：64×2650
扩张残余块（DRB）
问题产生：尺度变化感知不清【使用range image送入到2Dcnn】。
将扩张卷积插入正常残差块：【代码中有三个不同的扩张率。最后用1×1融合】

RV-PV-BEV
问题是：Range image会重叠，因此特征提取要在BEV中进行。适应不同尺度。
流程是：Range image 上记录特征点对应投影到BEV平面，相同的点使用平均池化。
【如果在开始时投影，BEV将作为主要特征提取器。】

3D RoI Pooling
问题是：range or bev都无法明确地学习3D边界框高度方向上的特征。
解决方案是：使用相对位置进行高度上的编码。
【固定数量、不同的栅格包含目标的不同部分。由栅格的空间关系，信息可通过相对位置编码。】此处有个将三维全部展平为一维然后连接的处理。
损失函数：

Kitti数据集处理

Waymo：

固定栅格：12×12×12 128 proposals with a 1:1 ratio
优势： [30，50]m和[50，75]m 运行速度为22 fps
我的想法：range view的方法照道理快一些【pvrcnn 12fps】，猜测是没有分割出前景点会不会在BEV部分计算量大【关注：前景点分割方法→影响速度】。相对于rangedet其结构还是比较复杂。

RangeDet:In Defense of Range View for LiDAR-based 3D Object Detection

ICCV2021 from 中科院自动化所&图森
代码：https://github.com/TuSimple/RangeDet
和BEV视图的区别，信息稠密的更有效利用【体现在NMS的改进】，近大远小会有尺寸变化【体现在MKC和改进型FPN】
创新点：
1Meta-Kernel Convolution
2 Range Conditioned Pyramid Assignment
3 Weighted NMS
Meta-Kernel Convolution【解决使用卷积会把密集信息忽略的问题，比如在一个rangeimage中，两个点靠近，而他们实际的距离可能很远，那就丢掉了这部分信息】

Range Conditioned Pyramid Assignment
【使用ResNet中的BasicBlock将其卷积核替换了一下此处有点不理解，结合blog】Meta-Kernel Convolution：将卷积核的权重变得可调整。使用中心点与邻域点的差值，放大了检测了属于点和点之间的特征差异。】
依据：距离范围的远近：近距离label 局部特征图；远距离的label分配全局的特征图。【思想FPN金字塔】
Weighted NMS
每个pixel都会预测一个box，一个truth可以被很多pixel预测。那不能全部删掉，而是采用较高score的框进行加权。
作者使
我的思考：该论文具体问题具体分析提供改进的方法。挺巧妙的。【3D→2D的这样逆过程可以使用一些2D的方法，从而来实现一些2D中已经实现任务，在分割、跟踪上？】

【LMNet】Moving Object Segmentation in 3D LiDAR Data: A Learning-based Approach Exploiting Sequential Data RAL2021

代码：https://github.com/PRBonn/LiDAR-MOS
数据集：SemanticKITTI
创新点：将rangeview用于mos任务；使用了时域上的信息，即残差；
Input：
3D LiDAR 扫描生成的range image+残差图像【当前帧和先前帧之间的距离的残差→d 是关于r的】
r将第k帧的点云旋转至当前帧l第i个像素上的距离值
d 归一化表示

Output：当前帧中的一个标签范围【红的表示移动物体】
流程：3D点云序列的投影图+残差图像
1投影公式
2使用到SLAM中获得过去时间序列的雷达信息→残差计算【T代表着每个序列的相对变换传感器得到？有点不理解来源数据集里的吗】

结合SLAM读数【其实这边有点不懂，SLAM知识缺失】和残差图像→现有的分割网络通过利用残差图像中的时间信息来区分运动物体和背景上的像素。二进制表示
如何将上述两步信息融合【就是整套需要变换和重新投影流程】
1之前的扫描序列转化为当前的2重新投影到当前范围视图3计算距离

CNN结构【现成的】
使用三个网络比对RangeNet++ MINet SalsaNext
指标IOU：移动物体
实验部分：
在slam上添加噪声测试其稳定性
【自己生产自己比较，当前较少该方向的成果，作者结合了之前方法重新做实验比较】
semantic segmentation SalsaNext【这个不太理解，加了一堆东西】
scene flow 对平移向量设置阈值判断是否移动
我的思考：该论文引入与之前帧的残差作为一个特征，若物体移动较慢很可能识别为静物。能不能设置区间或者其他方法放大时间上的信息，【改进点：针对速度小的物体分割效果提升】。一个问题：相对本车静止，他实际上也是运动的。【回答：在实际场景趋势显露】
LiDAR 的 MOS 的实现并不多？实验比较的依据可靠性

Efficient Spatial-Temporal Information Fusion for LiDAR-Based 3D Moving Object Segmentation IROS2022工作基于LMNet

代码：https://github.com/haomo-ai/motionseg3d
数据集： KITTI+自己标注
创新点：
1双分支结构，【两部分变成并联结构，使用SalsaNext，在此基础上add】。
2解决range-view信息没有有效利用问题：加了Meta-Kernel Module
通过中心点的相对坐标计算 3×3 邻域的权重，然后使用 1×1Conv 聚合邻域特征来更新中心特征。
这么做的目的是：细化结果，并减少对象边界周围出现的伪影。
其他tricks：加注意力机制；减少resblock
由一个用于编码外观特征的距离图像分支和一个用于编码时间运动的残差图像分支
网路LOSS：每个类别频率交叉熵和【The lovász-softmax loss: A tractable surrogate for the optimization of the intersection-over-
union measure in neural networks,” in Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR), 2018】pixel和point都可以用的
我的思考：顾名思义，双分支。这篇文章对LMNet的改进可以理解为串联改并联了。同时，他用了一个没见过的损失函数。