传统方法

Viola-Jones (2001)

input→候选框、特征提取、分类器→NMS→output
创新点
1、采用积分图像(integral image)技术,加速对Haar-like输入特征的计算。
2、采用 AdaBoost 算法进行特征选择。
3、采用检测级联技术提高准确率,允许图像的背景区域被很快丢弃,从而将更多的计算放在可能是目标的区域上,减少了计算开销。
Haar特征:在一定程度上反应了图像灰度的局部变化,这种特征捕捉图像的边缘、变化等信息。
人脸的五官有各自的亮度信息,例如眼睛比周围区域的颜色要深,鼻梁比两侧颜色要浅。Haar-like特征对于这些“块特征”(眼睛,嘴,发际线)具有比较好的效果,但对树枝或主要靠外形(如咖啡杯)的物体不适用。
计算:卷积定理:一个W×H 的图像与 m×n 的filter 做卷积,新生成的图像大小为(W−m+1)×(H−n+1), 新图像的每一个像素其实就是原图一个m×n 的local patch与 m×n 的filter 的乘积和。新图像有多少个像素,就对应着原图多少个m×n 的矩形
积分图特征:就是像素左上角的累加。
AdaBoost分类器:针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。【集成学习】同时进行特征选择与分类器训练。
例子:https://zhuanlan.zhihu.com/p/27126737
级联检测:AdaBoost训练出来的强分类器一般具有较小的误识率,但检测率并不很高,一般情况下,高检测率会导致高误识率,这是强分类阈值的划分导致的,要提高强分类器的检测率就要降低阈值,要降低强分类器的误识率就要提高阈值,这是个矛盾的事情。而级联检测通过增加分类器个数可以在提高强分类器检测率的同时降低误识率。

存在问题
Haar-like特征是一种相对简单的特征,其稳定性较低
弱分类器采用简单的决策树,容易过拟合。因此,该算法对于解决正面的 人脸效果好,对于人脸的遮挡,姿态,表情等特殊且复杂的情况,处理效果不理想
基于VJ-cascade的分类器设计,进入下一个分类器后,之前的信息都丢弃了,分类器评价一个样本不会基于样本在之前步骤中的表现,导致分类器的鲁棒性差。

HOG+SVM (2005CVPR 行人检测)

HOG特征
1、灰度化(如果是灰度图,只计算目标像素的梯度,如果是彩色图,那么就要计算各个RGB分量上的梯度)+伽马变化
2、梯度计算 sobel 121
3、直方图 例子:input 64×128 8x8个像素作为一个cell→这样把图像分割成了8x16个cell
横轴:[0, 180]度以20度为一个bin,平均分成9份;
纵轴:按照像素梯度的方向找对应的bin,然后把该像素梯度对应的幅值按照比例放入到相应的bin中。
Block混叠空间块的归一化:选用了2x2的Block,即4个9×1的直方图组合成一个36×1的向量构成一个直方图。归一化,然后间隔一个Cell依次向后循环,直到扫描完整张图。
构建HOG特征描述子:若2×2Block,对于例子的图,水平7个,竖直15个,那么共有105个,一组36个向量,总共有有3780维向量。
优缺点:
核心思想是所检测的局部物体外形能够被梯度或边缘方向的分布所描述,HOG 能较好地捕捉局部形状信息,对几何和光学变化都有很好的不变性;HOG 是在密集采样的图像块中求取的,在计算得到的 HOG 特征向量中隐含了该块与检测窗口之间的空间位置关系;
很难处理遮挡问题,人体姿势动作幅度过大或物体方向改变也不易检测(这个问题后来在DPM中采用可变形部件模型的方法得到了改善); 跟SIFT相比,HOG 没有选取主方向,也没有旋转梯度方向直方图,因而本身不具有旋转不变性,其旋转不变性是通过采用不同旋转方向的训练样本来实现的; 跟SIFT相比,HOG 本身不具有尺度不变性,其尺度不变性是通过缩放检测窗口图像的大小来实现的;由于梯度的性质,HOG 对噪点相当敏感,在实际应用中,在 Block 和 Cell 划分之后,对于得到各个像区域中,有时候还会做一次高斯平滑去除噪点。
SVM分类器https://zhuanlan.zhihu.com/p/31886934
特征空间上的间隔最大的线性分类器;对于线性可分的数据集来说,这样的超平面有无穷多个(即感知机),但是几何间隔最大的分离超平面却是唯一的。
NMS:筛选出一定区域内属于同一种类得分最大的框。
非极大抑制的执行过程如下所示:
1、对所有图片进行循环。
2、找出该图片中得分大于门限函数的框。在进行重合框筛选前就进行得分的筛选可以大幅度减少框的数量。
3、判断第2步中获得的框的种类与得分。取出预测结果中框的位置与之进行堆叠。此时最后一维度里面的内容由5+num_classes变成了4+1+2,四个参数代表框的位置,一个参数代表预测框是否包含物体,两个参数分别代表种类的置信度与种类。
4、对种类进行循环,非极大抑制的作用是筛选出一定区域内属于同一种类得分最大的框,对种类进行循环可以帮助我们对每一个类分别进行非极大抑制。
5、根据得分对该种类进行从大到小排序。
6、每次取出得分最大的框,计算其与其它所有预测框的重合程度,重合程度过大的则剔除。
Soft-NMS

DPM (2008 物体检测基于HOG)

DPM改进后取消了原HOG中的块(Block),只保留了单元(Cell):但归一化时,是直接将当前单元与其周围的4个单元(Cell)所组成的一个区域归一化,所以效果和原HOG特征非常类似。
采用了有符号梯度和无符号梯度相结合的策略:计算梯度方向时可以计算有符号(0-360°)18维或无符号(0-180°)9维梯度方向,一共27维。
之前使用PCA来降维;DPM近似处理:对27维直方图求和,4个单元每个单元27维向量拼接,一共有31维特征。
计算响应图,代表能量分布【梯度方向越亮的方向可以解释为行人具有此方向梯度的可能性越大】→Latent SVM训练→检测识别