Apollo问答 | 社群分享专刊-单目摄像头的物体检测(下)

陈光 

本周问答主题:

单目摄像头的物体检测

9月27日,我们在Apollo开发者交流群内做了关于单目摄像头物体检测的分享。上周我们发布了相关的技术问答上篇。本期,我们对开发者提出的剩余问题进行了归纳整理,还没有得到回答的问题,大家可以在这里寻找答案。

Q

请问当障碍物被局部遮挡的时候,yolo也能给出比较准确的尺寸信息吗?

物体截断部分是怎么处理的

A

这是一个很好的问题,本次分享由于时间问题没有展开描述。如果物体有遮挡,我们要求神经网络能预测出遮挡程度(百分比),并根据遮挡的情况,去给出更准确的距离测试。在此假设前提下,yolo可以给出准确的尺寸信息。

Q

同样是检测物体的3DBBox 请问是否考虑过利用VSLAM技术来替代现有的基于yolo的方法?

A

这个问题比较模糊,VSLAM如何代替物体检测方法?YOLO只是物体检测的一种实现方式,但和VSLAM应该不是一个范畴。

Q

对于障碍物的速度和加速度信息有预测方法吗?

A

这需要上下帧信息:可以依据传统视觉做帧与帧之间匹配,建立合适的物体跟踪模型,找到障碍物的位移,进而推断出障碍物的速度和加速度。单帧图像无法预测速度和加速度。

Q

我想请问这种算法更喜欢单色还是彩色甚至包含近红外波长图像?另外对像素大小有没有一个偏好值?谢谢!

A

算法输入为RGB,对像素大小没有特别偏好。1080P或者720P或者类似的大小都可以。

Q

结合激光雷达怎么标注出图像中物体的三维尺寸和横摆角?

A

通过相机到激光雷达的标定矩阵,可以在2D和3D点云中进行点到点的坐标转换。通过标注激光点云,我们可以便利的得到物体尺寸和偏角。

Q

老师,你好,我想问一下,单目测距的话,当目标距离在较远比如70-110米,我们这个测距精度如何能保证呢?

A

测量精度随距离加大而降低,这是camera本身的问题。解决这个问题的方法有两项:借助长焦相机;通过和多普勒雷达融合,得到精准的距离估算。

Q

您好 请问这个物体的检测方案在实际使用中 对于摄像头的标定是不是有较高的要求,若摄像头出现小范围的活动 是否会对算法造成很大的影响呢?

A

不会有大的影响。而且目前算法基本依赖内参标定,一般不会出现标定很差的情况。

Q

请问yolo3d 模型能够识别大概多少种目标呢,指大小和距离的预测,对一些其他目标,例如路灯,树木,等一些非常见的障碍物也适用吗?

A

目前识别大概七大类,包括车,人,自行车,交通锥桶等常见的路面上障碍物。路灯,树木测距不在涵盖范围内。

Q

需要大概建立多少类别的位置查询表,以能够获得准确的位置信息?必须小轿车和大型轿车的尺寸会有所不同。yolo是否支持这么精准的分类?

请问单目测距尺度怎样确定呢?

A

查询表,可以定义单位标尺(例如在图像某个2d位置上,高1米的障碍物在图像上有多高)。通过单位标尺对应的像素数目,可以快速查到车的真实高度等。

Q

标定的参数会开放吗?

A

标定的参数和车辆已经和传感器相关联,可以使用Apollo标定服务,快速标定。

Q

请问下,在车辆检测中会检测车灯么?车灯应该在理解前方车辆行为各方面也很重要吧?

A

有检测,但准确率不能做到极高,不是PNC的强前提。

Q

Aoollo感知部分传感器融合部分对于camera和毫米波雷达的融合,毫米波雷达能够输出前方物体类别,这个前方物体类别是传感器直接的输出还是apollo做了数据处理?这个物体类别需要很准确吗?如果不准确对融合有没有大的影响?

A

毫米波雷达只给了较为粗略的类别识别,在融合时基本不占权重,因此不会影响最终结果。

Q

刚才分享中提到的Apollo benchmark是开源的吗?

A

可以使用大规模开源的Apollo Scope做一些研发。内部的benchmark不开源。

Q

您好,“和YOLO V2算法一样, 我们在标注样本集中通过聚类,产生一定数目的“锚”模板,去描述不同类别、不同朝向、不同大小的障碍物。例如对小轿车和大货车,我们会定义不同的锚模板,去描述它们的实际物理尺寸。” 请问这个“锚”模板需要手工设计还是可以通过神经网络直接学习呢?

A

锚都是通过非监督学习的聚类方式生成,不是手工设计或者直接CNN学出。可以参考YOLO V2论文和DPM论文,了解其中的技巧和原理。

Q

如何处理道路颠簸引起的道路平面假设失效?

A

颠簸的影响可以通过在线标定来解决。平面假设只是为了物体的测距,这种情况下,其它传感器的融合辅助测距是必不可少的步骤。

Q

老师,您好,我想请教一下关于data augmentation中翻转操作到底有没有意义的问题。对于卷积操作,过度的使用翻转来数据扩容,会不会使训练得到的卷积核表现变差,因为实际应用中车可能不太会反过来

A

你说的正确,左右的对称翻转是有意义的,而上下是不会翻转的。PPT中讲解的模糊。

Q

2D-3D-Transform阶段是否是通过网络来预测得到:L H W yaw这些参数的?网络一般预测的error是多少

A

预测这些参数是为了测距服务,测距的误差大概在6%~8%

Q

YOLO有没有相关书籍呢?

A

YOLO 和 YOLO V2论文,发布在CVPR上。网上可以非常容易找到。讲义中也有写到。

Q

老师好,请问,如果将此算法用在室内低速设备上,有什么要特别注意的吗?谢谢

A

可以使用,没有特别需要注意的。但是室内低速,建议使用双目测距。不受障碍物类别等限制,而且不需要大量训练数据。

Q

如果在地面有较大坡度不平的场景,单目camera的检测结果在传感器融合处理时,参考比重会降低 甚至舍弃吗?是如何考虑的呢?

A

会相应的降低。但是融合时,是做graph-graph间的匹配。不需要过分担心融合时摄像头的准确率问题。

Q

距离误差8%是合理的吗 现实需要误差最低多少?

A

合理的,而且在之后的融合中,借助radar的准确测距,可以弥补这些误差。

Q

摄像头高度和障碍物不一致的情况如何处理?比如卡车的高度可能有三米多

A

不影响,只要能在摄像头中观测到障碍物,测距都不受影响。

Q

有没有考虑用车道线来校准呢?两条平行线无穷远处相交

A

是的,有所考虑,通过车道线等信息,可以帮助我们在线调整传感器标定。

Q

在公开数据集上区分度最好的模型,在真实业务场景下表现不好,甚至很差,都检测不出来该怎么办呢?

A

可能需要采集一些新的数据,做模型的再训练,微调。


欢迎加入交流QQ群: 519 034 368

(非常欢迎您关注无人驾驶论坛的微信公众号)




(非常欢迎您关注Apollo官方公众号)



发表评论