具身性挑战
具身性是机器人视觉的基本特征,也是机器人视觉与计算机视觉的本质区别。这个方向的挑战主要包括:理解和利用时间和空间具身性有助于改善感知,同时也能让机器人视觉进行主动视觉,甚至对环境进行有针对性的操作,进一步改善感知。
1. 视觉具身性: 与将每个图像视为独立的典型计算机视觉系统不同,机器人视觉系统感知连续的图像流,因此具有高度相关性。虽然目前关于动作识别、从演示中学习以及计算机视觉中类似方向的工作都是在视频数据上进行的,但目前很少利用时间具身的潜力来提高物体检测或语义分割的感知过程的质量:例如,使用其时间具体化的机器人视觉系统可以例如随着时间的推移而积累证据(如前所述,如果不确定性估计可用,则最好使用贝叶斯技术)或利用动态场景中随时间变化的微小视点变化。
时间具身性的一个具有挑战性的问题是:场景的外观会随着时间而改变。环境可以包括动态物体,如汽车或行人在摄像机的视场中移动。环境也可以由不同的照明条件(白天/夜晚)、物体的结构变化(夏季/冬季)或物体的存在和姿势的差异(例如,工作时间和下班时间的办公室)引起的外观变化。机器人视觉系统必须应对所有这些影响。
2.空间的具身性: 在机器人视觉中,观察世界的摄像头是在世界活动和移动的更大的机器人系统的一部分。当机器人在环境中移动时,摄像头会从不同的视点观察场景,这对机器人视觉系统来说既是挑战也是机遇。从不同的视角观察一个物体可以帮助识别它的语义属性,改善深度感知,或者在杂乱的场景中把一个物体与其他物体或背景隔开。另一方面,遮挡和由此产生的剧烈的外观变化使视觉感知复杂化,需要物体统一性和物体持久性等能力,而人类视觉系统天然就具备这些能力。
3. 主动视觉: 机器人视觉在具身性中的最大优势之一就是可以控制摄像机,移动摄像机并更改其视点,以改善其感知能力或收集有关场景的其他信息。这与大多数计算机视觉场景形成鲜明对比,在大多数计算机视觉场景中,相机是被动传感器,可以从放置位置观察周围环境,而无需控制其姿势。
在下一个最佳视角预测可以提高物体检测或辅助移动机器人探索路径规划,但目前的研究还缺少一种更全面的主动场景理解方法。这样的主动式机器人视觉系统系统可以控制摄像机在整个世界范围内的移动,从而提高系统的感知置信度,解决歧义,减轻遮挡或反射的影响。
4. 操纵感知 作为主动视觉的延伸,机器人系统可以有目的地操纵场景以帮助其感知。例如,机器人可以移动被遮挡的物体以获得隐藏在下面的物体的信息。规划这样的动作需要了解场景的几何形状,有能力推理出某些操作动作将如何改变场景,以及这些改变是否会对感知过程产生积极影响。
C 理解挑战
赫尔曼-冯-赫尔姆霍兹提出了人类在处理视觉信息时,大多使用无意识理解、推理或结论的观点。此后,心理学家们设计了各种实验来研究这些无意识机制,将赫尔姆霍兹的原始观点赋予现代的手段,并在贝叶斯推理的框架下重新表示。基于此,可以将理解分为三个挑战,解决关于场景及其中对象的语义和几何的单独和联合的理解。
1. 关于对象和场景语义的理解: 人类周围的世界包含了许多语义规律性,人类利用这些规律性来帮助自己的感知,比如:物体往往在某一情境中出现的频率比在其他情境中出现的频率要高(如在厨房或餐桌上更容易找到一把叉子,但在浴室中找到它的可能性较小),有些物体往往成群出现,有些物体在一个场景中很少一起出现等等。语义规律性还包括物体在场景中的绝对姿态,或物体相对于其他物体的相对姿态。
尽管语义规律和上下文信息对于人类感知过程的重要性在心理学中是众所周知的,但是当前的对象检测系统并未利用这种丰富的信息源。如果现实世界中存在的许多语义规律可以以先验知识的形式被学习或以其他方式提供给视觉系统,那么可以期待一种改进且更强大的感知性能:上下文可以帮助消除歧义或纠正预测和检测。
目前一些工作包括:方法使用条件随机场明确地建模和利用对象和整体场景之间的几种语义和几何关系来理解场景。依旧有工作证明了利用学习的场景-对象先验来进行地方分类和改进的对象检测的组合。也有一些工作,通过设计一种使用深度神经网络进行整体场景理解的方法,该网络可以学习利用来自训练数据的上下文信息。
2. 关于对象和场景几何的理解: 机器人技术中的许多应用都需要了解单个物体或整个场景的几何形状。从单张图像估计场景的深度已经成为一个广泛研究的课题。同样,目前有很多工作是在没有深度信息的情况下,从单个或多个视图中估计物体的三维结构。这些方法通常是在只有一个或几个突出且清晰分离的物体的图像上进行评估。然而对于机器人应用来说,杂乱的场景是非常常见的。
先前讨论的不确定性估计和处理未知对象的问题也适用于此:例如,使用推断的几何形状来抓取对象的机器人视觉系统在计划抓取点时需要能够在推断的对象形状中表达不确定性。类似地,它应该能够利用其具身性优势将摄像机移至更好的视点,以有效地收集新信息,从而能够更准确地估计物体的几何形状。
作为对单个物体推理的延伸,对整个场景的几何推理对机器人视觉来说非常重要,与基于对象的地图或基于对象的SLAM问题密切相关。利用语义和先验知识可以帮助机器人视觉系统更好地推理场景结构,例如物体的绝对和相对姿态、支撑面以及物体在遮挡情况下的连续性。
3. 语义与几何的联合理解: 在现实的开放场景条件下,提取复杂环境中物体、环境结构及其各种复杂关系和场景几何的信息的能力对于机器人来说越来越重要。因此,对机器人视觉系统的最后一个推理挑战是对场景和其中的物体的语义和几何共同理解的能力。由于语义和几何可以相互联合推理,紧耦合的理解方法比松耦合的方法更有优势,松耦合的方法是分别对语义和几何进行推理。
版权所有:江苏和讯自动化设备有限公司所有 备案号:苏ICP备2022010314号-1
技术支持: 易动力网络