相信目前很多人对于KeyPose从立体估计透明物体的3D姿势这方面的内容都很感兴趣,那么今天小郭就在互联网上为大家归纳了一些关于KeyPose从立体估计透明物体的3D姿势方面的知识分享给大家,希望能够帮助您解决问题。
估计 3D 对象的位置和方向是计算机视觉应用程序中涉及对象级感知的核心问题之一,如增强现实和机器人操作。在这些应用程序中,了解世界上的对象 3D 无论是直接影响它们,还是正确地将模拟对象放置在它们周围,位置都非常重要。虽然已经用机器学习了 (ML) 技术,特别是深度网络,对这一主题进行了大量的研究,但大多数研究都依赖于深度传感设备的使用,如Kinect,它可以直接测量物体的距离。对于有光泽或透明的物体,直接深度感应效果较差。例如,下图包括多个物体(左),其中两个是透明星星。深度设备找不到好的恒星深度值,对实际情况 3D 点重建很差(右)。
例如,这个问题的解决方案ClearGrasp提出的解决方案是利用深度神经网络修复透明物体损伤的深度图。单个给定透明物体 RGB-D 图像,ClearGrasp 利用深度卷积网络推断表面法线、透明表面掩码和屏蔽边界,细化场景中所有透明表面的初始深度估计(最右边 )上图)。这种方法很有前途,透明物体的场景可以通过依赖深度的姿势估计来处理。但修复可能非常困难,特别是在完全使用合成图像进行训练时,仍然可能导致深度错误。
在“ KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects 与斯坦福人工智能实验室合作CVPR 发表在2020年,我们描述了一个 ML 系统,它通过直接预测 3D 估计透明物体深度的关键点。为了训练系统,我们以半自动化的方式收集大型透明物体图像的真实世界数据集,并使用手动选择 3D 关键点有效地标记了它们的姿势。为了训练系统,我们以半自动化的方式收集大型透明物体图像的真实世界数据集,并使用手动选择 3D 关键点有效地标记了它们的姿势。然后,我们训练深度模型(称为 KeyPose)估计从单目或立体图像端到端 3D 没有明确计算深度的关键点。对于单个对象和对象类别,这些模型适用于训练期间可见和不可见的对象。虽然 KeyPose 单眼图像可以处理,但立体图像中可用的额外信息使其结果是单眼图像输入的两倍,典型误差是 5 毫米到 10 毫米,具体取决于对象。即使它为竞争方法提供了真正的深度,它也大大提高了这些对象的最新技术水平。我们正在发布供研究界使用的透明对象数据集的关键标记。
为了方便收集大量的真实世界图像,我们建立了一个机器人数据收集系统,其中一个通过轨迹移动手臂,并使用两个设备、一个三维摄像头和一个摄像头拍摄视频。在KinectAzure深度相机。
Apriltags的目标是准确跟踪相机的姿势。使用 2D 关键点手动标记每个视频中的少数图像。我们可以使用多视图几何提取视频的所有帧 3D 提高标记效率的关键点 100 倍。
我们有五个类别 15 使用不同的透明物体捕获图像 10 不同的背景纹理和每个物体的四种不同姿势产生了共同的 600 包括视频序列 48k 立体图像和深度图像。为了提供准确的地面现场深度图像,我们还使用对象的不透明版本捕获相同的图像。所有图像都标有 3D 关键点。我们正在公开发布这个真实世界的图像数据集,以补充与它共享类似对象的合成 ClearGrasp 数据集。
该项目独立开发了直接使用三维图像进行关键估计的想法;它最近也出现在手部跟踪的背景下。下图显示了基本的想法:两个来自三维相机的图像围绕物体切割并馈送 KeyPose 网络预测表示对象 3D 姿态的稀疏 3D 关键点集。来自标记的网络使用 3D 训练重点监督。
立体 KeyPose 一个关键方面是使用早期集成来混合三维图像,并允许隐藏的网络计算视差。与后期集成相反,后者是每个图像预测的关键点,然后组合。如下图所示,KeyPose 图像平面中的输出 2D 每个关键点的热图和视差(即逆深)热图。这两个热图的组合为每个关键点生成关键点 3D 坐标。
与后期融合或单眼输入相比,早期融合立体声的准确性通常是后者的两倍。
下图显示了 KeyPose 对单个对象的定性结果。左边是原始立体图像之一;中间是投影到图像上的预测 3D 关键点。我们把瓶子放在右边 3D 模型中的点可视化放置在预测中 3D 在确定关键点的姿势上。该网络在标准上高效准确 GPU 上仅使用 5 毫秒可以预测关键点,瓶子 MAE 为 5.2 毫米,杯子 MAE 为 10.1 毫米。
下表显示了 KeyPose 类别级别估计的结果。测试集使用了训练集看不见的背景纹理。请注意,MAE 从 5.8 毫米到 9.9 毫米不等,显示了该方法的准确性。
关于定量结果和消融研究的完整说明,请参考论文、补充材料和KeyPose 网站。
这项工作表明,在不依赖深度图像的情况下,可以从 RGB 在图像中准确估计透明物体 3D 姿态。它验证了使用三维图像作为早期集成深度网络的输入,其中训练网络直接从三维对中提取稀疏 3D 关键点。我们希望广泛标记的透明对象数据集的可用性将有助于促进该领域的发展。最后,虽然我们使用半自动方法有效地标记数据集,但我们希望在未来的工作中使用自我监督来消除手动标记。