荣格工业资源APP
了解工业圈,从荣格工业资源APP开始。
照片是二维(2D)的,但自动驾驶汽车和其他技术必须在三维(3D)世界中航行。当前,研究人员开发了一种新方法,帮助人工智能(AI)从二维图像中提取三维信息,使相机成为这些新兴技术更有用的工具。
MonoXiver方法示意图。MonoXiver适用于任何现成的三维物体检测器
“从二维图像中提取三维信息的现有技术很好,但还不够好,”相关论文的共同作者、北卡罗来纳州立大学电气与计算机工程系副教授Tianfu Wu说,“我们的新方法名为MonoXiver,可以与现有技术结合使用,而且可以大大提高准确性。”
这项工作对自动驾驶汽车等应用尤其有用。这是因为相机比用于三维空间导航的其他工具(如依靠激光测量距离的激光雷达)更便宜。由于相机比其他技术更经济实惠,自动驾驶汽车的设计者可以安装多个相机,为系统增加冗余。
但这只有在自动驾驶汽车中的人工智能,从摄像头拍摄的二维图像中提取三维导航信息时才有用。这正是MonoXiver 的用武之地。从二维图像中提取三维数据的现有技术,如Wu和他的合作者开发的MonoCon技术,利用了“边界框”。具体来说,这些技术训练人工智能扫描二维图像,并在二维图像中的物体(如街道上的每辆车)周围放置三维边界框。
这些框是立方体,有八个点(想想鞋盒上的角)。边界框可以帮助人工智能估算图像中物体的尺寸,以及每个物体与其他物体的位置关系。换句话说,边界框可以帮助人工智能确定一辆汽车有多大,以及它与路上其他汽车的位置关系。然而,现有程序的边界框并不完善,往往无法包含二维图像中出现的车辆或其他物体的部分区域。
新的MonoXiver方法将每个边框作为起点或锚点,然后让人工智能对每个边框周围的区域进行第二次分析。第二次分析的结果是,程序会在锚点周围生成许多其他的边界框。
为了确定这些辅助框中哪个最能捕捉到物体的缺失部分,人工智能会进行两次比较。一种比较是查看每个辅助框的几何形状,看它是否包含与锚点框中的形状一致的形状。另一种比较是查看每个辅助框的外观,看它是否包含与锚框内的视觉特征相似的颜色或其他视觉特征。
Wu说:MonoXiver的一个重大进步是让我们能够非常高效地运行这种自上而下的采样技术,创建和分析二级边框。为了衡量MonoXiver方法的准确性,研究人员使用两个二维图像数据集进行了测试:成熟的KITTI数据集和更具挑战性的大规模Waymo数据集。
“我们将MonoXiver方法与MonoCon和另外两个现有的从二维图像中提取三维数据的程序结合使用,MonoXiver显著提高了这三个程序的性能,”Wu说,“我们在将MonoXiver与 MonoCon结合使用时获得了最佳性能。”
Wu说:同样重要的是,这种改进带来了相对较小的计算开销。例如,MonoCon本身可以每秒55帧的速度运行。如果采用MonoXiver方法,运行速度将减慢到每秒40帧,这对于实际应用来说仍然足够快。我们对这项工作感到非常兴奋,并将继续对其进行评估和微调,以用于自动驾驶汽车和其他应用。