基于特征点的单目视觉SLAM技术的研究文献综述

 2022-10-28 10:17:46
  1. 文献综述(或调研报告):

进入21世纪以来,由于计算机性能的大幅度提升,以摄像头为传感器的SLAM开始成为研究热点,并开始逐渐市场化。视觉传感器主要分为三种:单目(monocular)摄像头、双目(stereo)摄像头、深度(RGB-D)摄像头。深度摄像头可以直接获得图像深度信息,但成本较高,不适于室外环境。双目摄像头可以通过三角法计算出深度信息,而单目摄像头无法得到绝对深度信息,即运动真实轨迹及地图的真实大小,但可以配合GPS、IMU等传感器确定尺度。

在视觉SLAM实现中,现实环境存在的大量噪声会对计算造成巨大的累积误差,因此优化问题的研究十分关键。近几年,基于图的优化法兴起,逐渐替代了以前流行的滤波法,如扩展卡尔曼滤波(EKF)、粒子滤波(PF)等。单目SLAM的起源MonoSLAM【1】就是基于EKF模型的。基于图的模型不像滤波只考虑最近的两个状态来进行局部优化,而是对之前的所有状态一起优化,相当于一个全局优化。通用的基于图的SLAM求解器有GTSAM, g2o等。

基于视觉传感器的地图可以分为三类:稀疏、半稠密、稠密。近两年最流行的半稠密地图的SLAM为LSD-SLAM【2】,采用直接提取对比图像中梯度变化变化明显的区域的方法。另一个优秀的单目SLAM系统为ORB-SLAM【3】,是在基于关键帧的PTAM【4】系统基础上做了改进,基于特征点提取匹配估计相机位姿,并建立稀疏地图。ORB-SLAM加入了重定位和回环检测模块,并使用g2o进行全局误差最小化,在多个公开测试集上取得了非常好的效果。最新发布的ORB-SLAM2【5】可以不依赖于ros工作,同时提供了单目、双目和RGB-D的接口。

目前视觉SLAM领域的主要问题:1)特征提取和匹配算法中性能与效率间的矛盾。为了满足视觉SLAM的实时性需要,只能在二者之间折中选择ORB或FAST算法,而性能更优的SIFT或SURF复杂度太高,需要GPU进行加速计算。2)目前的大多数视觉SLAM系统建立的地图都是无意义的散点,并没有被很好地利用。近年来深度学习的兴起让语义地图【6】的实现成为了可能,可以在语义层面进行更高层次的场景识别,其建立是突破当前视觉SLAM系统性能瓶颈的关键要素。3)视觉传感器对于无纹理的区域感知会失效。惯性测量单元(IMU)通过内置的陀螺仪和加速度计可以测量角速度和加速度,进而推算相机的姿态,不过推算的姿态存在累计误差。视觉传感器和 IMU 存在很大的互补性,因此将二者测量信息进行融合的视觉惯性里程计【7】(VIO)也是一个研究热点。

【1】Javier Civera, Oacute;scar G. Grasa, Andrew J. Davison, J. M. M. Montiel. “1-Point RANSAC for EKF Filtering: Application to Real-Time Structure from Motion and Visual Odometry”. Journal of Field Robotics, vol. 27(5), pp. 609-631, October 2010.

【2】Jakob Engel, Thomas Schouml;ps, Daniel Cremers. “LSD-SLAM: Large-Scale Direct Monocular SLAM”, In European Conference on Computer Vision (ECCV), 2014.

【3】Mur-Artal R, Montiel J M M, Tardoacute;s J D. “ORB-SLAM: A Versatile and Accurate Monocular SLAM System”. IEEE Transactions on Robotics, 2015, 31(5):1147-1163.

【4】Georg Klein, David Murray. “Parallel Tracking and Mapping for Small AR Workspaces”. Proc.of IEEE amp; Acm Int.sympo.on Mixed amp; Augmented Reality, 2007 :1-10.

【5】Rauacute;l Mur-Artal, and Juan D. Tardoacute;s. “ORB-SLAM2: an Open-Source SLAM System for Monocular, Stereo and RGB-D Cameras”. IEEE Transactions on Robotics, 2016, 33 (5) :1255-1262.

【6】John McCormac, Ankur Handa, Andrew Davison, and Stefan Leutenegger, “ SemanticFusion: Dense 3D Semantic Mapping with Convolutional Neural Networks”, The International Conference on Robotics and Automation (ICRA), 2017.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。