自监督深度估计流程梳理
author:张一极
date:2024年01月06日22:34:06
相关paper:Unsupervised Learning of Depth and Ego-Motion from Video
关于自监督进行单目深度估计的思路,首先数据集采用视频流的多帧形式,监督信号来自于上下帧的重建差异,核心重建算法即:
- pt: 目标视图中像素的齐次坐标。齐次坐标通常用于表示三维空间中的点,它是一个四维向量,通常是 (x, y, z, w),其中 x、y 和 z 是点的三维坐标,w 是比例因子。
- K: 相机内参矩阵,描述了相机的内部特性,比如焦距、图像中心等。通常是一个 3x3 的矩阵。
- : 相机从目标视图到源视图的相对姿态变换矩阵。它描述了两个视角之间的旋转和平移关系。
- : 预测的目标视图深度图,根据目标视图中像素的位置 pt 获得像素的深度信息。
公式的含义是,通过相机内参矩阵 K、目标视图到源视图的相对姿态变换矩阵 、预测的目标视图深度图 和目标视图中像素的齐次坐标 pt,可以计算出该像素在源视图中的投影坐标 ps,然后通过投影坐标,在原图采样后进行插值填充,重建图像。
接着进行图像比较,
- : 这是视图合成任务的损失函数,表示为视图合成损失。它是一个衡量目标视图和从源视图合成的图像之间差异的度量。
- I_t(p): 目标视图中像素 p 处的真实像素值。
- : 从源视图 s 合成的图像在像素 p 处的预测像素值。
- s: 源视图的索引,表示训练图像序列中的不同视角。损失函数对于训练集中的所有源视图进行求和。
- p: 像素索引,表示图像中的特定像素位置。
针对整个图像,计算一个重建损失,利用可微分的重建损失,得到最后的监督信号,所以他可以实现持续学习,在不断读入下一帧的同时针对上一帧进行重建,同时计算重建损失后,进行参数调整。