自监督深度估计流程梳理

author：张一极
date：2024年01月06日22:34:06

相关paper：Unsupervised Learning of Depth and Ego-Motion from Video

关于自监督进行单目深度估计的思路，首先数据集采用视频流的多帧形式，监督信号来自于上下帧的重建差异，核心重建算法即：

p_{s} \sim K {\hat{T}}_{t \to s} {\hat{D}}_{t} (p_{t}) K^{- 1} p_{t}

pt: 目标视图中像素的齐次坐标。齐次坐标通常用于表示三维空间中的点，它是一个四维向量，通常是 (x, y, z, w)，其中 x、y 和 z 是点的三维坐标，w 是比例因子。
K: 相机内参矩阵，描述了相机的内部特性，比如焦距、图像中心等。通常是一个 3x3 的矩阵。
$\hat{T}_{t\to s}$ : 相机从目标视图到源视图的相对姿态变换矩阵。它描述了两个视角之间的旋转和平移关系。
$\hat{D}_t(p_t)$ : 预测的目标视图深度图，根据目标视图中像素的位置 pt 获得像素的深度信息。

$\hat{T}_{t\to s}$ $\hat{D}_t(p_t)$ 和目标视图中像素的齐次坐标 pt，可以计算出该像素在源视图中的投影坐标 ps，然后通过投影坐标，在原图采样后进行插值填充，重建图像。

$\mathcal{L}_{vs}=\sum_{s}\sum_{p}\left|I_{t}(p)-\hat{I}_{s}(p)\right|,$

针对整个图像，计算一个重建损失，利用可微分的重建损失，得到最后的监督信号，所以他可以实现持续学习，在不断读入下一帧的同时针对上一帧进行重建，同时计算重建损失后，进行参数调整。