卷积BP 计算中的核翻转

author:张一极
date:2025年05月05日18:00:45

正文

先考虑前向传播

$X \in \mathbb{R}^{H \times W}$ $K \in \mathbb{R}^{k_H \times k_W}$ $Y$ 由如下卷积操作定义：

Y (i, j) = \sum_{m = 0}^{k_{H} - 1} \sum_{n = 0}^{k_{W} - 1} X (i + m, j + n) \cdot K (m, n)

$1$ 。

损失函数与目标

$L(Y)$ $X$ $K$ $X$ $\frac{\partial L}{\partial X}$ $\frac{\partial L}{\partial Y}$ ）：

\frac{\partial L}{\partial X}, \frac{\partial L}{\partial K}

$\frac{\partial L}{\partial Y(i,j)} = \delta(i,j)$ 为从上层网络反传下来的梯度。

$K$ 的梯度

\frac{\partial Y (i, j)}{\partial K (m, n)} = X (i + m, j + n)

δ (i, j) = \frac{\partial L}{\partial Y (i, j)}

\frac{\partial L}{\partial K (m, n)} = \sum_{i, j} \frac{\partial L}{\partial Y (i, j)} \cdot \frac{\partial Y (i, j)}{\partial K (m, n)} = \sum_{i, j} δ (i, j) \cdot X (i + m, j + n)

$\delta$ 在 X 上滑动，只不过：

$\delta$
$\delta(i,j) \cdot X(i+m, j+n)$
输出是大小为 k x k 的矩阵（即 K 的梯度）

即：

\frac{\partial L}{\partial K} = X ⋆ δ

$\star$ 有效卷积 $\delta$ 进行卷积操作以求导。

$X$ 的梯度

$X(i,j)$ $Y(i', j')$ ，即所有的 i 和 j 都满足：

i^{'} + u = i, j^{'} + v = j \Rightarrow i^{'} = i - u, j^{'} = j - v

所以：

\frac{\partial L}{\partial X (i, j)} = \sum_{u = 0}^{k - 1} \sum_{v = 0}^{k - 1} δ (i - u, j - v) \cdot K (u, v)

$\delta$ $K$ full convolution $K$ 做旋转（翻转 180°）（关于翻转，见附录 1）：

\frac{\partial L}{\partial X} = δ ⋆ K^{flip}

$K^{\text{flip}}(u,v) = K(k_H - 1 - u, k_W - 1 - v)$ 。

总结

$\displaystyle \frac{\partial L}{\partial K(m,n)} = \sum_{i,j} \delta(i,j) \cdot X(i+m, j+n)$ $\displaystyle \frac{\partial L}{\partial X(i,j)} = \sum_{m,n} \delta(i - m, j - n) \cdot K(m,n)$ $\delta$ $K$ 旋转后做全卷积（包含卷积翻转）。

附录 1：关于翻转的理解

$X(i,j)$ 的梯度：

\frac{\partial L}{\partial X (i, j)} = \sum_{u = 0}^{k - 1} \sum_{v = 0}^{k - 1} δ (i - u, j - v) \cdot K (u, v)

$\delta(i,j) = \frac{\partial L}{\partial Y(i,j)}$ $K(u,v)$ $k \times k$ 是卷积核大小。

回忆标准的二维卷积定义（无翻转）：

Z (i, j) = \sum_{u = 0}^{k - 1} \sum_{v = 0}^{k - 1} A (i + u, j + v) \cdot B (u, v)

$A$ $B$ 做

cross-correlation （ 互 相 关 ）

而在反向传播中，我们看到：

\frac{\partial L}{\partial X (i, j)} = \sum_{u, v} δ (i - u, j - v) \cdot K (u, v)

$\delta(3,3)$ $K(0,0)$ $\delta(2,3)$ $K(1,0)$ $\delta(3,3)$ $K(3,3)$ 计算得到最后的梯度，所以要翻转卷积核，这个式子实际上相当于：

\frac{\partial L}{\partial X} = δ ⋆ \tilde{K}

$\star$ 有效卷积（valid convolution） $\widetilde{K}$ $K$ 翻转 180° 后的版本，即：

\tilde{K} (u, v) = K (k - 1 - u, k - 1 - v)

$(i - u, j - v)$ $K$ $\delta$ $K$ $X$ $X(i,j)$ $L$ $\delta$ $K$ 。

因此，我们可以将输入梯度的计算写成卷积的形式：

\frac{\partial L}{\partial X} = δ * \tilde{K}

$\delta$ $\widetilde{K}$ $K$ $\ast$ 表示标准二维卷积。

以上