RoPE 深入：从 2D 子空间旋转拓展到 2D 图像位置编码

author：张一极
2026年02月05日21:20:42

1、引言

RoPE（Rotary Position Embedding）的核心思想是将 Embedding 向量两两分组，在2D 子空间中进行旋转。这种机制让 NLP 模型能够优雅地处理 1D 文本序列的相对位置。

$H \times$ $W$ ），如果直接将其展平为 1D 序列使用标准 RoPE，会破坏图像在垂直方向上的相对位置关系。

本文将深入探讨 2D RoPE 的过程，即如何将旋转位置编码推广到二维数据（图像）中。

首先澄清一个概念：标准 RoPE 本身就是基于 2D 旋转矩阵的。

\begin{matrix} (1) & (\begin{matrix} x^{'} \\ y^{'} \end{matrix}) = (\begin{matrix} \cos (m θ) & - \sin (m θ) \\ \sin (m θ) & \cos (m θ) \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) \end{matrix}

$m$ $m$ 只是一个标量（第几个 token）。

而2D RoPE要做的事m变成2维索引（即图像内点的位置坐标x,y）

$(i, j)$ ，分别代表行（高度）和列（宽度）。

Flatten $(0,0), (0,1), ..., (0,W), (1,0), ...$ $(0, W)$ $(1, 0)$ 在序列中相邻，但在图像空间中它们可能相距甚远。使用 1D RoPE 无法反映这种二维空间关系。

2D RoPE 的核心思路：分解

$D$ ）一分为二，这里的思想类似于神经网络中，你取某一个层分支去输出位置信息用于做位置训练一样，其实并不是真的他知道自己会去做位置训练，而是训练的数据赋予了这个含义：

这样，两个方向的位置信息是解耦的，通过 Concatenate（拼接）操作融合在一起。

$H \times W$ $D$ 。

$(i, j)$ $\mathbf{q}_{i,j}$ ：

$\mathbf{q}_{i,j}$ $\mathbf{q}_{i,j} = [\mathbf{q}_{height}, \mathbf{q}_{width}]$ $\mathbf{q}_{height}$ $\mathbf{q}_{width}$ $D/2$ 。

$i$ $j$ $\text{CalcRoPE}(x, pos)$ 。

高度编码 $\mathbf{q}_{height}$ $i$ $\mathbf{q}'_{height} = \text{CalcRoPE}(\mathbf{q}_{height}, i)$
宽度编码 $\mathbf{q}_{width}$ $j$ $\mathbf{q}'_{width} = \text{CalcRoPE}(\mathbf{q}_{width}, j)$

$\mathbf{q}'_{i,j} = \text{Concat}(\mathbf{q}'_{height}, \mathbf{q}'_{width})$

$(i_1, j_1)$ $(i_2, j_2)$ 的 Attention Score 时，点积结果将分解为两部分，一部分为两个token高度差，一部分为宽度差：

\begin{matrix} (2) & Score \propto \underset{高度相对位置 i_{1} - i_{2}}{\underset{⏟}{RoPE (q_{h}, i_{1}) \cdot RoPE (k_{h}, i_{2})}} + \underset{宽度相对位置 j_{1} - j_{2}}{\underset{⏟}{RoPE (q_{w}, j_{1}) \cdot RoPE (k_{w}, j_{2})}} \end{matrix}

这样，Attention 就能同时感知垂直方向和水平方向的相对距离。

以上