RoPE工程视角下的注意力机制流程理解

Author：张一极
2026年01月28日21:42:50

1、概述

本文从工程实现的视角，详细梳理 RoPE 的计算流程，并明确它在 Transformer 架构中带来的具体操作变化。

RoPE 与传统的绝对位置编码最大的区别在于插入位置。

传统位置编码 $\mathbf{x} = \text{TokenEmbedding}(x) + \text{PosEmbedding}(pos)$ 然后再输入到 Transformer 层计算。
RoPE：不在 Input Embedding 阶段处理，而是在每一层 Transformer 的 Self-Attention 内部进行处理。具体来说，是在 Query 和 Key 投影之后，Attention Score 计算之前。

几个需要理解的特点：

$L$ $D$ $D$ 通常指 Attention Head 的维度 head_dim）。

$m$ $\mathbf{q}_m$ 。

$D$ $\mathbf{q}_m$ $D/2$ 对二维坐标：

\begin{matrix} (2) & q_{m} = [q_{0}, q_{1}, q_{2}, q_{3}, . . ., q_{D - 2}, q_{D - 1}] \end{matrix}

分组为：

\begin{matrix} (3) & (q_{0}, q_{1}), (q_{2}, q_{3}), . . ., (q_{D - 2}, q_{D - 1}) \end{matrix}

$\theta_i$ $i$ $0, 1, ..., D/2-1$ )。

通过维度D和位置i，来计算对应位置的旋转角度。

公式为：

\begin{matrix} (4) & θ_{i} = 10000^{- 2 i / D} \end{matrix}

位置i与频率变化如图示：

可以看出，随着位置变大，频率迅速衰减。

这意味着：向量的前几维旋转得很快，后几维旋转得很慢。这种多尺度的设计有助于模型同时捕捉长距离和短距离的依赖。

$m$ $m-n$ 关联位置差：

\begin{matrix} (5) & {Angle}_{m, i} = m \cdot θ_{i} \end{matrix}

$(x, y)$ 应用旋转矩阵：

\begin{matrix} (6) & (\begin{matrix} x^{'} \\ y^{'} \end{matrix}) = (\begin{matrix} \cos (m θ_{i}) & - \sin (m θ_{i}) \\ \sin (m θ_{i}) & \cos (m θ_{i}) \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) \end{matrix}

展开计算得到：

\begin{matrix} (7) & \begin{matrix} x^{'} = x \cos (m θ_{i}) - y \sin (m θ_{i}) \\ y^{'} = x \sin (m θ_{i}) + y \cos (m θ_{i}) \end{matrix} \end{matrix}

原始向量（以 Q 或 K 为例）：

\begin{matrix} (8) & x = (x_{0}, x_{1}, x_{2}, x_{3}, \dots, x_{D - 2}, x_{D - 1}) \end{matrix}

按 2 维一组分成：

\begin{matrix} (9) & (x_{0}, x_{1}), (x_{2}, x_{3}), \dots, (x_{D - 2}, x_{D - 1}) \end{matrix}

对第 i 组做旋转（下标为 2i ）：

\begin{matrix} (10) & \begin{aligned} x^{'} 2 i & = x 2 i \cos (p θ_{i}) - x_{2 i + 1} \sin (p θ_{i}) \\ x^{'} 2 i + 1 & = x 2 i \sin (p θ_{i}) + x_{2 i + 1} \cos (p θ_{i}) \end{aligned} \end{matrix}

拼接结果就是：

\begin{matrix} (11) & x^{'} = (x_{0}^{'}, x_{1}^{'}, x^{'} 2, x^{'} 3, \dots, x^{'} D - 2, x^{'} D - 1) \end{matrix}

$\text{RoPE}(\mathbf{q}_m)$ 。

RoPE 没有引入额外的训练参数（只通过固定的频率*一个已知数），实现了相对位置编码的特性，且兼顾了长短距离上下文的视角。

他的核心流程大概可以总结为：

q和k分别旋转，后面才计算注意力分数。


xxxxxxxxxx
q = apply_rope(q, pos)
k = apply_rope(k, pos)

attn = torch.matmul(q, k.transpose(-2, -1))

以上