Low-Rank Adaptation ( LORA ) 梯度视角推导

author：张一极
date：2025年03月02日16:48:47

1. LoRA表现形式

有两种表现形式：

\begin{matrix} (1) & \begin{array}{l} Y = X W = X (W_{0} + A B) \\ Y = X W_{0} + X A B = X W_{0} + Z B \end{array} \end{matrix}

假设原始权重矩阵为

\begin{matrix} (2) & W \in R^{d_{in} \times d_{out}} \end{matrix}

LoRA 通过低秩分解将其变化量表示为：

\begin{matrix} (3) & W' = W_{0} + Δ W \end{matrix}

$\Delta W$ $\Delta W$ $A \in \mathbb{R}^{d_{\text{in}} \times r}$ $B \in \mathbb{R}^{r \times d_{\text{out}}}$ ：

\begin{matrix} (4) & Δ W = A B \end{matrix}

这样，整个计算公式变为：

\begin{matrix} (5) & Y = X W = X (W_{0} + A B) \end{matrix}

展开后可得：

\begin{matrix} (6) & Y = X W_{0} + X A B \end{matrix}

其中：

$X W_0$ 是基础模型的输出

$X A B$ 是 LoRA 额外添加的低秩修正项

到这里，公式(1)里面两个式子没什么区别，接着：

$Z = X A$ 进行变形，变为：

\begin{matrix} (7) & Y = X W_{0} + X A B = X W_{0} + Z B \end{matrix}

LoRA 主要通过学习 A 和来调整原模型 $W_0$ 的输出 $W_0$ 本身。

对于给定的损失函数 L ，梯度计算过程如下：

1. 损失函数对输出 Y 求梯度：

\begin{matrix} (8) & \frac{\partial L}{\partial Y} \end{matrix}

2. 利用链式法则，对 B 求梯度：

$Z = XA$ ，表示 XA 的输出为 Z，而这里的输出并非旁路ABX的输出：

\begin{matrix} (9) & \frac{\partial L}{\partial B} = Z^{T} \frac{\partial L}{\partial Y} = (X A)^{T} \frac{\partial L}{\partial Y} \end{matrix}

3. 同理对 A 求梯度：

\begin{matrix} (10) & \frac{\partial L}{\partial A} = X^{T} (\frac{\partial L}{\partial Y} B^{T}) \end{matrix}

假设

$X \in \mathbb{R}^{m \times {\text{a}}}$

$W_0 \in \mathbb{R}^{{\text{a}} \times {\text{b}}}$

分解为 AB：

$A \in \mathbb{R}^{{\text{a}} \times {\text{r}}}$

$B \in \mathbb{R}^{{\text{r}} \times {\text{b}}}$

\begin{matrix} (11) & \frac{\partial L}{\partial B} = (X A)^{T} \frac{\partial L}{\partial Y} 的 维 度 为 ： (m \times a \times a \times r)^{T} \times (m \times b) = r * b \end{matrix}

\begin{matrix} (12) & \frac{\partial L}{\partial A} = X^{T} (\frac{\partial L}{\partial Y} B^{T}) 的 维 度 为 ： (a \times m) \times (m \times b \times b \times r) = a \times r \end{matrix}

以上。