Qwen2-VL-2B中小模型实现精确坐标伪回归能力

在实际大模型落地中，需要大模型支持实际给出对应目标检测物的坐标输出能力，在原生基座模型中这个能力很少体现，经过了一些实验，简单记录一下从输入图像的数学表示开始，经过视觉编码、模态对齐、语言模型推理，直至最终坐标解码的完整数学推导过程。

基于Qwen2-VL的训练过程，本文提出了一种坐标敏感的加权损失函数（Coordinate-Aware Weighted Loss），以提升模型对边界框预测的精确度。

1. 任务定义的数学形式

我将目标检测任务建模为基于视觉条件的自回归文本生成任务。

$I$ $X_{\text{prompt}}$ $Y$ 。

$Y$ $Y = [ \langle \text{box\_2d} \rangle, y_{\min}, x_{\min}, y_{\max}, x_{\max}, \langle \text{object\_ref} \rangle, \text{class\_name}, \dots ]$

1.1 坐标量化 (Coordinate Quantization)

$0-1000$ 的归一化量化策略。

$W$ $H$ $(x, y)$ $Q(\cdot)$ 定义为：

\begin{matrix} (1) & x^{'} = Q (x) = clamp (⌊ \frac{x}{W} \times 1000 ⌋, 0, 1000) \end{matrix}

\begin{matrix} (2) & y^{'} = Q (y) = clamp (⌊ \frac{y}{H} \times 1000 ⌋, 0, 1000) \end{matrix}

模型直接预测这些量化后的整数 Token。

2. 优化目标改进

2.1 标准自回归损失

$T$ $Y = \{y_1, y_2, \dots, y_T\}$ $\mathcal{L}_{\text{CE}}$ 定义为：

\begin{matrix} (3) & L_{CE} = - \frac{1}{T} \sum_{t = 1}^{T} \log P (y_{t} | y_{< t}, X_{prompt}, I; θ) \end{matrix}

$\theta$ 是模型参数。

2.2 改进：坐标敏感的加权损失 (Coordinate-Aware Weighted Loss)

在目标检测任务中，坐标 Token 的准确性远比普通文本 Token（如停用词、标点符号）重要。标准的平均损失会导致模型在大量普通文本上的梯度稀释了对坐标预测的优化。

$w(t)$ $\mathcal{L}_{\text{Weighted}}$ ：

\begin{matrix} (4) & L_{Weighted} = - \frac{1}{\sum_{t \in V} 1} \sum_{t = 1}^{T} w (t) \cdot \log P (y_{t} | y_{< t}, X_{prompt}, I; θ) \end{matrix}

$w(t)$ 定义如下：

\begin{matrix} (5) & \begin{matrix} w (t) = {\begin{cases} 0 & if y_{t} \in User Prompt (Masked) \\ α & if y_{t} \in Coordinate Tokens \\ 1 & otherwise (Standard Text) \end{cases} \end{matrix} \end{matrix}

$\alpha = 2.0$ 。这意味着模型预测错误一个坐标 Token 所受到的惩罚是预测错误普通文本的两倍。

3. 工程实现细节

3.1 动态掩码生成 (Dynamic Mask Generation)

$M$ ，其维度与输入 input_ids 一致。

实现逻辑如下：

初始化：创建一个全为 1 的掩码张量 loss_weight_mask。
屏蔽提示词：将用户输入的 Prompt 部分的 Label 设为 -100（PyTorch 默认忽略索引），权重设为 0。
坐标增强：
- 扫描 Token 序列，定位 <|box_2d|> (Start) 和 <|object_ref|> (End) 特殊 Token 的位置索引。
- <|box_2d|> $idx_{start}$ <|object_ref|> $idx_{end}$ 。
- $[idx_{start}, idx_{end})$ $\alpha$ (2.0)。


x
# 伪代码逻辑
loss_weight_mask = torch.ones_like(labels)
COORD_WEIGHT = 2.0

for batch_idx in range(batch_size):
    # 定位坐标区间
    intervals = find_coordinate_intervals(input_ids[batch_idx])
    for (start, end) in intervals:
        loss_weight_mask[batch_idx, start:end] = COORD_WEIGHT

3.2 自定义 Trainer

我继承了 Hugging Face 的 Trainer 并重写了 compute_loss 方法，以支持逐元素的加权计算：


xxxxxxxxxx
class WeightedLossTrainer(Trainer):
    def compute_loss(self, model, inputs, ...):
        # 1. 获取模型输出 Logits
        outputs = model(**inputs)
        logits = outputs.get("logits")
        
        # 2. 获取预先计算好的权重掩码
        loss_weight_mask = inputs.get("loss_weight_mask")
        
        # 3. 计算未归约的 CrossEntropyLoss (reduction='none')
        loss_fct = nn.CrossEntropyLoss(reduction='none')
        loss = loss_fct(shift_logits, shift_labels)
        
        # 4. 应用权重
        if loss_weight_mask is not None:
            loss = loss * shift_mask
            
        # 5. 返回平均损失
        return loss.mean()

4. 改进效果分析

通过这种数学上的加权策略，梯度下降（Gradient Descent）过程发生了如下变化：

\begin{matrix} (6) & \nabla_{θ} L \propto \sum_{t} w (t) \cdot \nabla_{θ} \log P (y_{t} | \dots) \end{matrix}

$w(t)$ $\theta$ 的更新方向会显著偏向于最小化坐标预测误差的方向。这有效地缓解了 VLM 在微调时容易出现的幻觉问题（即生成了正确的对象名称但坐标偏移严重），使得模型在保持语言能力的同时，具备了更强的回归能力。