基于ViT 特征映射和解码器的多模态大模型实验

Author:张一极

date: 2025年07月05日21:07:49

近期实现了一个基于ViT 和Transformer解码器的端到端OCR模型,通过一个特征映射层加文本解码,给原本用于图像的模型增加了多模态的能力尝试,测试用于识别包含数字、字母和特殊字符的文本图像。在8534个样本的测试集上达到了97.47%的字符级准确率和96.25%的序列级准确率。

1.整体架构设计

参数数量大约1个亿,总体训练时间可控。

如下图,总体为编码器-解码器架构:

Untitled diagram _ Mermaid Chart-2025-07-05-130235

核心组件

1. 视觉编码器 (VisionEncoder)

预训练ViT主干网络

特征投影层

2. 文本解码器 (TextDecoder)

文本嵌入层

交叉注意力模块 (CrossAttention)

自注意力解码器块

3. 基础组件 (VIT自带)

多头注意力机制 (MultiHeadAttention)

Transformer块 (TransformerBlock)

2.训练策略

1. 分阶段训练策略

阶段1:冻结ViT参数(前2个epoch)如果前期不冻结,后续很难收敛

阶段2:端到端训练(第3个epoch开始)

2. 计划采样 (Scheduled Sampling)**

传统的Teacher Forcing在训练时使用真实标签,但在推理时使用模型预测,导致训练-推理差异(暴露偏差)。如果强制teacher force全程,则容易出现后续模型的acc很高,但是推理过程不断循环,或者很早输出EOS的情况。

目前我的解决方案:

3. 训练配置

模型参数

训练参数

数据增强无

模型训练指标: