Lab4AI大模型实验室

2026-04-04 3 纸飞机账号购买

Lab4AI 大模型实验室，是为AI开发者、科研党以及学习者打造的一站式AI实践平台，它深度绑定高性能弹性算力，支持模型复现、训练以及推理的全流程，通过按需计费、低价高效的方式，去破解高端算力紧缺以及成本高昂的难题；它同步Arxiv前沿论文，还提供翻译、导读以及分析服务，支持各类大模型一键复现以及数据集微调，对接孵化资源助力科研成果转化；同时它搭载多样化AI在线课程，实现理论学习与代码实操同步推进，全方位覆盖AI研发、科研创新以及技能学习的全场景需求。

原先的链接是，https://arxiv.org/pdf/2603.06569。

作者信息

张博强，柯磊，杨瑞涵，高琦，曲天源，陈罗塞尔，余东，乐维良；腾讯人工智能实验室 (Tencent AI Lab) ，逗号隔开的这些一长串名字，以及那个括号里带着英文缩写的腾讯人工智能实验室，都被这样罗列了出来。

研究背景

视觉语言模型也就是VLM的发展，主要是依靠模型规模的扩展，这极大地阻碍了它在计算受限的移动端以及边缘设备，像是智能手机和机器人上的部署。当前主流的VLM实践，通常依赖通过大规模对比预训练，比如CLIP/SigLIP初始化的视觉编码器。然而，这种做法存在目标不匹配的问题，对比学习是针对判别任务做优化，强制执行粗粒度和类别级别的不变性，这抑制了密集字幕描述以及复杂VLM推理所需的细粒度视觉线索。因此，开展对紧凑型VLM性能极限的探寻，寻觅不依靠大规模对比预训练的高效视觉表示学习办法，具备重要的现实意义以及研究必要性。

研究目的

此项研究的目的在于探寻紧凑型的诸如2B以及8B这类VLM的性能极限，对当下最为先进的VLM所必须依赖大规模对比预训练视觉编码器的主流看法发起挑战，具体的目标是去解决对比学习目标跟语言模型的生成式序列预测之间存在的根本性不匹配状况，提出一种借助纯文本LLM初始化的视觉编码器也就是Penguin - Encoder，以此来解锁更高的视觉保真度以及数据效率。通过研究，致力于在轻量级架构的情形之下，达成与处于领先地位的大型VLM（像是Qwen3-VL这样的）性能相当的状态，并且在文档理解、视觉知识以及多视角视频理解等特定的任务方面，实现对现有的模型做到超越。

核心贡献提出了Penguin - Encoder，它是一种新视觉编码器，此编码器直接改编自纯文本LLM架构，凭借重用LLM骨干权重实现了更紧密的模态对齐以及架构改进，从而摆脱了对主流ViT架构的依赖。还引入了混合监督编码器预训练，并且提出了专门针对该编码器的辅助目标，这使得能够有效联合利用大规模有标签以及无标签结构化数据（比如图表），显著提高了数据效率和表示质量。制定了统一的训练配方，Penguin-VL训练流水线整合了由低到高分辨率的课程学习，具备优先级感知视频令牌压缩（TRA），还有协调图像和视频能力的两阶段指令微调策略。于紧凑规模达成了强劲性能，证实了改进的视觉表示而非模型扩展才是性能的主要驱动力，在计算受限的情形中达成了高性能，为参数高效的VLM提供了强有力的替代方案，这是研究方法。

研究采用了以下核心方法：

模型架构方面，采用的是三模块设计，其中包括基于LLM的视觉编码器，也就是Penguin-Encoder，它会把因果自注意力转换为双向全注意力还配备2D-RoPE，还有基于MLP的视觉-语言投影器以及LLM骨干。视频编码与压缩方面，引入了时间冗余感知，即TRA视觉令牌编码和压缩策略，依据时间相似性把帧分类成关键帧和中间帧，通过三阶段级联策略动态分配令牌预算。数据构建方面，构建出了大规模高质量多模态语料库，也就是Penguin - Recap - I、Penguin - Recap - V以及Penguin - QA这些，运用分层聚类来达成多样性平衡，还使用了多粒度视频注释，具体是事件级、章节级以及整体级的那种。训练流程上，分成了三个阶段，第一个阶段是编码器训练，采用低分辨率预训练加上高分辨率微调，并且使用重构损失。第二个阶段是VLM预训练。第三个阶段是监督微调，也就是SFT，它涵盖了图像和视频的众多任务。研究结果。

结果显示，Penguin-VL于2B以及8B参数规模时，于多个图像跟视频基准测试里展现良好性能。在图像任务范围内，Penguin-VL在文档理解像DocVQA、ChartQA这种情况，视觉知识V-star方面，超过了处于领先位置的VLM比如Qwen3-VL，并且在数学推理MathVista上表现有力。在视频任务里，Penguin-VL 在对长视频进行理解（LongVideoBench）时，在时间推理（NextQA, CharadesSTA）方面，以及在多视角视频理解领域，均超越了现有的模型。消融实验予以证实，从LLM权重开始初始化的Penguin-Encoder，始终要比对比预训练的编码器更具优势，它保留了进行密集感知以及复杂推理所需要的关键细粒度空间和时间线索。尽管处于数据量明显比较少的情形下，Penguin - Encoder依旧比传统对比预训练编码器更具优势。

总结与展望

本研究对Penguin-VL予以介绍，它是一个紧凑的、以视觉为中心的多模态基础模型，此模型弥合了图像和视频理解之间的差距，研究挑战了依赖视觉进行大规模对比预训练的标准做法，经研究证明其判别性质会抑制高级推理所需的细粒度视觉线索。提出直接从纯文本 LLM 架构初始化的 Penguin - Encoder，在 2B 和 8B 规模下进行广泛评估，证实将视觉编码器初始化与 LLM 的生成目标对齐，比扩展不连续的对比预训练提供更优越且数据效率更高的路径，未来工作方向有实时推理优化、基于强化学习的后训练技术、向智能体应用（如 GUI 代理和计算机使用场景）的扩展。

Lab4AI大模型实验室