Seed1.5-VL 技术报告首次公开：图像、视频、GUI、游戏全面解决方案 - 豆包

2025年5月13日，字节跳动Seed团队首次公开发布Seed1.5-VL视觉语言多模态大模型技术报告。该模型是Seed系列的最新多模态大模型，在超过3T多模态数据tokens上预训练，不仅大幅提升了通用多模态理解与推理能力，还显著降低了推理成本，在60项公开基准测试中38项达到SOTA（业界最优）水平。

模型架构

Seed1.5-VL由三个核心组件构成：

SeedViT视觉编码器（532M参数）

- 用于编码图像和视频 - 支持任意宽高比的输入处理 - 零样本视觉识别平均得分82.5，与InternVL-C-6B相当，但仅用其1/10的总参数

MLP适配器

- 将视觉特征投影到多模态表示空间 - 实现视觉与语言模态的无缝融合

Seed1.5-LLM（MoE架构，20B激活参数）

- 处理多模态输入的语言模型 - 基于Doubao-1.5-pro的MoE架构 - 兼顾性能与推理效率

尽管仅有20B激活参数，Seed1.5-VL在视觉推理、图像问答、图表理解与问答、视觉定位/计数、视频理解、GUI智能体等任务中表现出色，其精简的架构设计大幅降低了推理成本和计算需求，非常适合交互式应用。

性能表现

图像理解：全面领先

在图像理解方面，团队对标准"非思考"模式和增强"思考"模式都进行了一系列测试，涵盖多模态推理、通用视觉问答、文档理解、语义锚定、空间推理等能力。

Seed1.5-VL在大多数图像理解基准上都取得了最高分数或第二高分，整体表现与Gemini 2.5 Pro相当。

视频理解：19项基准中14项SOTA

视频理解评测覆盖五个维度：

短视频
长视频
流式视频
视频推理
视频时序定位

在19个相关基准测试中，Seed1.5-VL取得了14项SOTA的优异成绩，展示了强大的视频理解能力。

GUI智能体：7项任务中3项SOTA

在以智能体为中心的任务（如GUI控制和游戏）中，Seed1.5-VL在7项GUI智能体任务中取得了3项SOTA。

特别值得注意的是，在GUI控制和游戏等以智能体为中心的任务中，Seed1.5-VL的表现超过了包括OpenAI CUA和Claude 3.7在内的领先多模态系统。

核心亮点与应用

1. 视觉定位能力

支持多目标、小目标和通用目标的定位，同时支持边界框和点定位两种方式。能够处理复杂场景下的精确定位需求。

2. 图表理解与问答

Seed1.5-VL在ChartQAPro等图表理解基准上达到顶尖模型水准，能够处理复杂版式混排的原始材料，从非结构化信息中提取关键数据。

3. 长视频理解

Seed1.5-VL可以高效准确地处理小时级别的长视频。视频工具VideoCut进一步提高了长视频处理的时长范围，并提升了推理精度。在视频长、信息杂的企业真实部署场景中，可帮助快速捕捉视频关键信息，准确地输出用于下游决策的结论。

4. 实时流式视频问答

在多个流式实时问答视频基准测试中表现优异，能作为AI助手完成实时视频流分析、环境感知、主动纠错与情感陪伴，实现从被动问答到主动指导的交互升级，可应用于健身、穿搭等陪伴场景。

5. GUI Agent能力

Seed1.5-VL不仅能够理解屏幕内容，还能执行复杂的计算机操作任务。在网页浏览、软件操作、游戏通关等场景中展现出强大的智能体能力。

数据构建与训练方法

Seed1.5-VL的成功离不开高质量的训练数据和科学的训练方法：

预训练数据量：超过3T多模态数据tokens
数据多样性：涵盖图像、视频、图表、文档、GUI界面等多种视觉类型
训练策略：采用多阶段训练，逐步提升模型的多模态能力
推理优化：基于MoE架构的高效推理，确保交互体验

结语

Seed1.5-VL的发布标志着字节跳动在多模态大模型领域达到了业界领先水平。用20B激活参数实现60项基准中38项SOTA的成绩，再次印证了Seed团队在模型效率上的深厚功力。

从纯文本到图文理解，再到视频理解和GUI智能体，Seed1.5-VL为豆包的多模态能力奠定了坚实基础。在此后的版本迭代中，多模态能力将继续深化，与Agent能力深度融合，向着真正的全模态通用人工智能稳步迈进。

技术报告地址：https://arxiv.org/abs/2505.07062 项目主页：https://seed.bytedance.com/tech/seed1_5_vl