2025年5月13日,字节跳动Seed团队首次公开发布Seed1.5-VL视觉语言多模态大模型技术报告。该模型是Seed系列的最新多模态大模型,在超过3T多模态数据tokens上预训练,不仅大幅提升了通用多模态理解与推理能力,还显著降低了推理成本,在60项公开基准测试中38项达到SOTA(业界最优)水平。
模型架构
Seed1.5-VL由三个核心组件构成:
- SeedViT视觉编码器(532M参数)
- MLP适配器
- Seed1.5-LLM(MoE架构,20B激活参数)
尽管仅有20B激活参数,Seed1.5-VL在视觉推理、图像问答、图表理解与问答、视觉定位/计数、视频理解、GUI智能体等任务中表现出色,其精简的架构设计大幅降低了推理成本和计算需求,非常适合交互式应用。
性能表现
图像理解:全面领先
在图像理解方面,团队对标准"非思考"模式和增强"思考"模式都进行了一系列测试,涵盖多模态推理、通用视觉问答、文档理解、语义锚定、空间推理等能力。
Seed1.5-VL在大多数图像理解基准上都取得了最高分数或第二高分,整体表现与Gemini 2.5 Pro相当。
视频理解:19项基准中14项SOTA
视频理解评测覆盖五个维度:
- 短视频
- 长视频
- 流式视频
- 视频推理
- 视频时序定位
在19个相关基准测试中,Seed1.5-VL取得了14项SOTA的优异成绩,展示了强大的视频理解能力。
GUI智能体:7项任务中3项SOTA
在以智能体为中心的任务(如GUI控制和游戏)中,Seed1.5-VL在7项GUI智能体任务中取得了3项SOTA。
特别值得注意的是,在GUI控制和游戏等以智能体为中心的任务中,Seed1.5-VL的表现超过了包括OpenAI CUA和Claude 3.7在内的领先多模态系统。
核心亮点与应用
1. 视觉定位能力
支持多目标、小目标和通用目标的定位,同时支持边界框和点定位两种方式。能够处理复杂场景下的精确定位需求。
2. 图表理解与问答
Seed1.5-VL在ChartQAPro等图表理解基准上达到顶尖模型水准,能够处理复杂版式混排的原始材料,从非结构化信息中提取关键数据。
3. 长视频理解
Seed1.5-VL可以高效准确地处理小时级别的长视频。视频工具VideoCut进一步提高了长视频处理的时长范围,并提升了推理精度。在视频长、信息杂的企业真实部署场景中,可帮助快速捕捉视频关键信息,准确地输出用于下游决策的结论。
4. 实时流式视频问答
在多个流式实时问答视频基准测试中表现优异,能作为AI助手完成实时视频流分析、环境感知、主动纠错与情感陪伴,实现从被动问答到主动指导的交互升级,可应用于健身、穿搭等陪伴场景。
5. GUI Agent能力
Seed1.5-VL不仅能够理解屏幕内容,还能执行复杂的计算机操作任务。在网页浏览、软件操作、游戏通关等场景中展现出强大的智能体能力。
数据构建与训练方法
Seed1.5-VL的成功离不开高质量的训练数据和科学的训练方法:
- 预训练数据量:超过3T多模态数据tokens
- 数据多样性:涵盖图像、视频、图表、文档、GUI界面等多种视觉类型
- 训练策略:采用多阶段训练,逐步提升模型的多模态能力
- 推理优化:基于MoE架构的高效推理,确保交互体验
结语
Seed1.5-VL的发布标志着字节跳动在多模态大模型领域达到了业界领先水平。用20B激活参数实现60项基准中38项SOTA的成绩,再次印证了Seed团队在模型效率上的深厚功力。
从纯文本到图文理解,再到视频理解和GUI智能体,Seed1.5-VL为豆包的多模态能力奠定了坚实基础。在此后的版本迭代中,多模态能力将继续深化,与Agent能力深度融合,向着真正的全模态通用人工智能稳步迈进。
技术报告地址:https://arxiv.org/abs/2505.07062 项目主页:https://seed.bytedance.com/tech/seed1_5_vl