Seed1.8 通用 Agent 大模型：高效精准完成真实场景复杂工作 - 豆包

2025年12月18日，字节跳动 Seed 团队推出最新通用 Agent 模型 Seed1.8。它支持文字与图片输入，凭借其强大的多模态处理能力，在信息检索、代码编写、图形用户界面（GUI）交互等复杂应用场景中展现出优秀的性能。

概述

Seed1.8 是字节跳动 Seed 团队推出的最新通用 Agent 大模型，可高效、精准完成真实场景中的复杂工作。模型支持多模态输入，具备业界领先的 Agent 执行能力，在搜索、编程、GUI 交互等高价值工作流中表现突出。

评测结果

为了更全面地评估 Seed1.8 的能力，团队基于内部自建评测集与外部公开基准，对模型进行了 Agent、LLM 以及 VLM 能力的综合测评。

Agent 能力评测

Seed1.8 在多项 Agent 基准测试中展现出突出的性能与广泛的适用性：

GUI Agent 能力业界领先：在 Seed1.5-VL 基础上进一步提升，具备业界领先的图形界面智能体能力。
搜索任务第一梯队：在多组公开 Agent 搜索评测基准中保持业界第一梯队水平，在 BrowseComp-en 基准测试中得分高达 67.6，超过 Gemini-3-Pro 等其他顶级模型。
智能编程稳定可靠：在智能编程相关基准测试中，展现出面向真实软件工程场景的稳定能力。
经济价值场景突出：在经济价值领域相关基准中，Seed1.8 展现出在现实世界高价值工作流中的能力。

LLM 能力评测

Seed1.8 在多组公开的大语言模型基准测试中保持了稳定且有竞争力的表现，处于业界第一梯队水平。在数学、推理、复杂指令遵循和知识理解等核心能力维度上，其整体水平已接近当前主流的通用模型。同时，它也在信息处理、意图识别、信息提取、复杂工作流等领域保持良好竞争力。

VLM 能力评测

Seed1.8 在图像视觉理解任务中展现出较好的性能。在多模态推理任务中，Seed1.8 超越了前代模型 Seed1.5-VL，在大部分任务中接近目前最先进的 Gemini-3-Pro。

在视频理解领域，Seed1.8 表现出色，尤其在视频推理、运动与感知、长视频理解等任务中，展现出了较强的适应性。

示例展示

视频流实时交互

模型在视频流场景下直观展现了实时交互的能力。在用户操作过程中，模型以 1 FPS 的频率感知视频流，既能结合实时视觉内容，对用户的提问与指令做出即时响应，又能主动监测画面中的物体与动作，发起聊天或提醒。同时，模型的回复过程完全不阻塞视觉信号输入，可实现边感知边反馈的持续监控。

视频工具调用

在篮球比赛分析案例中，模型需要分析球员在球赛中的动作，总结进攻阶段的脚步技巧。Seed1.8 模型首先精准定位了进攻时刻，由于视频中球员动作速度较快，常规的视频采样无法满足脚步技巧细节的捕捉，Seed1.8 利用视频工具（VideoCut）提高了相应片段的帧率并进行回放，在仔细观看片段后，给出准确的技巧总结。

橙色6号球衣的球员在进攻时使用的脚步技巧包括：

试探步：多次通过胯下运球衔接试探步，观察防守人重心变化后选择投篮或突破。
顺步突破：以同侧脚快速蹬地，顺防守人防线空隙突破上篮。
转身脚步：背身单打时通过转身（背身转面框）摆脱防守，衔接跳投或上篮。
交叉步突破：异侧脚交叉变向，快速过掉防守人完成终结。

常规视频任务

在 54 分钟足球比赛视频高光提取任务中，Seed1.8 模型从比赛中提取了 5 个进球的精彩瞬间，并给出了片段起止时间以及选取理由，展现了其可靠的长视频理解能力、精准的时序定位能力。