Seed1.8 通用 Agent 大模型:高效精准完成真实场景复杂工作

2025年12月18日,字节跳动 Seed 团队推出最新通用 Agent 模型 Seed1.8。它支持文字与图片输入,凭借其强大的多模态处理能力,在信息检索、代码编写、图形用户界面(GUI)交互等复杂应用场景中展现出优秀的性能。

概述

Seed1.8 是字节跳动 Seed 团队推出的最新通用 Agent 大模型,可高效、精准完成真实场景中的复杂工作。模型支持多模态输入,具备业界领先的 Agent 执行能力,在搜索、编程、GUI 交互等高价值工作流中表现突出。

评测结果

为了更全面地评估 Seed1.8 的能力,团队基于内部自建评测集与外部公开基准,对模型进行了 Agent、LLM 以及 VLM 能力的综合测评。

Agent 能力评测

Seed1.8 在多项 Agent 基准测试中展现出突出的性能与广泛的适用性:

  • GUI Agent 能力业界领先:在 Seed1.5-VL 基础上进一步提升,具备业界领先的图形界面智能体能力。
  • 搜索任务第一梯队:在多组公开 Agent 搜索评测基准中保持业界第一梯队水平,在 BrowseComp-en 基准测试中得分高达 67.6,超过 Gemini-3-Pro 等其他顶级模型。
  • 智能编程稳定可靠:在智能编程相关基准测试中,展现出面向真实软件工程场景的稳定能力。
  • 经济价值场景突出:在经济价值领域相关基准中,Seed1.8 展现出在现实世界高价值工作流中的能力。

LLM 能力评测

Seed1.8 在多组公开的大语言模型基准测试中保持了稳定且有竞争力的表现,处于业界第一梯队水平。在数学、推理、复杂指令遵循和知识理解等核心能力维度上,其整体水平已接近当前主流的通用模型。同时,它也在信息处理、意图识别、信息提取、复杂工作流等领域保持良好竞争力。

VLM 能力评测

Seed1.8 在图像视觉理解任务中展现出较好的性能。在多模态推理任务中,Seed1.8 超越了前代模型 Seed1.5-VL,在大部分任务中接近目前最先进的 Gemini-3-Pro。

在视频理解领域,Seed1.8 表现出色,尤其在视频推理、运动与感知、长视频理解等任务中,展现出了较强的适应性。

示例展示

视频流实时交互

模型在视频流场景下直观展现了实时交互的能力。在用户操作过程中,模型以 1 FPS 的频率感知视频流,既能结合实时视觉内容,对用户的提问与指令做出即时响应,又能主动监测画面中的物体与动作,发起聊天或提醒。同时,模型的回复过程完全不阻塞视觉信号输入,可实现边感知边反馈的持续监控。

视频工具调用

在篮球比赛分析案例中,模型需要分析球员在球赛中的动作,总结进攻阶段的脚步技巧。Seed1.8 模型首先精准定位了进攻时刻,由于视频中球员动作速度较快,常规的视频采样无法满足脚步技巧细节的捕捉,Seed1.8 利用视频工具(VideoCut)提高了相应片段的帧率并进行回放,在仔细观看片段后,给出准确的技巧总结。

橙色6号球衣的球员在进攻时使用的脚步技巧包括:

  • 试探步:多次通过胯下运球衔接试探步,观察防守人重心变化后选择投篮或突破。
  • 顺步突破:以同侧脚快速蹬地,顺防守人防线空隙突破上篮。
  • 转身脚步:背身单打时通过转身(背身转面框)摆脱防守,衔接跳投或上篮。
  • 交叉步突破:异侧脚交叉变向,快速过掉防守人完成终结。

常规视频任务

在 54 分钟足球比赛视频高光提取任务中,Seed1.8 模型从比赛中提取了 5 个进球的精彩瞬间,并给出了片段起止时间以及选取理由,展现了其可靠的长视频理解能力、精准的时序定位能力。

ESC

输入关键词开始搜索

支持搜索标题、内容、标签