Qwen3.5：迈向原生多模态智能体 - 千问

除夕夜的饺子刚端上桌，通义千问 Qwen 团队就为全球开源社区奉上了一份技术厚礼——正式发布 Qwen3.5 系列，并同步开源其首款权重模型：Qwen3.5-397B-A17B。

Qwen3.5-397B-A17B 是一款原生视觉-语言模型（Native Multimodality），在保持 3970 亿总参数规模的同时，通过创新的架构设计实现了仅 170 亿的单次激活参数。这意味着，开发者现在可以用更低的推理成本，获得比肩甚至超越万亿级（1T+）模型的性能体验。

模型资源

Github：https://github.com/QwenLM/Qwen3.5
ModelScope：https://www.modelscope.cn/models/Qwen/Qwen3.5-397B-A17B
blog：https://qwen.ai/blog?id=qwen3.5
Qwenchat体验：https://chat.qwen.ai/

模型核心亮点

对于开发者而言，Qwen3.5-397B-A17B 最直观的冲击力在于其极致的效能比，以 17B 的激活量，挑战 1T 的极限。

稀疏混合专家架构（MoE）的进化： 总参数 397B，但前向传播仅激活 17B。这种超高稀疏度使得它在显存占用与计算延迟之间取得了微妙的平衡。

性能跨代持平： 在预训练阶段，Qwen3.5-397B-A17B 在中英文、多语言、STEM 及逻辑推理等全维度基准测试中，表现与参数量超过 1T 的 Qwen3-Max-Base 旗鼓相当。

多模态原生化： 不同于传统的"外挂"视觉模块，Qwen3.5 实现了早期的文本-视觉深度融合，在视觉理解与视频处理能力上全面超越了同规模的 Qwen3-VL。

多语言支持： 语言与方言支持从 119 种激增至 201 种。配合全新的 25 万词表（此前为 15 万），在大多数语言上的编解码效率提升了 10%–60%，极大地优化了多语言场景下的推理速度。

模型效果实例

具备 agent 能力的 Qwen3.5 能够结合多模态做到边思考、边搜索、边调用工具

Think, search, and create

代码及智能体

网页开发

Qwen3.5 可以协助进行网页开发，尤其在构建网页和设计用户界面等前端任务方面表现出色。它能够将简单的指令转化为可运行的代码，让网站创建变得更加轻松高效。

OpenClaw

Qwen3.5 可与 OpenClaw 集成，驱动编程任务。通过将 OpenClaw 作为第三方智能体环境集成，Qwen3.5 能够进行网页搜索、信息收集和结构化报告生成——它结合自身的推理与工具调用能力，以及 OpenClaw 的接口，为用户带来流畅的编码和研究体验。

完整pdf文档详见官方blog示例： https://qwen.ai/blog?id=qwen3.5#openclaw

视觉智能体

GUI 智能体

Qwen3.5 可作为视觉智能体，自主操作手机与电脑完成日常任务。在移动端，它已适配更多主流应用，支持自然语言指令驱动操作；在 PC 端，能处理跨应用的数据整理、多步骤流程自动化等复杂任务，有效减少重复性人工干预，提升工作效率。

视觉编程

Qwen3.5 能将手绘界面草图转化为结构清晰的前端代码，对简单游戏视频进行逻辑还原，或将长视频内容自动提炼为结构化网页或可视化图表，降低创意到实现的门槛。

空间智能

借助对图像像素级位置信息的建模，Qwen3.5 在物体计数、相对位置判断、空间关系描述等任务中表现更准确。它能有效缓解因视角变化或遮挡导致的误判，在自动驾驶场景理解、机器人导航等具身智能应用中展现出良好的空间感知潜力。

更多带图推理、视觉推理示例详见blog Demo： https://qwen.ai/blog?id=qwen3.5#demo

技术路线

架构创新：Gated DeltaNet 与 MoE 的融合

模型基于 Qwen3-Next 架构，创新性地将线性注意力机制与稀疏混合专家架构相结合。

混合注意力机制： 引入 Gated DeltaNet + Gated Attention，在提升模型长文本建模能力的同时，优化了计算稳定性。

高稀疏度 MoE： 通过提高专家网络的稀疏度，在保证性能的前提下大幅降低了计算冗余。

这种混合架构设计，是其在 BFCL-V4、VITA-Bench、DeepPlanning 等全方位基准评测中表现优异的底层逻辑。

预训练：三维度推进

Qwen 团队从能力、效率与通用性三个维度重构了预训练流程：

能力： 在更大规模的视觉-文本语料上训练，并加强中英文、多语言、STEM 与推理数据，采用更严格的过滤，实现跨代持平：Qwen3.5-397B-A17B 与参数量超过 1T 的 Qwen3-Max-Base 表现相当。

效率： 基于 Qwen3-Next 架构——更高稀疏度的 MoE、Gated DeltaNet + Gated Attention 混合注意力、稳定性优化与多 token 预测。在 32k/256k 上下文长度下，Qwen3.5-397B-A17B 的解码吞吐量分别是 Qwen3-Max 的 8.6 倍/19.0 倍，且性能相当。Qwen3.5-397B-A17B 的解码吞吐量分别是 Qwen3-235B-A22B 的 3.5 倍/7.2 倍。

通用性： 通过早期文本-视觉融合与扩展的视觉/STEM/视频数据实现原生多模态，在相近规模下优于 Qwen3-VL。多语言覆盖从 119 增至 201 种语言/方言；25 万词表（vs. 15 万）在多数语言上带来约 10–60% 的编码/解码效率提升。

后训练：强化学习的 Scaling Law

相比 Qwen3 系列，Qwen3.5 的 Post-training 性能提升主要归功于强化学习（RL）任务和环境的全面扩展。团队不再局限于针对特定指标或狭窄类别的 query 进行优化，而是更加强调 RL 环境的难度与可泛化性。实验证明，随着 RL Environment 的 scaling，模型在通用 Agent 能力上获得了显著增益。这种"授人以渔"的训练策略，使得模型在 Tool-Decathlon、MCP-Mark 等工具调用与规划任务上表现突出。

基础设施

为了支撑如此复杂的原生多模态模型训练，Qwen 团队在基础设施层进行了全栈优化。

异构并行与计算重叠

原生多模态训练最大的痛点在于视觉与语言组件的计算模式差异。Qwen3.5 采用了解耦的并行策略，在混合文本、图像、视频数据时，利用稀疏激活技术实现了跨模块的计算重叠。这一优化使得多模态训练的吞吐量几乎等同于纯文本基线，达到了近 100% 的硬件利用率。

异步强化学习框架

针对大尺寸模型的 RL 训练，团队构建了可扩展的异步框架：

训推分离架构：通过解耦设计，支持百万级规模的 Agent 环境交互，显著提升硬件利用率。
技术组合拳：引入投机采样（Speculative Sampling）、Rollout 路由回放和多轮 Rollout 锁定技术，将端到端训练速度提升了 3x–5x。

这种设计不仅消除了框架层的调度中断，更通过算法与系统的协同设计，有效缓解了 RL 训练中的数据长尾问题，提高了训练曲线的平滑度。

模型部署实践

SGLang

Qwen3.5 需要使用开源仓库主分支中的 SGLang，可在全新环境中通过以下命令安装：

uv pip install 'git+https://github.com/sgl-project/sglang.git#subdirectory=python&egg=sglang[all]'

以下命令将在 http://localhost:8000/v1 创建 API 端点：

标准版：以下命令可使用 8 块 GPU 上的张量并行创建最大上下文长度为 262,144 tokens 的 API 端点。

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3.5-397B-A17B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3

工具调用：若需支持工具调用，可使用以下命令。

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3.5-397B-A17B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --tool-call-parser qwen3_coder

多 Token 预测（MTP）：推荐使用以下命令启用 MTP：

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3.5-397B-A17B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4

vLLM

Qwen3.5 需要使用开源仓库主分支中的 vLLM，可在全新环境中通过以下命令安装：

uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

以下命令将在 http://localhost:8000/v1 创建 API 端点：

标准版本： 以下命令可用于在 8 块 GPU 上使用张量并行（tensor parallel）创建一个最大上下文长度为 262,144 个 token 的 API 端点。

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-397B-A17B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3

工具调用（Tool Call）： 若需支持工具使用，可使用以下命令。

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-397B-A17B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder

多 Token 预测（MTP）： 推荐使用以下命令启用 MTP：

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-397B-A17B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

纯文本模式（Text-Only）： 以下命令会跳过视觉编码器和多模态分析，以释放内存用于额外的 KV 缓存：

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-397B-A17B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --language-model-only

ModelScope API-Inference

ModelScope API-Inference已第一时间接入了 Qwen3.5-397B-A17B 的调用，社区提供免费调用额度，欢迎体验。

调用示例代码：

python
from openai import OpenAI
client = OpenAI(
 base_url='https://api-inference.modelscope.cn/v1',
 api_key='', # ModelScope Token
)
response = client.chat.completions.create(
 model='Qwen/Qwen3.5-397B-A17B', # ModelScope Model-Id, required
 messages=[{
 'role':
 'user',
 'content': [{
 'type': 'text',
 'text': '描述这幅图',
 }, {
 'type': 'image_url',
 'image_url': {
 'url':
 'https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/audrey_hepburn.jpg',
 },
 }],
 }],
 stream=True
)
for chunk in response:
 if chunk.choices:
 print(chunk.choices[0].delta.content, end='', flush=True)

本次 Qwen3.5-397B-A17B 的推出：

突破了超大规模模型的推理成本难题： 通过 17B 的激活参数实现 1T 的性能，Qwen3.5 证明了架构优化比单纯堆砌参数更有前景。它让中型开发者团队也有机会在本地或私有云上部署顶级性能的多模态模型。

开启了原生多模态的普及化： 早期融合的架构让模型在处理图文混合任务时不再有"割裂感"，为构建下一代视觉助手、多模态 Agent 提供了最坚实的底座。

展现了强化学习的工程化典范： Qwen 团队展示了如何通过构建可扩展的 RL 环境来提升模型的逻辑上限，这为社区探索 O1 之外的推理提升路径提供了宝贵的经验。

点击即可跳转模型链接：https://www.modelscope.cn/models/Qwen/Qwen3.5-397B-A17B