豆包模型家族全面升级,视频生成即将开放

2024年12月,火山引擎召开FORCE原动力大会冬季版,宣布豆包大模型家族迎来全面升级。此次升级覆盖通用语言模型、视觉理解模型、3D生成模型等多个方向,同时官宣豆包视频生成模型将于2025年1月正式对外开放服务,标志着豆包向着全模态AI的目标迈出重要一步。

通用模型Pro:任务处理能力提升32%

此次大会发布的豆包通用模型Pro版本,相比5月发布的版本,在任务处理能力上提升了32%

升级重点包括:

  • 指令遵循能力增强:更准确地理解复杂指令,支持多约束、多步骤的任务要求
  • 推理能力提升:在数学、逻辑、代码等推理类任务上表现显著进步
  • 知识更新:训练数据截止时间大幅后移,知识新鲜度提升
  • 中文优化:针对中文语境的理解和表达进一步优化

模型能力的持续提升,为豆包在企业级场景的应用提供了更坚实的基础。

视觉理解模型:价格仅为行业平均15%

大会还发布了全新升级的豆包视觉理解模型,并以极具竞争力的价格推向市场:

  • 定价:0.003元/千Tokens
  • 比行业平均价格低85%

该视觉模型具备以下能力:

  • 图像理解:支持图片描述、OCR识别、图表分析等
  • 多模态对话:图文混合输入,实现跨模态的智能对话
  • 场景适配:针对电商、教育、办公等场景做了专项优化

视觉理解能力的开放,使得企业可以更低成本地构建多模态AI应用。

3D生成模型:一分钟生成高保真3D资产

大会现场演示了豆包的3D生成模型,该模型能够在一分钟内生成高保真的3D资产。

3D生成能力的应用场景包括:

  • 游戏开发:快速生成游戏道具、场景、角色
  • 电商展示:将商品图片转换为3D模型,实现360度展示
  • 建筑设计:快速生成建筑3D模型和效果图
  • AR/VR内容:为虚拟现实和增强现实应用提供内容

这一能力展示了字节跳动在多模态生成领域的技术储备。

视频生成模型:2025年1月开放

大会最受关注的消息之一是:豆包视频生成模型将于2025年1月正式对外开放服务

虽然此次大会没有公布视频模型的详细参数,但从现场展示的Demo来看,豆包视频生成模型已经具备:

  • 文生视频:通过文字描述生成视频内容
  • 图生视频:将静态图片转化为动态视频
  • 一定的时长和清晰度:满足基础的内容创作需求

视频生成被视为大模型下一个重要的技术制高点。豆包视频模型的即将开放,意味着字节跳动将正式加入AI视频生成的竞争赛道。

用户规模持续增长

大会还披露了豆包的最新用户数据:

  • 截至2024年9月,豆包成为中国首个下载量突破1亿的AI大模型应用
  • 截至2024年11月,月活跃用户约6000万,稳居中国AI聊天应用首位

用户规模的快速增长,为模型的持续迭代提供了丰富的真实场景数据和反馈。

结语

2024年冬季FORCE大会是豆包多模态能力布局的重要宣示。从纯文本对话,到视觉理解,再到3D生成和即将到来的视频生成,豆包正在一步步构建全模态的AI能力体系。

进入2025年后,豆包将迎来更加密集的技术突破和产品迭代——MoE架构、深度思考、多模态融合、Agent能力……一个更加全面和强大的AI助手正在加速成型。

ESC

输入关键词开始搜索

支持搜索标题、内容、标签