2024年12月,火山引擎召开FORCE原动力大会冬季版,宣布豆包大模型家族迎来全面升级。此次升级覆盖通用语言模型、视觉理解模型、3D生成模型等多个方向,同时官宣豆包视频生成模型将于2025年1月正式对外开放服务,标志着豆包向着全模态AI的目标迈出重要一步。
通用模型Pro:任务处理能力提升32%
此次大会发布的豆包通用模型Pro版本,相比5月发布的版本,在任务处理能力上提升了32%。
升级重点包括:
- 指令遵循能力增强:更准确地理解复杂指令,支持多约束、多步骤的任务要求
- 推理能力提升:在数学、逻辑、代码等推理类任务上表现显著进步
- 知识更新:训练数据截止时间大幅后移,知识新鲜度提升
- 中文优化:针对中文语境的理解和表达进一步优化
模型能力的持续提升,为豆包在企业级场景的应用提供了更坚实的基础。
视觉理解模型:价格仅为行业平均15%
大会还发布了全新升级的豆包视觉理解模型,并以极具竞争力的价格推向市场:
- 定价:0.003元/千Tokens
- 比行业平均价格低85%
该视觉模型具备以下能力:
- 图像理解:支持图片描述、OCR识别、图表分析等
- 多模态对话:图文混合输入,实现跨模态的智能对话
- 场景适配:针对电商、教育、办公等场景做了专项优化
视觉理解能力的开放,使得企业可以更低成本地构建多模态AI应用。
3D生成模型:一分钟生成高保真3D资产
大会现场演示了豆包的3D生成模型,该模型能够在一分钟内生成高保真的3D资产。
3D生成能力的应用场景包括:
- 游戏开发:快速生成游戏道具、场景、角色
- 电商展示:将商品图片转换为3D模型,实现360度展示
- 建筑设计:快速生成建筑3D模型和效果图
- AR/VR内容:为虚拟现实和增强现实应用提供内容
这一能力展示了字节跳动在多模态生成领域的技术储备。
视频生成模型:2025年1月开放
大会最受关注的消息之一是:豆包视频生成模型将于2025年1月正式对外开放服务。
虽然此次大会没有公布视频模型的详细参数,但从现场展示的Demo来看,豆包视频生成模型已经具备:
- 文生视频:通过文字描述生成视频内容
- 图生视频:将静态图片转化为动态视频
- 一定的时长和清晰度:满足基础的内容创作需求
视频生成被视为大模型下一个重要的技术制高点。豆包视频模型的即将开放,意味着字节跳动将正式加入AI视频生成的竞争赛道。
用户规模持续增长
大会还披露了豆包的最新用户数据:
- 截至2024年9月,豆包成为中国首个下载量突破1亿的AI大模型应用
- 截至2024年11月,月活跃用户约6000万,稳居中国AI聊天应用首位
用户规模的快速增长,为模型的持续迭代提供了丰富的真实场景数据和反馈。
结语
2024年冬季FORCE大会是豆包多模态能力布局的重要宣示。从纯文本对话,到视觉理解,再到3D生成和即将到来的视频生成,豆包正在一步步构建全模态的AI能力体系。
进入2025年后,豆包将迎来更加密集的技术突破和产品迭代——MoE架构、深度思考、多模态融合、Agent能力……一个更加全面和强大的AI助手正在加速成型。