豆包大模型家族首款全模态理解模型：字节跳动 Doubao-Seed-2.0-lite 升级

买玉网 2026年05月07日 16:12:28 17 0

5 月 6 日消息，据字节跳动旗下火山引擎官方消息，今天，Doubao-Seed-2.0-lite 升级新版本，这是豆包大模型家族首款全模态理解模型，支持视频、图像、音频、文本原生统一理解，Agent、Coding 与 GUI 能力同步升级。在同等算力成本下，是企业大规模、批量化部署全模态推理任务的更优性价比选择。

Doubao-Seed-2.0-lite 全新版本已在火山方舟上线。

附官方详细介绍如下：

全模态理解：

不止看懂图文，更能听懂世界

新版本的 Doubao-Seed-2.0-lite 继续在视觉理解能力上大幅提升，在物理（HiPhO）、医疗（MedXpertQA）等高阶学科推理上，表现大幅超越 2 月发布的 Doubao-Seed-2.0-pro。在细粒度感知（BabyVision、WorldVQA）与具身理解（ERQA）等关键领域达到 SOTA 水平，更适合企业在高价值场景规模化部署。

加粗表示最优结果，下划线表示次优结果，下同

融入语音理解后，新版本的 Doubao-Seed-2.0-lite 可同时理解多种输入模态，并完成跨模态联合推理，直接处理必须“音画结合”才能判断的复杂业务需求。

在视频理解场景下，模型能够联合分析视频中的画面与音频信息，精准辨析视频中的视听一致性，判断“看到的”与“听到的”是否一致。

同时支持根据自然语言指令，在视频中精准定位特定事件发生的时间点；更能跨越多个时间段提取关键线索，持续追踪人物与事件发展，并基于画面进行多步逻辑推理，还原事件关系与行为脉络。

OmniVideoBench&WorldSense

结果基于 Gemini-3.1-Pro 测得

在音频上，模型支持 19 个语种的精准语音转写、中英文与其他 14 个语种互译，还能深度捕捉语音中的情绪变化、环境背景声与音乐细节，输出更完整、更接近人类认知的语义信息。根据公开评测集，Doubao-Seed-2.0-lite 在语音识别、翻译等多项音频理解基准上优于 Gemini-3.1-Pro。

↑ 表示数值越高越优，↓ 表示数值越低越优

Agent 和 Coding 能力升级：

长任务更稳定，胜任前后端深度开发

Doubao-Seed-2.0-lite 对多轮、多步、多约束的用户指令遵循度显著提升；继续增强任务反思推理与多 Agent 协同调度能力，让 Agent 在长程任务中自我拆解、自我校验，不偏题、不遗漏。

Doubao-Seed-2.0-lite 深度适配 OpenClaw、Hermes Agent 等框架，强化深度搜索与 Skill 动态调用，可边执行、边沉淀经验，越用越聪明。

模型的 Coding 能力全面覆盖前端页面、3D 场景与游戏开发，交付产物在视觉美观度与工程完整度上进一步提升，胜任从原型到上线的前后端深度开发。

GUI 能力融合：

界面理解与操作执行一体化

基于升级的 GUI 能力，Doubao-Seed-2.0-lite 将“看懂界面”与“动手操作”打通为一条闭环：既能精准识别按钮、菜单、表单、弹窗等界面元素及其状态，也能稳定完成点击、输入、右键、滚动、拖拽等 Browser Use 与 Computer Use 操作。

从读懂一张网页，到跨应用、跨窗口连续执行一整套业务流程，让 Agent 真正具备“端到端把活干完”的交付力。

Gemini-3.1-pro 结果由本地复现获取，其他模型评测数据来源于官方技术报告与基准榜单

新版本模型正在解锁更多新场景

全模态理解结合持续增强的 Agent、Coding 和 GUI 能力，可以帮助各领域企业用户解锁更多商业化应用场景。

以电竞游戏场景为例，在下面的 AI 电竞教练比赛例子中，模型联合分析比赛画面与语音指挥，围绕准星、身法、道具、经济、对枪、声音反应等游戏中的多维信息做切片点评；基于视频深度解构能力，跨越整场比赛的多个回合追踪同一选手的走位与决策轨迹，赛后生成高光 / 失误图谱与时间轴复盘。

依托 Agent Harness 框架，模型可连续执行跨越 25 小时的长程任务，像真人教练一样精准指出玩家的提升建议。

此外，AI 电竞教练的整套交互界面也由 Doubao-Seed-2.0-lite 模型直接生成 —— 从战况图谱到时间轴复盘卡片，排版整洁、层级清晰，视觉美观度与工程完整度均达到可上线的水准。

在在线教育场景中，用户也可以在 ArkClaw 中调用该模型，完成高效协作。模型定时查看英语课堂教学录像，识别视频中老师和学生的教学和学习状态、口语发音与情绪变化，发送给班主任和教学组长；随后调用模型 Coding 能力，还能自动生成包括课堂亮点、学生表现高光时刻等可视化课堂表现报告，发送给学生家长。

在海外电商运营场景中，在 Hermes Agent 中，基于模型出色的 GUI 能力，自主打开浏览器，在海外电商平台上搜索英、法、西、德等多语言的口红爆款视频，一键下载至本地，拆解口播、 BGM、分镜与文案要素，并回写 Skill 库；随后调用视频生成能力，生成适用于海外推广的多语言版视频，并自动登录电商平台发布，执行过程不断进化 Skills。

此外，Doubao-Seed-2.0-mini 全新版也已同步上线，同样支持全模态理解，对比上一版本，思考长度大幅缩短，Tokens 效率更高。