5 月 6 日消息,据字节跳动旗下火山引擎官方消息,今天,Doubao-Seed-2.0-lite 升级新版本,这是豆包大模型家族首款全模态理解模型,支持视频、图像、音频、文本原生统一理解,Agent、Coding 与 GUI 能力同步升级。在同等算力成本下,是企业大规模、批量化部署全模态推理任务的更优性价比选择。
Doubao-Seed-2.0-lite 全新版本已在火山方舟上线。
附官方详细介绍如下:
全模态理解:
不止看懂图文,更能听懂世界
新版本的 Doubao-Seed-2.0-lite 继续在视觉理解能力上大幅提升,在物理(HiPhO)、医疗(MedXpertQA)等高阶学科推理上,表现大幅超越 2 月发布的 Doubao-Seed-2.0-pro。在细粒度感知(BabyVision、WorldVQA)与具身理解(ERQA)等关键领域达到 SOTA 水平,更适合企业在高价值场景规模化部署。
融入语音理解后,新版本的 Doubao-Seed-2.0-lite 可同时理解多种输入模态,并完成跨模态联合推理,直接处理必须“音画结合”才能判断的复杂业务需求。
在视频理解场景下,模型能够联合分析视频中的画面与音频信息,精准辨析视频中的视听一致性,判断“看到的”与“听到的”是否一致。
同时支持根据自然语言指令,在视频中精准定位特定事件发生的时间点;更能跨越多个时间段提取关键线索,持续追踪人物与事件发展,并基于画面进行多步逻辑推理,还原事件关系与行为脉络。
在音频上,模型支持 19 个语种的精准语音转写、中英文与其他 14 个语种互译,还能深度捕捉语音中的情绪变化、环境背景声与音乐细节,输出更完整、更接近人类认知的语义信息。根据公开评测集,Doubao-Seed-2.0-lite 在语音识别、翻译等多项音频理解基准上优于 Gemini-3.1-Pro。
Agent 和 Coding 能力升级:
长任务更稳定,胜任前后端深度开发
Doubao-Seed-2.0-lite 对多轮、多步、多约束的用户指令遵循度显著提升;继续增强任务反思推理与多 Agent 协同调度能力,让 Agent 在长程任务中自我拆解、自我校验,不偏题、不遗漏。
Doubao-Seed-2.0-lite 深度适配 OpenClaw、Hermes Agent 等框架,强化深度搜索与 Skill 动态调用,可边执行、边沉淀经验,越用越聪明。
模型的 Coding 能力全面覆盖前端页面、3D 场景与游戏开发,交付产物在视觉美观度与工程完整度上进一步提升,胜任从原型到上线的前后端深度开发。
GUI 能力融合:
界面理解与操作执行一体化
基于升级的 GUI 能力,Doubao-Seed-2.0-lite 将“看懂界面”与“动手操作”打通为一条闭环:既能精准识别按钮、菜单、表单、弹窗等界面元素及其状态,也能稳定完成点击、输入、右键、滚动、拖拽等 Browser Use 与 Computer Use 操作。
从读懂一张网页,到跨应用、跨窗口连续执行一整套业务流程,让 Agent 真正具备“端到端把活干完”的交付力。
新版本模型正在解锁更多新场景
全模态理解结合持续增强的 Agent、Coding 和 GUI 能力,可以帮助各领域企业用户解锁更多商业化应用场景。
以电竞游戏场景为例,在下面的 AI 电竞教练比赛例子中,模型联合分析比赛画面与语音指挥,围绕准星、身法、道具、经济、对枪、声音反应等游戏中的多维信息做切片点评;基于视频深度解构能力,跨越整场比赛的多个回合追踪同一选手的走位与决策轨迹,赛后生成高光 / 失误图谱与时间轴复盘。
依托 Agent Harness 框架,模型可连续执行跨越 25 小时的长程任务,像真人教练一样精准指出玩家的提升建议。
此外,AI 电竞教练的整套交互界面也由 Doubao-Seed-2.0-lite 模型直接生成 —— 从战况图谱到时间轴复盘卡片,排版整洁、层级清晰,视觉美观度与工程完整度均达到可上线的水准。
在在线教育场景中,用户也可以在 ArkClaw 中调用该模型,完成高效协作。模型定时查看英语课堂教学录像,识别视频中老师和学生的教学和学习状态、口语发音与情绪变化,发送给班主任和教学组长;随后调用模型 Coding 能力,还能自动生成包括课堂亮点、学生表现高光时刻等可视化课堂表现报告,发送给学生家长。
在海外电商运营场景中,在 Hermes Agent 中,基于模型出色的 GUI 能力,自主打开浏览器,在海外电商平台上搜索英、法、西、德等多语言的口红爆款视频,一键下载至本地,拆解口播、 BGM、分镜与文案要素,并回写 Skill 库;随后调用视频生成能力,生成适用于海外推广的多语言版视频,并自动登录电商平台发布,执行过程不断进化 Skills。
此外,Doubao-Seed-2.0-mini 全新版也已同步上线,同样支持全模态理解,对比上一版本,思考长度大幅缩短,Tokens 效率更高。



还木有评论哦,快来抢沙发吧~