豆包Seed2.0Lite迎来升级，作为首款全模态理解模型，实现了能看懂、能听懂的能力

发布时间：2026-05-11 11:53:03

今日，火山引擎发布消息称，Doubao-Seed-2.0-lite已完成版本升级，该模型是豆包大模型家族中首款具备全模态理解能力的产品。

据介绍，Doubao-Seed-2.0-lite新版本可对视频、图像、音频、文本进行原生统一理解，同时Agent、Coding与GUI能力也得到同步升级，能进一步面向复杂业务场景强化多模态推理能力。

在视觉理解领域，Doubao-Seed-2.0-lite持续实现显著提升，在物理HiPhO、医疗MedXpertQA等高级学科推理任务中，该新版本的表现已远超今年2月推出的Doubao-Seed-2.0-pro。

同时，该模型在细粒度感知领域的BabyVision、WorldVQA，以及具身理解领域的ERQA等关键任务上均取得了SOTA（State-of-the-Art）水平的表现，更能满足企业在高价值场景中规模化部署的需求。

此次升级的核心亮点在于集成语音理解功能，新版本能够同时识别多种输入形式，并实现跨模态协同推理，可直接应对那些需要“音画结合”才能准确判断的复杂业务场景。

比如在视频理解的应用场景中，Doubao-Seed-2.0-lite能够对视频画面与音频信息展开联合分析，从而精准识别视频里的视听一致性情况，即判断“视觉呈现内容”与“听觉传递信息”是否相互匹配。

它还能够依据自然语言指令，在视频里精准定位特定事件出现的时间点，并且可以跨越多个时间段提取关键线索，对人物和事件的发展进行持续追踪，基于画面开展多步逻辑推理，还原事件之间的关系以及行为的脉络。

音频能力方面，新模型支持19个语种的精准语音转写，以及中英文与其他14个语种互译。

此外，它还能捕捉语音中的情绪变化、环境背景声与音乐细节，输出更完整、更接近人类认知的语义信息。

根据公开评测集的结果，Doubao-Seed-2.0-lite在语音识别、翻译等多个音频理解相关的基准测试中，表现要优于Gemini-3.1-Pro。

值得一提的是，Doubao-Seed-2.0-lite还与OpenClaw、Hermes Agent等框架进行了深度适配，进一步强化了深度搜索能力与Skill动态调用功能，能够在任务执行过程中不断积累经验，从而实现“越用越聪明”的效果。