今日,火山引擎发布消息称,Doubao-Seed-2.0-lite已完成版本升级,该模型是豆包大模型家族中首款具备全模态理解能力的产品。
据介绍,Doubao-Seed-2.0-lite新版本可对视频、图像、音频、文本进行原生统一理解,同时Agent、Coding与GUI能力也得到同步升级,能进一步面向复杂业务场景强化多模态推理能力。
在视觉理解领域,Doubao-Seed-2.0-lite持续实现显著提升,在物理HiPhO、医疗MedXpertQA等高级学科推理任务中,该新版本的表现已远超今年2月推出的Doubao-Seed-2.0-pro。
同时,该模型在细粒度感知领域的BabyVision、WorldVQA,以及具身理解领域的ERQA等关键任务上均取得了SOTA(State-of-the-Art)水平的表现,更能满足企业在高价值场景中规模化部署的需求。
此次升级的核心亮点在于集成语音理解功能,新版本能够同时识别多种输入形式,并实现跨模态协同推理,可直接应对那些需要“音画结合”才能准确判断的复杂业务场景。
比如在视频理解的应用场景中,Doubao-Seed-2.0-lite能够对视频画面与音频信息展开联合分析,从而精准识别视频里的视听一致性情况,即判断“视觉呈现内容”与“听觉传递信息”是否相互匹配。
它还能够依据自然语言指令,在视频里精准定位特定事件出现的时间点,并且可以跨越多个时间段提取关键线索,对人物和事件的发展进行持续追踪,基于画面开展多步逻辑推理,还原事件之间的关系以及行为的脉络。
音频能力方面,新模型支持19个语种的精准语音转写,以及中英文与其他14个语种互译。
此外,它还能捕捉语音中的情绪变化、环境背景声与音乐细节,输出更完整、更接近人类认知的语义信息。
根据公开评测集的结果,Doubao-Seed-2.0-lite在语音识别、翻译等多个音频理解相关的基准测试中,表现要优于Gemini-3.1-Pro。
值得一提的是,Doubao-Seed-2.0-lite还与OpenClaw、Hermes Agent等框架进行了深度适配,进一步强化了深度搜索能力与Skill动态调用功能,能够在任务执行过程中不断积累经验,从而实现“越用越聪明”的效果。