AI大模型
豆包大模型家族首款全模态理解模型:字节跳动 Doubao-Seed-2.0-lite 升级
据字节跳动旗下火山引擎官方消息,今天,Doubao-Seed-2.0-lite 升级新版本,这是豆包大模型家族首款全模态理解模型,支持视频、图像、音频、文本原生统一理解,Agent、Coding 与 GUI 能力同步升级。在同等算力成本下,是企业大规模、批量化部署全模态推理任务的更优性价比选择。
Doubao-Seed-2.0-lite 全新版本已在火山方舟上线。
IT人网附官方详细介绍如下:
全模态理解:
不止看懂图文,更能听懂世界
新版本的 Doubao-Seed-2.0-lite 继续在视觉理解能力上大幅提升,在物理(HiPhO)、医疗(MedXpertQA)等高阶学科推理上,表现大幅超越 2 月发布的 Doubao-Seed-2.0-pro。在细粒度感知(BabyVision、WorldVQA)与具身理解(ERQA)等关键领域达到 SOTA 水平,更适合企业在高价值场景规模化部署。

融入语音理解后,新版本的 Doubao-Seed-2.0-lite 可同时理解多种输入模态,并完成跨模态联合推理,直接处理必须“音画结合”才能判断的复杂业务需求。
在视频理解场景下,模型能够联合分析视频中的画面与音频信息,精准辨析视频中的视听一致性,判断“看到的”与“听到的”是否一致。
同时支持根据自然语言指令,在视频中精准定位特定事件发生的时间点;更能跨越多个时间段提取关键线索,持续追踪人物与事件发展,并基于画面进行多步逻辑推理,还原事件关系与行为脉络。

在音频上,模型支持 19 个语种的精准语音转写、中英文与其他 14 个语种互译,还能深度捕捉语音中的情绪变化、环境背景声与音乐细节,输出更完整、更接近人类认知的语义信息。根据公开评测集,Doubao-Seed-2.0-lite 在语音识别、翻译等多项音频理解基准上优于 Gemini-3.1-Pro。

Agent 和 Coding 能力升级:
长任务更稳定,胜任前后端深度开发
Doubao-Seed-2.0-lite 对多轮、多步、多约束的用户指令遵循度显著提升;继续增强任务反思推理与多 Agent 协同调度能力,让 Agent 在长程任务中自我拆解、自我校验,不偏题、不遗漏。
Doubao-Seed-2.0-lite 深度适配 OpenClaw、Hermes Agent 等框架,强化深度搜索与 Skill 动态调用,可边执行、边沉淀经验,越用越聪明。
模型的 Coding 能力全面覆盖前端页面、3D 场景与游戏开发,交付产物在视觉美观度与工程完整度上进一步提升,胜任从原型到上线的前后端深度开发。
相关阅读
-
金蝶徐少春AI转型是生死战五年内力求卓越成果
3月18日下午消息,金蝶召开2025全面业绩报告发布会。会上,金蝶公布了2025年核心经营数据:集团全年总收入70.1亿元,其中云服务收入57.8亿元,云订阅收入35.6亿元,归母净利润0.93亿元,经调整
-
全球首创国星宇航利用 OpenClaw 实现太空算力养虾实验操控地面机器人
今天早间,据《科创板日报》独家获悉,近日,基于开源智能体“龙虾”OpenClaw,国星宇航-上海交通大学太空计算联合实验室完成一项技术试验:通过自然语言指令远程调用太空算力,实现对地
-
斯威夫特申请声音与视觉商标以防止AI滥用其形象
英国卫报昨日(4月27日)发布博文,报道称美国创作歌手泰勒·斯威夫特(TaylorSwift)旗下公司为应对AI滥用风险,已提交3项商标申请,涵盖其声音短语及舞台形象。斯威夫特旗下公司TASRightsM
-
阿里 Qwen 3.6-Max 预览版新一代家族旗舰模型发布
4月20日(今天)下午,阿里宣布Qwen3.6-Max-Preview正式发布。据介绍,该模型是Qwen系列新一代旗舰模型的早期预览版,用户可以在QwenStudio进行交互对话,并且即将通过阿里云百炼API以qwen3.


