2025年 12 月 16 日,阿里巴巴正式推出新一代通义万相 2.6 系列模型,该模型在专业影视制作与图像创作领域实现突破性升级,以核心技术创新与性能优化,为行业提供全新技术解决方案,推动 AI 视频创作迈向新高度。
作为国内首个支持角色扮演功能的视频生成模型,通义万相 2.6 融合音画同步、多镜头生成等关键技术,通过多模态联合建模与深度学习,精准捕捉参考视频中主体的时序情绪、姿态及视觉信息,提取音色、语速等声学特征,实现画面与声音的全维度一致性保持与迁移。目前已支持单人、多人及人与物合拍等场景,大幅简化创作流程,丰富创作选择。
性能方面,该模型单次视频生成时长达国内最高 15 秒,为完整叙事提供充足空间;画质与音效进一步优化,画面细节细腻、音画同步自然,人声真实且口型精准,专业质感显著提升;指令遵循能力增强,可精准响应创作需求,降低修改成本。
针对专业影视场景,模型新增分镜控制功能,通过高层语义理解将提示词转化为完整故事线的多镜头段落,确保多镜头切换时主体、场景及氛围的高度一致性,满足专业创作严苛要求。
此外,通义万相 2.6 在图像生成领域表现突出,能精准还原各类艺术风格,细腻刻画画面细节,写实人像效果自然真实,兼顾艺术与实用价值,拓展了 AI 创作应用边界。
目前,用户可通过通义万相官网(https://tongyi.aliyun.com/wan/)查询详情。