Wan 2.5：原生音频 AI 视频生成器

同步音效 • 唇音同步 • 动态视觉 • 创作自由

阿里巴巴突破性的 Wan 2.5 模型可生成带原生音频的视频 - 语音、音乐和音效与画面同步。从文本或图片创建 10 秒 720p/1080p 视频。最大化创作自由，支持大胆动感内容。无需音频后期制作。

Add Image

JPG, PNG, WebP

Max 10MB

提示词

Describe your desired video motion and content0 / 800

选择模型

新

时长

分辨率

输出视频宽高比将与上传的图片匹配

准备创作

配置您的设置并点击生成开始创建精彩视频

Creative Examples

Wan 2.5 原生音频视频示例

看看 Wan 2.5 如何将文本和图片转化为完整的音视频体验

图片生成带音频的视频

将静态图片转化为带同步配乐、语音和环境音频的动态视频

Input

文本生成带原生音频的视频

仅从文本描述创建包含视觉、语音和音乐的完整视频

Input

“夜晚灯光昏暗的爵士酒吧，温暖的吊灯照亮着木桌。顾客们啜饮饮料，安静交谈，三人乐队在舞台上演奏。萨克斯手站在聚光灯下，闪亮的乐器反射着光线。无对话。环境音频：柔和的现场爵士乐，萨克斯和钢琴，玻璃杯碰撞声，观众低声交谈，附近桌子偶尔爆发的笑声。镜头：缓慢横摇人群，然后轻柔变焦至萨克斯手的独奏，聚焦富有表现力的手部动作。”

为什么 Wan 2.5 是最先进的 AI 视频生成器

首个支持原生音频生成的视频 AI 模型。Wan 2.5 在视频生成过程中同步创建配乐、语音和音效，无需音频后期制作。为多样化内容风格提供无与伦比的创作自由。

原生音频生成 - 行业首创

Wan 2.5 同时生成视频和音频：语音与唇部动作同步、背景音乐匹配视频节奏、环境声音和氛围效果。无需单独录音或音频编辑 - 所有内容在一个流程中同时创建。

卓越稳定性与连贯运动

高级镜头语言，具有流畅过渡、稳定对象跟踪和跨帧角色连续性。消除 AI 视频常见问题如闪烁、抖动或变形。专业级电影摄影，自然流畅的运动。

灵活时长与多分辨率支持

生成 5 秒或 10 秒视频（比大多数竞品的 8 秒限制更长），支持 720p 或 1080p 分辨率。多种宽高比：16:9 横屏、9:16 竖屏、1:1 方形。针对 YouTube、TikTok、Instagram 和所有社交平台优化。

最大创作自由与多样内容

宽松的内容审核机制，支持大胆、动感和震撼的视频创作。支持文本生成视频和图片生成视频模式。多模态输入包括文本、图片和音频参考。优秀的多语言支持，包括中文等多种语言。

3 步轻松创建带音频的视频

使用 Wan 2.5 生成带同步音频的专业视频。无需音频编辑技能 - 语音、音乐和音效自动随视频创建。

第 1 步：选择文本或图片输入

文本生成视频：描述场景、镜头运动、动作和音频需求。图片生成视频：上传参考图片并描述期望的运动。Wan 2.5 将生成匹配的音频，包括语音、音乐和环境声音。

第 2 步：配置时长、分辨率和宽高比

时长：5 秒（快速内容）或 10 秒（更丰富的叙事）。分辨率：720p（更快渲染）或 1080p（最高质量）。宽高比：16:9 横屏、9:16 竖屏或 1:1 方形。可选：添加负面提示词排除不需要的元素。

第 3 步：生成并下载带原生音频的视频

点击生成，Wan 2.5 将在几分钟内创建带同步音频的视频。预览带声音、唇音同步语音和背景音乐的完整视频。下载即可用于 YouTube、TikTok、Instagram 或商业项目的内容。

Start enhancing your images now

Wan 2.5 常见问题 - 原生音频视频生成

Wan 2.5 音视频生成能力、定价、内容政策以及与 Sora 2、Veo 3 等其他 AI 视频模型对比的完整指南。

关于 Wan 2.5 有更多问题？

联系我们的支持团队

或添加微信:

需要视频素材图像提示词？

使用我们的 AI 图像提示词库设计场景和角色，然后用 Wan 2.5 将它们变成视频。

浏览 AI 图像提示词 →

Wan 2.5：原生音频 AI 视频生成器

同步音效 • 唇音同步 • 动态视觉 • 创作自由

Wan 2.5：原生音频 AI 视频生成器

准备创作