🎉 Nano Banana Pro 现已上线!限时折扣!

Wan 2.5:原生音频 AI 视频生成器

同步音效 • 唇音同步 • 动态视觉 • 创作自由

阿里巴巴突破性的 Wan 2.5 模型可生成带原生音频的视频 - 语音、音乐和音效与画面同步。从文本或图片创建 10 秒 720p/1080p 视频。最大化创作自由,支持大胆动感内容。无需音频后期制作。

Describe your desired video motion and content0 / 800

输出视频宽高比将与上传的图片匹配

积分消耗
60积分

准备创作

配置您的设置并点击生成开始创建精彩视频

Creative Examples

Wan 2.5 原生音频视频示例

看看 Wan 2.5 如何将文本和图片转化为完整的音视频体验

图片生成带音频的视频

将静态图片转化为带同步配乐、语音和环境音频的动态视频

Input

一位花样滑冰运动员在超现实的地下洞穴中表演,洞穴中有生物发光的水

文本生成带原生音频的视频

仅从文本描述创建包含视觉、语音和音乐的完整视频

Input

夜晚灯光昏暗的爵士酒吧,温暖的吊灯照亮着木桌。顾客们啜饮饮料,安静交谈,三人乐队在舞台上演奏。萨克斯手站在聚光灯下,闪亮的乐器反射着光线。无对话。环境音频:柔和的现场爵士乐,萨克斯和钢琴,玻璃杯碰撞声,观众低声交谈,附近桌子偶尔爆发的笑声。镜头:缓慢横摇人群,然后轻柔变焦至萨克斯手的独奏,聚焦富有表现力的手部动作。

为什么 Wan 2.5 是最先进的 AI 视频生成器

首个支持原生音频生成的视频 AI 模型。Wan 2.5 在视频生成过程中同步创建配乐、语音和音效,无需音频后期制作。为多样化内容风格提供无与伦比的创作自由。

01

原生音频生成 - 行业首创

Wan 2.5 同时生成视频和音频:语音与唇部动作同步、背景音乐匹配视频节奏、环境声音和氛围效果。无需单独录音或音频编辑 - 所有内容在一个流程中同时创建。

02

卓越稳定性与连贯运动

高级镜头语言,具有流畅过渡、稳定对象跟踪和跨帧角色连续性。消除 AI 视频常见问题如闪烁、抖动或变形。专业级电影摄影,自然流畅的运动。

03

灵活时长与多分辨率支持

生成 5 秒或 10 秒视频(比大多数竞品的 8 秒限制更长),支持 720p 或 1080p 分辨率。多种宽高比:16:9 横屏、9:16 竖屏、1:1 方形。针对 YouTube、TikTok、Instagram 和所有社交平台优化。

04

最大创作自由与多样内容

宽松的内容审核机制,支持大胆、动感和震撼的视频创作。支持文本生成视频和图片生成视频模式。多模态输入包括文本、图片和音频参考。优秀的多语言支持,包括中文等多种语言。

3 步轻松创建带音频的视频

使用 Wan 2.5 生成带同步音频的专业视频。无需音频编辑技能 - 语音、音乐和音效自动随视频创建。

1

第 1 步:选择文本或图片输入

文本生成视频:描述场景、镜头运动、动作和音频需求。图片生成视频:上传参考图片并描述期望的运动。Wan 2.5 将生成匹配的音频,包括语音、音乐和环境声音。

2

第 2 步:配置时长、分辨率和宽高比

时长:5 秒(快速内容)或 10 秒(更丰富的叙事)。分辨率:720p(更快渲染)或 1080p(最高质量)。宽高比:16:9 横屏、9:16 竖屏或 1:1 方形。可选:添加负面提示词排除不需要的元素。

3

第 3 步:生成并下载带原生音频的视频

点击生成,Wan 2.5 将在几分钟内创建带同步音频的视频。预览带声音、唇音同步语音和背景音乐的完整视频。下载即可用于 YouTube、TikTok、Instagram 或商业项目的内容。

Start enhancing your images now

Wan 2.5 常见问题 - 原生音频视频生成

Wan 2.5 音视频生成能力、定价、内容政策以及与 Sora 2、Veo 3 等其他 AI 视频模型对比的完整指南。

01

什么是 Wan 2.5?它的原生音频有什么独特之处?

Wan 2.5 是阿里巴巴的 AI 视频生成模型,具有行业首创的原生音频能力。与其他生成无声视频的 AI 视频工具不同,Wan 2.5 可以同时创建同步的语音、背景音乐、音效和唇部动作与画面。支持文本生成视频和图片生成视频,时长 5 秒/10 秒,分辨率 720p/1080p,多种宽高比(16:9、9:16、1:1)。

02

Wan 2.5 与 Sora 2、Veo 3 和其他 AI 视频生成器相比如何?

Wan 2.5 的优势:原生音频生成(语音 + 音乐 + 音效)- 竞品需要单独的音频制作;10 秒时长,超过大多数竞品的 8 秒限制;更实惠的积分定价;宽松的内容政策,提供创作自由;强大的多语言支持,包括中文。在视觉质量上与 Sora 2 和 Veo 3 竞争,同时提供独特的音频能力和更好的性价比。

03

Wan 2.5 的视频时长、分辨率和宽高比选项有哪些?

时长:5 秒或 10 秒。分辨率:720p 或 1080p。宽高比:16:9 横屏(YouTube、桌面)、9:16 竖屏(TikTok、Instagram 快拍)、1:1 方形(Instagram 帖子)。文本生成视频模式支持所有宽高比;图片生成视频继承源图片比例。所有视频包含原生音频。

04

Wan 2.5 的费用是多少?积分定价说明。

基于积分的按需付费(无订阅):5 秒 720p = 60 积分,5 秒 1080p = 100 积分,10 秒 720p = 120 积分,10 秒 1080p = 200 积分。所有价格包含原生音频生成(语音、音乐、音效)。比 Veo 3 和同类模型更具成本效益。

05

我可以创建什么内容?有内容限制吗?

Wan 2.5 提供最大的创作自由,内容审核宽松,支持大胆、动感和震撼的视频创作。适用于多样化的创意表达、社交媒体病毒内容、广告、艺术项目和商业用途。与更严格的竞品相比灵活性更大,同时保持法律合规。

06

我可以将 Wan 2.5 视频用于商业用途吗?版权如何?

可以!所有 Wan 2.5 生成的视频(包括音频)都适用于商业用途:营销活动、广告、YouTube 变现、社交媒体内容、客户项目、产品演示。您拥有输出内容的所有权。原生音频生成意味着背景音乐或音效没有版权问题。

07

如何从 Wan 2.5 的音频生成中获得最佳效果?

获得最佳音视频效果的方法:在提示词中描述期望的音频(例如,'戏剧性的管弦乐'、'低沉声音的角色说话'、'森林环境音')。指定镜头运动和视觉节奏以匹配配乐。使用负面提示词排除不需要的音频元素。AI 会自动同步唇部动作与语音,以及音乐与视觉节奏。

08

Wan 2.5 支持英语以外的语言吗?

支持!Wan 2.5 拥有出色的多语言支持,包括中文、西班牙语、法语、德语、俄语、阿拉伯语、韩语、日语、葡萄牙语等。原生音频生成支持多语言语音合成,具有正确的发音和唇音同步。

关于 Wan 2.5 有更多问题?
联系我们的支持团队

Prepare storyboards with AI image prompts

Draft key frames and compositions using our AI image prompt gallery before turning them into Wan 2.5 videos.

Browse AI image prompts →