10、阿里开源Ai视频模型，Wan2.2文生视频与图生视频-入门指南-0基础新手入门教程-牛B Ai

认识Wan2.2模型

由阿里通义万相于2025年，年中发布的一款开源模型，在wan2.1的基础上升级而来。在一定程度上wan2.2与wan2.1是相通的，这里不在讨论wan2.1，以wan2.2为主。

训练集分辨率：480p和720p

文本编码器：采用google-umt5-xxl；多语言支持CLIP模型

支持语言：中/英多语言支持

提示词形式：tag+短语形式/自然语言

生成类型：t2v、i2v

训练帧率：24fps

UNet 参数数量：27B（high noise + low noise）

优点：该模型支持中文提示词，有文生视频和图生视频两种模型，可生成480P或720P分辨率视频。

生态：Wan2.2是拥有较完善的生态支持，是目前最主流的开源ai视频模型之一。

主要模型类型

文生视频（t2v）

5B模型，小参数模型，不推荐使用。

14B模型，分为high noise（高噪声）和low noise（低噪声）模型。

图生视频（i2v）

14B模型，分为high noise（高噪声）和low noise（低噪声）模型。

VAE

5B模型使用专用的Wan2.2VAE模型，14B模型延用Wan2.1VAE模型。

理解图像与视频的本质

有影视剪辑基础的伙伴，应该非常清楚关于帧率这一概念。或者玩过FPS游戏的玩家，也对帧率这一概念有一些了解。

帧速率fps

一段视频内容，本质是由多张有序的画面（图像）组成，帧速率（fps）是一段视频中的重要参数之一，它规定1秒视频内容中有多少张图像，每张图像表示一帧，在单位时间内图像越多，视觉上最直观的感受就是视频越流畅。帧速率也可以叫做帧频率，用赫兹（Hz）表示。

例如下面有一组由80张，有序组成图像组成的一名马拉松运动员跑步画面，如图所示：

图像下载：https://pan.quark.cn/s/13c8d12f1a8c

隐藏内容

此内容需解锁查看

未解锁内容包含：约240个字符，和6张图像

普通用户: 8.9牛币
VIP: 免费
SVIP: 免费

硬件要求

wan2.2是一个参数量非常大的视频模型，能力强的同时，对硬件（显卡）要求也显著提升，满血版fp16单个模型容量达到了恐怖的约30GB，这意味着我们可能需要一张RTX 5090 32G显卡或者4090 48G魔改版本显卡才能进行推理。即使是fp8_scaled的量化模型有约16GB容量，意味着可能需要4090 24G显卡才能顺畅运行。虽然低显存也能运行，但建议至少12G显存可以尝试f8模型，并且需要有足够的内存，若内存不足可以开启虚拟内存，但这体验不会很好。

借助云端

也可以借助云端体验，点击开始体验云端（新用户送5000脑力值，约等于5元），选择一个合适的镜像，社区镜像或官方confyui镜像都可以。

工作流搭建

在开始之前，应确保confyui已经升级到版本，当前演示为v0.3.52，至少等于或高于此版本。

文生视频 t2v

在官方模版里已经有一个wan2.2 t2v模板，不过为了方便大家更好的理解，这里还是带大家自己手动搭建一遍。

1、还是加载一个默认的文生图工作流，新增unet加载器、clip加载器和vae加载器3个节点，替换掉原本的checkpoint加载节点，如图所示：

2、替换空latent图像，节点库→latent→视频→空latent视频（混元），使用空latent视频连接到k采样器的latent输入，删除原本的空latent图像。如图所示：

3、修改latent节点参数，该节点与图像生成唯一不一样的参数是长度（length），表示帧数的的意思，需要在目标帧数上+1，且值只能是4的倍数+1。例如：目标帧数是32帧，则需要填入33。

4、由于wan2.2采用的是双模型，所以我们要像之前搭建sdxl精炼模型的工作流一样，使用多阶采样。多阶采样更好的操作方式是使用K采样器（高级）节点，把原本的K采样器替换掉。

然后将unet模型加载器和K采样器（高级）节点复制一份（快捷键：Ctrl+C复制，Ctrl+Shift+V 可以带关系粘贴），然后把第一次采样的latent输出连接到二次采样的latent输入，如图所示：

5、还需要处理二次采样后的latent输出数据，这里和图像生成会不太一样，我们需要将图像转换为视频。用到两个新的节点，分别是创建视频（Create Video）和保存视频（Save Video）节点。这两个节点位于，节点库→图像→视频。如图所示：

在创建视频节点中有一个帧率参数，该参数会影响实际合成的视频帧率。

关于保存图像/预览图像节点也可以保留，这样会在输出视频的同时，每一帧的图像也输出。

6、最后选择模型，第一次采样的unet应选择high_noise模型,二次采样则使用low_noise模型。将加载clip节点中的类型（type），修改为wan。clip和vae模型应不必多说，直接选择下载到的对应模型即可。如图所示：

模型下载

网盘下载：https://pan.quark.cn/s/3946bdb88b23

隐藏内容

此内容需解锁查看

未解锁内容包含：约818个字符

普通用户: 8.9牛币
VIP: 免费
SVIP: 免费

7、对K采样器（高级）节点的参数做一些调整，首先是两个采样器之间的配合，参照之前的K采样器（高级）多阶采样。采样器与调度器依旧可以使用经典的euler/euler a + simple，cfg值通常在3-5之间，使用3.5/4是一个非常不错的推荐值。最后加入合适的提示词，下方是一个提示词案例。

正面提示词：

一位参观者正站在一幅画前欣赏。镜头向右移动，跟随她的脚步，展现出她旁边墙上挂着的一系列风格统一的画作。

负面提示词（wan2.2对负面提示词注重并不高，可以将该词作为通用提示词）：

色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走，裸露，NSFW

完整的工作流，如图所示：

除此之外，同样可以采用之前接触过的K采样器（高级）来完成二阶采样的工作流。传送门：搭建SDXL模型工作流，理解多阶采样与高级K采样器、SDXL熟悉风格提示词

隐藏内容

此内容需解锁查看

未解锁内容包含：约808个字符，和2张图像

普通用户: 8.9牛币
VIP: 免费
SVIP: 免费

图生视频 i2v

关于i2v同样在comfyui的默认模板中，也为我们提供了一个简单的示例。当然我们也可以在刚刚的t2v工作流的基础上，进行一些简单的修改，就能完成i2v工作流的搭建。

i2v工作流不在需要空latent视频，将该节点删除。需要用到一个新的节点，Wan图像到视频（WanImageToVideo）。该节点位于：节点库→条件→视频模型→Wan图像到视频。

1、将Wan图像到视频节点添加到工作流中，该节点的正负面条件输入，与clip文本编码器的正负面输出连接，正负面输出与K采样器正负面输入相连。latent输出与第一次采样相连。如图所示：

2、Wan图像到视频节点还需要输入vae，和用于转为视频的图像（start_image），以及clip视觉输出（clip_vision_output）。clip视觉不是必须的，稍后专门讲它的作用。

这里主要的是图像输入，使用一个图像加载节点，上传一张图像。需要注意图像尺寸，与Wan图像到视频节点中的宽高比例一致，其他产生和空latent视频是一样的意思。如图所示：

3、最后输入符合图像的提示词，将模型分别修改为i2v的high noise和low noise模型。如图所示：

4、最终完整工作流，如图所示

关于clip_vision

clip_vision（clip视觉）模型，是之前没有接触过的内容，它用于将图像特征编码成embedding，简单来说使用clip视觉时，无需对图像进行描述，在提示词中只需要关注动态内容即可。

clip视觉模型

存放路径：ComfyUI\models\clip_vision

网盘下载：https://pan.quark.cn/s/577527755947

更多下载渠道⬇⬇⬇

隐藏内容

此内容需解锁查看

未解锁内容包含：约120个字符

普通用户: 8.9牛币
VIP: 免费
SVIP: 免费

提示词公式

提示词用来描述视频中所包含的内容和运动过程，它是控制视频画面内容与效果的关键因素。提示词描述越完整、精确和丰富，生成视频的品质越高，且越贴近期望生成的内容。

基础公式

适用于初次尝试AI视频的新用户，及将AI视频作为灵感启发的用户，简单自由的提示词可生成更具有想象力的视频。

提示词 = 主体 + 场景 + 运动

进阶公式

适用于有一定AI视频使用经验的用户，在基础公式之上添加更丰富细致的描述可有效提升视频质感、生动性与故事性。

提示词 = 主体（主体描述）+ 场景（场景描述）+ 运动（运动描述）+ 美学控制 + 风格化

图生视频公式

图像已经确定了主体、场景与风格，因此提示词主要描述动态过程及运镜需求。

提示词 = 运动 + 运镜

更详细的提示词指导

传送门：Wan2.2视频生成提示词prompt使用指南

本文工作流

隐藏内容

此内容需解锁查看

未解锁内容包含：约72个字符

普通用户: 8.9牛币
VIP: 免费
SVIP: 免费

传送门：wan2.2 文生视频与图生视频，基础工作流

加速优化方案

使用Lightning加速

Lightning是由作者Lightx2v发布，在wan2.2的基础上蒸馏而来的加速模型，可以使用极少的步数，4步完成采样。以lora的形式存在，在comfyui中和使用普通lora模型一样，将模型串在模型加载和k采样器中间即可，如图所示：

模型下载

在前文中的模型里，已经提供了该lora模型。

隐藏内容

此内容需解锁查看

未解锁内容包含：约467个字符，和1张图像

普通用户: 8.9牛币
VIP: 免费
SVIP: 免费

使用gguf量化模型

使用gguf量化模型之前，需要额外安装一个第三方节点，传送门：gguf量化模型节点安装使用指南

如果本地有12G或16G显存的显卡，gguf模型可以用gguf加载器，也可以使用kj的wanVideo节点，kj的wanVideo节点后续会专门讲。

gguf模型下载

网盘下载：https://pan.quark.cn/s/0caee5955104

存放路径：ComfyUI\models\unet

更多下载渠道⬇⬇⬇

隐藏内容

此内容需解锁查看

未解锁内容包含：约316个字符

普通用户: 8.9牛币
VIP: 免费
SVIP: 免费

使用kj节点的工作流

传送门：待完善

使用Nunchaku（双截棍）

传送门：待完善

wan2.2的衍生模型

除了wan2.2 t2v 5B模型与t2v和i2v 14B模型之外，wan2.2还衍生出一系列相关模型。

按官方基础模型分类

Wan2.2-S2V 音频驱动视频生成

Wan2.2-S2V-14B模型，专为音频驱动的电影视频生成而设计。

传送门：待完善

Wan2.2-Animate 数字人

Wan2.2-Animate 14B模型，是一个统一的角色动画和替换模型，具有整体动作和表情复制功能。

传送门：待完善

按社区发布功能分类

InP 首尾帧模型

Wan2.2-Fun-14B文图生视频权重，以多分辨率训练，支持首尾图预测。

传送门：待完善

Control-Camera 镜头控制

Wan2.2-Fun-14B相机镜头控制权重。支持多分辨率（512，768，1024）的视频预测，支持多分辨率（512，768，1024）的视频预测，以81帧、每秒16帧进行训练，支持多语言预测。

Wan2.2-Fun-14B视频控制权重，支持不同的控制条件，如Canny、Depth、Pose、MLSD等，同时支持使用轨迹控制。支持多分辨率（512，768，1024）的视频预测，支持多分辨率（512，768，1024）的视频预测，以81帧、每秒16帧进行训练，支持多语言预测。

传送门：待完善

Control控制模型

传送门：待完善

VACE控制模型

以VACE方案训练的Wan2.2控制权重，基础模型为Wan2.2-T2V-A14B，支持不同的控制条件，如Canny、Depth、Pose、MLSD、轨迹控制等。支持通过主体指定生视频。支持多分辨率（512，768，1024）的视频预测，支持多分辨率（512，768，1024）的视频预测，以81帧、每秒16帧进行训练，支持多语言预测。

传送门：待完善

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

10、阿里开源Ai视频模型，Wan2.2文生视频与图生视频-入门指南

认识Wan2.2模型

主要模型类型

文生视频（t2v）

图生视频（i2v）

VAE

理解图像与视频的本质

帧速率fps

硬件要求

借助云端

工作流搭建

文生视频 t2v

模型下载

图生视频 i2v

关于clip_vision

clip视觉模型

提示词公式

基础公式

进阶公式

图生视频公式

更详细的提示词指导

本文工作流

加速优化方案

使用Lightning加速

模型下载

使用gguf量化模型

gguf模型下载

使用kj节点的工作流

使用Nunchaku（双截棍）

wan2.2的衍生模型

按官方基础模型分类

Wan2.2-S2V 音频驱动视频生成

Wan2.2-Animate 数字人

按社区发布功能分类

InP 首尾帧模型

Control-Camera 镜头控制

Control控制模型

VACE控制模型

评论(0)

提示：请文明发言 取消回复

相关文章

最近更新

推荐文章

排行榜展示

提示：请文明发言取消回复