认识Wan2.2模型
由阿里通义万相于2025年,年中发布的一款开源模型,在wan2.1的基础上升级而来。在一定程度上wan2.2与wan2.1是相通的,这里不在讨论wan2.1,以wan2.2为主。
训练集分辨率:480p和720p
文本编码器:采用google-umt5-xxl;多语言支持CLIP模型
支持语言:中/英多语言支持
提示词形式:tag+短语形式/自然语言
生成类型:t2v、i2v
训练帧率:24fps
UNet 参数数量:27B(high noise + low noise)
优点:该模型支持中文提示词,有文生视频和图生视频两种模型,可生成480P或720P分辨率视频。
生态:Wan2.2是拥有较完善的生态支持,是目前最主流的开源ai视频模型之一。
主要模型类型
文生视频(t2v)
5B模型,小参数模型,不推荐使用。
14B模型,分为high noise(高噪声)和low noise(低噪声)模型。
图生视频(i2v)
14B模型,分为high noise(高噪声)和low noise(低噪声)模型。
VAE
5B模型使用专用的Wan2.2VAE模型,14B模型延用Wan2.1VAE模型。
理解图像与视频的本质
有影视剪辑基础的伙伴,应该非常清楚关于帧率这一概念。或者玩过FPS游戏的玩家,也对帧率这一概念有一些了解。
帧速率fps
一段视频内容,本质是由多张有序的画面(图像)组成,帧速率(fps)是一段视频中的重要参数之一,它规定1秒视频内容中有多少张图像,每张图像表示一帧,在单位时间内图像越多,视觉上最直观的感受就是视频越流畅。帧速率也可以叫做帧频率,用赫兹(Hz)表示。
例如下面有一组由80张,有序组成图像组成的一名马拉松运动员跑步画面,如图所示:
图像下载:https://pan.quark.cn/s/13c8d12f1a8c
硬件要求
wan2.2是一个参数量非常大的视频模型,能力强的同时,对硬件(显卡)要求也显著提升,满血版fp16单个模型容量达到了恐怖的约30GB,这意味着我们可能需要一张RTX 5090 32G显卡或者4090 48G魔改版本显卡才能进行推理。即使是fp8_scaled的量化模型有约16GB容量,意味着可能需要4090 24G显卡才能顺畅运行。虽然低显存也能运行,但建议至少12G显存可以尝试f8模型,并且需要有足够的内存,若内存不足可以开启虚拟内存,但这体验不会很好。
借助云端
也可以借助云端体验,点击开始体验云端(新用户送5000脑力值,约等于5元),选择一个合适的镜像,社区镜像或官方confyui镜像都可以。
工作流搭建
在开始之前,应确保confyui已经升级到版本,当前演示为v0.3.52,至少等于或高于此版本。
文生视频 t2v
在官方模版里已经有一个wan2.2 t2v模板,不过为了方便大家更好的理解,这里还是带大家自己手动搭建一遍。
1、还是加载一个默认的文生图工作流,新增unet加载器、clip加载器和vae加载器3个节点,替换掉原本的checkpoint加载节点,如图所示:
2、替换空latent图像,节点库→latent→视频→空latent视频(混元),使用空latent视频连接到k采样器的latent输入,删除原本的空latent图像。如图所示:
3、修改latent节点参数,该节点与图像生成唯一不一样的参数是长度(length),表示帧数的的意思,需要在目标帧数上+1,且值只能是4的倍数+1。例如:目标帧数是32帧,则需要填入33。
4、由于wan2.2采用的是双模型,所以我们要像之前搭建sdxl精炼模型的工作流一样,使用多阶采样。多阶采样更好的操作方式是使用K采样器(高级)节点,把原本的K采样器替换掉。
然后将unet模型加载器和K采样器(高级)节点复制一份(快捷键:Ctrl+C复制,Ctrl+Shift+V 可以带关系粘贴),然后把第一次采样的latent输出连接到二次采样的latent输入,如图所示:
5、还需要处理二次采样后的latent输出数据,这里和图像生成会不太一样,我们需要将图像转换为视频。用到两个新的节点,分别是创建视频(Create Video)和保存视频(Save Video)节点。这两个节点位于,节点库→图像→视频。如图所示:
在创建视频节点中有一个帧率参数,该参数会影响实际合成的视频帧率。
关于保存图像/预览图像节点也可以保留,这样会在输出视频的同时,每一帧的图像也输出。
6、最后选择模型,第一次采样的unet应选择high_noise模型,二次采样则使用low_noise模型。将加载clip节点中的类型(type),修改为wan。clip和vae模型应不必多说,直接选择下载到的对应模型即可。如图所示:
模型下载
网盘下载:https://pan.quark.cn/s/3946bdb88b23
- 模型目录结构说明,更多下载渠道⬇⬇⬇
7、对K采样器(高级)节点的参数做一些调整,首先是两个采样器之间的配合,参照之前的K采样器(高级)多阶采样。采样器与调度器依旧可以使用经典的euler/euler a + simple,cfg值通常在3-5之间,使用3.5/4是一个非常不错的推荐值。最后加入合适的提示词,下方是一个提示词案例。
正面提示词:
一位参观者正站在一幅画前欣赏。镜头向右移动,跟随她的脚步,展现出她旁边墙上挂着的一系列风格统一的画作。
负面提示词(wan2.2对负面提示词注重并不高,可以将该词作为通用提示词):
色调艳丽,过曝,静态,细节模糊不清,字幕,风格,作品,画作,画面,静止,整体发灰,最差质量,低质量,JPEG压缩残留,丑陋的,残缺的,多余的手指,画得不好的手部,画得不好的脸部,畸形的,毁容的,形态畸形的肢体,手指融合,静止不动的画面,杂乱的背景,三条腿,背景人很多,倒着走,裸露,NSFW
完整的工作流,如图所示:
除此之外,同样可以采用之前接触过的K采样器(高级)来完成二阶采样的工作流。传送门:搭建SDXL模型工作流,理解多阶采样与高级K采样器、SDXL熟悉风格提示词
图生视频 i2v
关于i2v同样在comfyui的默认模板中,也为我们提供了一个简单的示例。当然我们也可以在刚刚的t2v工作流的基础上,进行一些简单的修改,就能完成i2v工作流的搭建。
i2v工作流不在需要空latent视频,将该节点删除。需要用到一个新的节点,Wan图像到视频(WanImageToVideo)。该节点位于:节点库→条件→视频模型→Wan图像到视频。
1、将Wan图像到视频节点添加到工作流中,该节点的正负面条件输入,与clip文本编码器的正负面输出连接,正负面输出与K采样器正负面输入相连。latent输出与第一次采样相连。如图所示:
2、Wan图像到视频节点还需要输入vae,和用于转为视频的图像(start_image),以及clip视觉输出(clip_vision_output)。clip视觉不是必须的,稍后专门讲它的作用。
这里主要的是图像输入,使用一个图像加载节点,上传一张图像。需要注意图像尺寸,与Wan图像到视频节点中的宽高比例一致,其他产生和空latent视频是一样的意思。如图所示:
3、最后输入符合图像的提示词,将模型分别修改为i2v的high noise和low noise模型。如图所示:
4、最终完整工作流,如图所示
关于clip_vision
clip_vision(clip视觉)模型,是之前没有接触过的内容,它用于将图像特征编码成embedding,简单来说使用clip视觉时,无需对图像进行描述,在提示词中只需要关注动态内容即可。
clip视觉模型
存放路径:ComfyUI\models\clip_vision
网盘下载:https://pan.quark.cn/s/577527755947
更多下载渠道⬇⬇⬇
提示词公式
提示词用来描述视频中所包含的内容和运动过程,它是控制视频画面内容与效果的关键因素。提示词描述越完整、精确和丰富,生成视频的品质越高,且越贴近期望生成的内容。
基础公式
适用于初次尝试AI视频的新用户,及将AI视频作为灵感启发的用户,简单自由的提示词可生成更具有想象力的视频。
- 提示词 = 主体 + 场景 + 运动
进阶公式
适用于有一定AI视频使用经验的用户,在基础公式之上添加更丰富细致的描述可有效提升视频质感、生动性与故事性。
- 提示词 = 主体(主体描述)+ 场景(场景描述)+ 运动(运动描述)+ 美学控制 + 风格化
图生视频公式
图像已经确定了主体、场景与风格,因此提示词主要描述动态过程及运镜需求。
本文工作流
加速优化方案
使用Lightning加速
Lightning是由作者Lightx2v发布,在wan2.2的基础上蒸馏而来的加速模型,可以使用极少的步数,4步完成采样。以lora的形式存在,在comfyui中和使用普通lora模型一样,将模型串在模型加载和k采样器中间即可,如图所示:
模型下载
在前文中的模型里,已经提供了该lora模型。
使用gguf量化模型
使用gguf量化模型之前,需要额外安装一个第三方节点,传送门:gguf量化模型节点安装使用指南
如果本地有12G或16G显存的显卡,gguf模型可以用gguf加载器,也可以使用kj的wanVideo节点,kj的wanVideo节点后续会专门讲。
gguf模型下载
网盘下载:https://pan.quark.cn/s/0caee5955104
存放路径:ComfyUI\models\unet
更多下载渠道⬇⬇⬇
使用kj节点的工作流
传送门:待完善
使用Nunchaku(双截棍)
传送门:待完善
wan2.2的衍生模型
除了wan2.2 t2v 5B模型与t2v和i2v 14B模型之外,wan2.2还衍生出一系列相关模型。
按官方基础模型分类
Wan2.2-S2V 音频驱动视频生成
Wan2.2-S2V-14B模型,专为音频驱动的电影视频生成而设计。
传送门:待完善
Wan2.2-Animate 数字人
Wan2.2-Animate 14B模型,是一个统一的角色动画和替换模型,具有整体动作和表情复制功能。
传送门:待完善
按社区发布功能分类
InP 首尾帧模型
Wan2.2-Fun-14B文图生视频权重,以多分辨率训练,支持首尾图预测。
传送门:待完善
Control-Camera 镜头控制
Wan2.2-Fun-14B相机镜头控制权重。支持多分辨率(512,768,1024)的视频预测,支持多分辨率(512,768,1024)的视频预测,以81帧、每秒16帧进行训练,支持多语言预测。
Wan2.2-Fun-14B视频控制权重,支持不同的控制条件,如Canny、Depth、Pose、MLSD等,同时支持使用轨迹控制。支持多分辨率(512,768,1024)的视频预测,支持多分辨率(512,768,1024)的视频预测,以81帧、每秒16帧进行训练,支持多语言预测。
传送门:待完善
Control控制模型
Wan2.2-Fun-14B视频控制权重,支持不同的控制条件,如Canny、Depth、Pose、MLSD等,同时支持使用轨迹控制。支持多分辨率(512,768,1024)的视频预测,支持多分辨率(512,768,1024)的视频预测,以81帧、每秒16帧进行训练,支持多语言预测。
传送门:待完善
VACE控制模型
以VACE方案训练的Wan2.2控制权重,基础模型为Wan2.2-T2V-A14B,支持不同的控制条件,如Canny、Depth、Pose、MLSD、轨迹控制等。支持通过主体指定生视频。支持多分辨率(512,768,1024)的视频预测,支持多分辨率(512,768,1024)的视频预测,以81帧、每秒16帧进行训练,支持多语言预测。
传送门:待完善















评论(0)