认识Wan2.2模型

由阿里通义万相于2025年,年中发布的一款开源模型,在wan2.1的基础上升级而来。在一定程度上wan2.2与wan2.1是相通的,这里不在讨论wan2.1,以wan2.2为主。

训练集分辨率:480p和720p

文本编码器:采用google-umt5-xxl;多语言支持CLIP模型

支持语言:中/英多语言支持

提示词形式:tag+短语形式/自然语言

生成类型:t2v、i2v

训练帧率:24fps

UNet 参数数量:27B(high noise + low noise)

优点:该模型支持中文提示词,有文生视频和图生视频两种模型,可生成480P或720P分辨率视频。

生态:Wan2.2是拥有较完善的生态支持,是目前最主流的开源ai视频模型之一。

主要模型类型

文生视频(t2v)

5B模型,小参数模型,不推荐使用。

14B模型,分为high noise(高噪声)和low noise(低噪声)模型。

图生视频(i2v)

14B模型,分为high noise(高噪声)和low noise(低噪声)模型。

VAE

5B模型使用专用的Wan2.2VAE模型,14B模型延用Wan2.1VAE模型。

 

理解图像与视频的本质

有影视剪辑基础的伙伴,应该非常清楚关于帧率这一概念。或者玩过FPS游戏的玩家,也对帧率这一概念有一些了解。

帧速率fps

一段视频内容,本质是由多张有序的画面(图像)组成,帧速率(fps)是一段视频中的重要参数之一,它规定1秒视频内容中有多少张图像,每张图像表示一帧,在单位时间内图像越多,视觉上最直观的感受就是视频越流畅。帧速率也可以叫做帧频率,用赫兹(Hz)表示。

例如下面有一组由80张,有序组成图像组成的一名马拉松运动员跑步画面,如图所示:

80张图像

图像下载:https://pan.quark.cn/s/13c8d12f1a8c

隐藏内容
此内容需解锁查看
未解锁内容包含:约240个字符,和6张图像
  • 普通用户: 8.9牛币
  • VIP: 免费
  • SVIP: 免费
已有103人赞助并解锁

硬件要求

wan2.2是一个参数量非常大的视频模型,能力强的同时,对硬件(显卡)要求也显著提升,满血版fp16单个模型容量达到了恐怖的约30GB,这意味着我们可能需要一张RTX 5090 32G显卡或者4090 48G魔改版本显卡才能进行推理。即使是fp8_scaled的量化模型有约16GB容量,意味着可能需要4090 24G显卡才能顺畅运行。虽然低显存也能运行,但建议至少12G显存可以尝试f8模型,并且需要有足够的内存,若内存不足可以开启虚拟内存,但这体验不会很好。

借助云端

也可以借助云端体验,点击开始体验云端(新用户送5000脑力值,约等于5元),选择一个合适的镜像,社区镜像或官方confyui镜像都可以。

 

工作流搭建

在开始之前,应确保confyui已经升级到版本,当前演示为v0.3.52,至少等于或高于此版本。

文生视频 t2v

在官方模版里已经有一个wan2.2 t2v模板,不过为了方便大家更好的理解,这里还是带大家自己手动搭建一遍。

1、还是加载一个默认的文生图工作流,新增unet加载器、clip加载器和vae加载器3个节点,替换掉原本的checkpoint加载节点,如图所示:

替换checkpoint加载器

2、替换空latent图像,节点库→latent→视频→空latent视频(混元),使用空latent视频连接到k采样器的latent输入,删除原本的空latent图像。如图所示:

替换空latent

3、修改latent节点参数,该节点与图像生成唯一不一样的参数是长度(length),表示帧数的的意思,需要在目标帧数上+1,且值只能是4的倍数+1。例如:目标帧数是32帧,则需要填入33。

4、由于wan2.2采用的是双模型,所以我们要像之前搭建sdxl精炼模型的工作流一样,使用多阶采样。多阶采样更好的操作方式是使用K采样器(高级)节点,把原本的K采样器替换掉。

然后将unet模型加载器和K采样器(高级)节点复制一份(快捷键:Ctrl+C复制,Ctrl+Shift+V 可以带关系粘贴),然后把第一次采样的latent输出连接到二次采样的latent输入,如图所示:

替换K采样器 并完成2次采样器工作流

5、还需要处理二次采样后的latent输出数据,这里和图像生成会不太一样,我们需要将图像转换为视频。用到两个新的节点,分别是创建视频(Create Video)和保存视频(Save Video)节点。这两个节点位于,节点库→图像→视频。如图所示:

添加wan图像到视频节点

在创建视频节点中有一个帧率参数,该参数会影响实际合成的视频帧率。

关于保存图像/预览图像节点也可以保留,这样会在输出视频的同时,每一帧的图像也输出。

6、最后选择模型,第一次采样的unet应选择high_noise模型,二次采样则使用low_noise模型。将加载clip节点中的类型(type),修改为wan。clip和vae模型应不必多说,直接选择下载到的对应模型即可。如图所示:

模型加载

 

模型下载

网盘下载:https://pan.quark.cn/s/3946bdb88b23

  • 模型目录结构说明,更多下载渠道⬇⬇⬇
隐藏内容
此内容需解锁查看
未解锁内容包含:约818个字符
  • 普通用户: 8.9牛币
  • VIP: 免费
  • SVIP: 免费
已有103人赞助并解锁

7、对K采样器(高级)节点的参数做一些调整,首先是两个采样器之间的配合,参照之前的K采样器(高级)多阶采样。采样器与调度器依旧可以使用经典的euler/euler a + simple,cfg值通常在3-5之间,使用3.5/4是一个非常不错的推荐值。最后加入合适的提示词,下方是一个提示词案例。

正面提示词:

一位参观者正站在一幅画前欣赏。镜头向右移动,跟随她的脚步,展现出她旁边墙上挂着的一系列风格统一的画作。

负面提示词(wan2.2对负面提示词注重并不高,可以将该词作为通用提示词):

色调艳丽,过曝,静态,细节模糊不清,字幕,风格,作品,画作,画面,静止,整体发灰,最差质量,低质量,JPEG压缩残留,丑陋的,残缺的,多余的手指,画得不好的手部,画得不好的脸部,畸形的,毁容的,形态畸形的肢体,手指融合,静止不动的画面,杂乱的背景,三条腿,背景人很多,倒着走,裸露,NSFW

完整的工作流,如图所示:

完整的t2v wan2.2工作流

除此之外,同样可以采用之前接触过的K采样器(高级)来完成二阶采样的工作流。传送门:搭建SDXL模型工作流,理解多阶采样与高级K采样器、SDXL熟悉风格提示词

隐藏内容
此内容需解锁查看
未解锁内容包含:约808个字符,和2张图像
  • 普通用户: 8.9牛币
  • VIP: 免费
  • SVIP: 免费
已有103人赞助并解锁

 

图生视频 i2v

关于i2v同样在comfyui的默认模板中,也为我们提供了一个简单的示例。当然我们也可以在刚刚的t2v工作流的基础上,进行一些简单的修改,就能完成i2v工作流的搭建。

i2v工作流不在需要空latent视频,将该节点删除。需要用到一个新的节点,Wan图像到视频(WanImageToVideo)。该节点位于:节点库→条件→视频模型→Wan图像到视频。

1、将Wan图像到视频节点添加到工作流中,该节点的正负面条件输入,与clip文本编码器的正负面输出连接,正负面输出与K采样器正负面输入相连。latent输出与第一次采样相连。如图所示:

替换空latent

2、Wan图像到视频节点还需要输入vae,和用于转为视频的图像(start_image),以及clip视觉输出(clip_vision_output)。clip视觉不是必须的,稍后专门讲它的作用。

这里主要的是图像输入,使用一个图像加载节点,上传一张图像。需要注意图像尺寸,与Wan图像到视频节点中的宽高比例一致,其他产生和空latent视频是一样的意思。如图所示:

加入用于i2v的图像

3、最后输入符合图像的提示词,将模型分别修改为i2v的high noise和low noise模型。如图所示:

i2v模型加载

4、最终完整工作流,如图所示

完整的i2v wan2.2工作流

关于clip_vision

clip_vision(clip视觉)模型,是之前没有接触过的内容,它用于将图像特征编码成embedding,简单来说使用clip视觉时,无需对图像进行描述,在提示词中只需要关注动态内容即可。

clip视觉模型

存放路径:ComfyUI\models\clip_vision

网盘下载:https://pan.quark.cn/s/577527755947

更多下载渠道⬇⬇⬇

隐藏内容
此内容需解锁查看
未解锁内容包含:约120个字符
  • 普通用户: 8.9牛币
  • VIP: 免费
  • SVIP: 免费
已有103人赞助并解锁

 

提示词公式

提示词用来描述视频中所包含的内容和运动过程,它是控制视频画面内容与效果的关键因素。提示词描述越完整、精确和丰富,生成视频的品质越高,且越贴近期望生成的内容。

基础公式

适用于初次尝试AI视频的新用户,及将AI视频作为灵感启发的用户,简单自由的提示词可生成更具有想象力的视频。

  • 提示词 = 主体 + 场景 + 运动

 

进阶公式

适用于有一定AI视频使用经验的用户,在基础公式之上添加更丰富细致的描述可有效提升视频质感、生动性与故事性。

  • 提示词 = 主体(主体描述)+ 场景(场景描述)+ 运动(运动描述)+ 美学控制 + 风格化

 

图生视频公式

图像已经确定了主体、场景与风格,因此提示词主要描述动态过程及运镜需求。

  • 提示词 = 运动 + 运镜

 

更详细的提示词指导

传送门:Wan2.2视频生成提示词prompt使用指南

 

本文工作流

隐藏内容
此内容需解锁查看
未解锁内容包含:约72个字符
  • 普通用户: 8.9牛币
  • VIP: 免费
  • SVIP: 免费
已有103人赞助并解锁

传送门:wan2.2 文生视频与图生视频,基础工作流

 

加速优化方案

 

使用Lightning加速

Lightning是由作者Lightx2v发布,在wan2.2的基础上蒸馏而来的加速模型,可以使用极少的步数,4步完成采样。以lora的形式存在,在comfyui中和使用普通lora模型一样,将模型串在模型加载和k采样器中间即可,如图所示:

Lightx加速lora i2v工作流

模型下载

在前文中的模型里,已经提供了该lora模型。

隐藏内容
此内容需解锁查看
未解锁内容包含:约467个字符,和1张图像
  • 普通用户: 8.9牛币
  • VIP: 免费
  • SVIP: 免费
已有103人赞助并解锁

使用gguf量化模型

使用gguf量化模型之前,需要额外安装一个第三方节点,传送门:gguf量化模型节点安装使用指南

如果本地有12G或16G显存的显卡,gguf模型可以用gguf加载器,也可以使用kj的wanVideo节点,kj的wanVideo节点后续会专门讲。

gguf模型下载

网盘下载:https://pan.quark.cn/s/0caee5955104

存放路径:ComfyUI\models\unet

更多下载渠道⬇⬇⬇

隐藏内容
此内容需解锁查看
未解锁内容包含:约316个字符
  • 普通用户: 8.9牛币
  • VIP: 免费
  • SVIP: 免费
已有103人赞助并解锁

 

使用kj节点的工作流

 

传送门:待完善

 

使用Nunchaku(双截棍)

传送门:待完善

 

wan2.2的衍生模型

除了wan2.2 t2v 5B模型与t2v和i2v 14B模型之外,wan2.2还衍生出一系列相关模型。

按官方基础模型分类

Wan2.2-S2V 音频驱动视频生成

Wan2.2-S2V-14B模型,专为音频驱动的电影视频生成而设计。

传送门:待完善

Wan2.2-Animate 数字人

Wan2.2-Animate 14B模型,是一个统一的角色动画和替换模型,具有整体动作和表情复制功能。

传送门:待完善

按社区发布功能分类

InP 首尾帧模型

Wan2.2-Fun-14B文图生视频权重,以多分辨率训练,支持首尾图预测。

传送门:待完善

Control-Camera 镜头控制

Wan2.2-Fun-14B相机镜头控制权重。支持多分辨率(512,768,1024)的视频预测,支持多分辨率(512,768,1024)的视频预测,以81帧、每秒16帧进行训练,支持多语言预测。

Wan2.2-Fun-14B视频控制权重,支持不同的控制条件,如Canny、Depth、Pose、MLSD等,同时支持使用轨迹控制。支持多分辨率(512,768,1024)的视频预测,支持多分辨率(512,768,1024)的视频预测,以81帧、每秒16帧进行训练,支持多语言预测。

传送门:待完善

Control控制模型

Wan2.2-Fun-14B视频控制权重,支持不同的控制条件,如Canny、Depth、Pose、MLSD等,同时支持使用轨迹控制。支持多分辨率(512,768,1024)的视频预测,支持多分辨率(512,768,1024)的视频预测,以81帧、每秒16帧进行训练,支持多语言预测。

传送门:待完善

VACE控制模型

以VACE方案训练的Wan2.2控制权重,基础模型为Wan2.2-T2V-A14B,支持不同的控制条件,如Canny、Depth、Pose、MLSD、轨迹控制等。支持通过主体指定生视频。支持多分辨率(512,768,1024)的视频预测,支持多分辨率(512,768,1024)的视频预测,以81帧、每秒16帧进行训练,支持多语言预测。

传送门:待完善

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。