WanInfiniteTalkToVideo - ComfyUI Built-in Node Documentation - ComfyUI

本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！在 GitHub 上编辑

WanInfiniteTalkToVideo 节点可从音频输入生成视频序列。它使用视频扩散模型，以从一个或两个说话者提取的音频特征为条件，生成说话人视频的潜在表示。该节点可以生成新序列，或使用先前帧作为运动上下文来扩展现有序列。

输入参数

参数	数据类型	必填	取值范围	描述
`mode`	COMBO	是	`"single_speaker"` `"two_speakers"`	音频输入模式。`"single_speaker"` 使用一个音频输入。`"two_speakers"` 启用第二个说话者的输入及相应的遮罩。
`model`	MODEL	是	-	基础视频扩散模型。
`model_patch`	MODELPATCH	是	-	包含音频投影层的模型补丁。
`positive`	CONDITIONING	是	-	用于引导生成的正向条件。
`negative`	CONDITIONING	是	-	用于引导生成的负向条件。
`vae`	VAE	是	-	用于在图像和潜在空间之间进行编码的 VAE。
`width`	INT	否	16 - MAX_RESOLUTION	输出视频的宽度（像素）。必须能被 16 整除。（默认值：832）
`height`	INT	否	16 - MAX_RESOLUTION	输出视频的高度（像素）。必须能被 16 整除。（默认值：480）
`length`	INT	否	1 - MAX_RESOLUTION	要生成的帧数。（默认值：81）
`clip_vision_output`	CLIPVISIONOUTPUT	否	-	用于附加条件的可选 CLIP 视觉输出。
`start_image`	IMAGE	否	-	用于初始化视频序列的可选起始图像。
`audio_encoder_output_1`	AUDIOENCODEROUTPUT	是	-	包含第一个说话者特征的主音频编码器输出。
`motion_frame_count`	INT	否	1 - 33	扩展现有序列时，用作运动上下文的先前帧数。（默认值：9）
`audio_scale`	FLOAT	否	-10.0 - 10.0	应用于音频条件的缩放因子。（默认值：1.0）
`previous_frames`	IMAGE	否	-	用于扩展的可选先前视频帧。
`audio_encoder_output_2`	AUDIOENCODEROUTPUT	否	-	第二个音频编码器输出。当 `mode` 设置为 `"two_speakers"` 时必须提供。
`mask_1`	MASK	否	-	第一个说话者的遮罩，使用两个音频输入时必须提供。
`mask_2`	MASK	否	-	第二个说话者的遮罩，使用两个音频输入时必须提供。

参数约束：

当 mode 设置为 "two_speakers" 时，参数 audio_encoder_output_2、mask_1 和 mask_2 变为必填项。
如果提供了 audio_encoder_output_2，则必须同时提供 mask_1 和 mask_2。
如果提供了 mask_1 和 mask_2，则必须同时提供 audio_encoder_output_2。
如果提供了 previous_frames，则其包含的帧数必须至少等于 motion_frame_count 指定的数量。

输出参数

输出名称	数据类型	描述
`model`	MODEL	应用了音频条件处理的修补后模型。
`positive`	CONDITIONING	正向条件，可能已根据附加上下文（例如起始图像、CLIP 视觉）进行了修改。
`negative`	CONDITIONING	负向条件，可能已根据附加上下文进行了修改。
`latent`	LATENT	潜在空间中生成的视频序列。
`trim_image`	INT	扩展现有序列时，应从运动上下文开始处裁剪的帧数。

WanImageToVideo - ComfyUI Built-in Node Documentation

WanMoveConcatTrack - ComfyUI Built-in Node Documentation