跳转到主要内容
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑
WanInfiniteTalkToVideo 节点可从音频输入生成视频序列。它使用视频扩散模型,以从一个或两个说话者提取的音频特征为条件,生成说话人视频的潜在表示。该节点可以生成新序列,或使用先前帧作为运动上下文来扩展现有序列。

输入参数

参数数据类型必填取值范围描述
modeCOMBO"single_speaker"
"two_speakers"
音频输入模式。"single_speaker" 使用一个音频输入。"two_speakers" 启用第二个说话者的输入及相应的遮罩。
modelMODEL-基础视频扩散模型。
model_patchMODELPATCH-包含音频投影层的模型补丁。
positiveCONDITIONING-用于引导生成的正向条件。
negativeCONDITIONING-用于引导生成的负向条件。
vaeVAE-用于在图像和潜在空间之间进行编码的 VAE。
widthINT16 - MAX_RESOLUTION输出视频的宽度(像素)。必须能被 16 整除。(默认值:832)
heightINT16 - MAX_RESOLUTION输出视频的高度(像素)。必须能被 16 整除。(默认值:480)
lengthINT1 - MAX_RESOLUTION要生成的帧数。(默认值:81)
clip_vision_outputCLIPVISIONOUTPUT-用于附加条件的可选 CLIP 视觉输出。
start_imageIMAGE-用于初始化视频序列的可选起始图像。
audio_encoder_output_1AUDIOENCODEROUTPUT-包含第一个说话者特征的主音频编码器输出。
motion_frame_countINT1 - 33扩展现有序列时,用作运动上下文的先前帧数。(默认值:9)
audio_scaleFLOAT-10.0 - 10.0应用于音频条件的缩放因子。(默认值:1.0)
previous_framesIMAGE-用于扩展的可选先前视频帧。
audio_encoder_output_2AUDIOENCODEROUTPUT-第二个音频编码器输出。当 mode 设置为 "two_speakers" 时必须提供。
mask_1MASK-第一个说话者的遮罩,使用两个音频输入时必须提供。
mask_2MASK-第二个说话者的遮罩,使用两个音频输入时必须提供。
参数约束:
  • mode 设置为 "two_speakers" 时,参数 audio_encoder_output_2mask_1mask_2 变为必填项。
  • 如果提供了 audio_encoder_output_2,则必须同时提供 mask_1mask_2
  • 如果提供了 mask_1mask_2,则必须同时提供 audio_encoder_output_2
  • 如果提供了 previous_frames,则其包含的帧数必须至少等于 motion_frame_count 指定的数量。

输出参数

输出名称数据类型描述
modelMODEL应用了音频条件处理的修补后模型。
positiveCONDITIONING正向条件,可能已根据附加上下文(例如起始图像、CLIP 视觉)进行了修改。
negativeCONDITIONING负向条件,可能已根据附加上下文进行了修改。
latentLATENT潜在空间中生成的视频序列。
trim_imageINT扩展现有序列时,应从运动上下文开始处裁剪的帧数。