跳转到主要内容
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑
LTXVConcatAVLatent 节点将视频潜在表示和音频潜在表示合并为一个单一的、拼接后的潜在输出。它会合并两个输入中的 samples 张量,如果存在的话,也会合并它们的 noise_mask 张量,为视频生成流程中的后续处理做好准备。

输入参数

参数名数据类型必填取值范围描述
video_latentLATENT视频数据的潜在表示。
audio_latentLATENT音频数据的潜在表示。
注意: video_latentaudio_latent 输入中的 samples 张量会被拼接。如果任一输入包含 noise_mask,则会使用它;如果某个输入缺少 noise_mask,则会为其创建一个全为 1 的掩码(形状与对应的 samples 相同)。然后,生成的掩码也会被拼接。

输出结果

输出名称数据类型描述
latentLATENT一个单一的潜在字典,包含拼接后的 samples,以及(如果适用)来自视频和音频输入的拼接后的 noise_mask