本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑LTXVConcatAVLatent 节点将视频潜在表示和音频潜在表示合并为一个单一的、拼接后的潜在输出。它会合并两个输入中的
samples 张量,如果存在的话,也会合并它们的 noise_mask 张量,为视频生成流程中的后续处理做好准备。
输入参数
| 参数名 | 数据类型 | 必填 | 取值范围 | 描述 |
|---|---|---|---|---|
video_latent | LATENT | 是 | 视频数据的潜在表示。 | |
audio_latent | LATENT | 是 | 音频数据的潜在表示。 |
video_latent 和 audio_latent 输入中的 samples 张量会被拼接。如果任一输入包含 noise_mask,则会使用它;如果某个输入缺少 noise_mask,则会为其创建一个全为 1 的掩码(形状与对应的 samples 相同)。然后,生成的掩码也会被拼接。
输出结果
| 输出名称 | 数据类型 | 描述 |
|---|---|---|
latent | LATENT | 一个单一的潜在字典,包含拼接后的 samples,以及(如果适用)来自视频和音频输入的拼接后的 noise_mask。 |