本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑LTXVSeparateAVLatent 节点接收一个组合的视听潜在表示,并将其拆分为两个独立的部分:一部分用于视频,另一部分用于音频。它会从输入的潜在表示中分离出样本,如果存在噪声掩码,也会一并分离,从而创建两个新的潜在对象。
输入参数
| 参数 | 数据类型 | 必填 | 取值范围 | 描述 |
|---|---|---|---|---|
av_latent | LATENT | 是 | N/A | 待分离的组合视听潜在表示。 |
samples 张量在其第一个维度(批次维度)上应至少包含两个元素。第一个元素用于视频潜在表示,第二个元素用于音频潜在表示。如果存在 noise_mask,也会以相同方式进行分离。
输出结果
| 输出名称 | 数据类型 | 描述 |
|---|---|---|
video_latent | LATENT | 包含已分离视频数据的潜在表示。 |
audio_latent | LATENT | 包含已分离音频数据的潜在表示。 |