本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑HunyuanVideo15ImageToVideo 节点基于混元视频 1.5 模型,为视频生成准备条件输入和潜在空间数据。它创建视频序列的初始潜在表示,并可选择性地集成起始图像或 CLIP 视觉输出来引导生成过程。
输入参数
| 参数 | 数据类型 | 必需 | 范围 | 描述 |
|---|---|---|---|---|
positive | CONDITIONING | 是 | - | 描述视频应包含内容的正面条件提示。 |
negative | CONDITIONING | 是 | - | 描述视频应避免内容的负面条件提示。 |
vae | VAE | 是 | - | 用于将起始图像编码到潜在空间的 VAE(变分自编码器)模型。 |
width | INT | 否 | 16 至 MAX_RESOLUTION | 输出视频帧的宽度(以像素为单位)。必须能被 16 整除。(默认值:848) |
height | INT | 否 | 16 至 MAX_RESOLUTION | 输出视频帧的高度(以像素为单位)。必须能被 16 整除。(默认值:480) |
length | INT | 否 | 1 至 MAX_RESOLUTION | 视频序列的总帧数。(默认值:33) |
batch_size | INT | 否 | 1 至 4096 | 单批次中生成的视频序列数量。(默认值:1) |
start_image | IMAGE | 否 | - | 用于初始化视频生成的可选起始图像。如果提供,它将被编码并用于条件化起始帧。 |
clip_vision_output | CLIP_VISION_OUTPUT | 否 | - | 可选的 CLIP 视觉嵌入,为生成提供额外的视觉条件输入。 |
start_image 时,它会自动使用双线性插值调整大小以匹配指定的 width 和 height。将使用图像批次的前 length 帧。编码后的图像随后会作为 concat_latent_image 连同相应的 concat_mask 一起添加到 positive 和 negative 条件输入中。
输出
| 输出名称 | 数据类型 | 描述 |
|---|---|---|
positive | CONDITIONING | 修改后的正面条件输入,现在可能包含编码后的起始图像或 CLIP 视觉输出。 |
negative | CONDITIONING | 修改后的负面条件输入,现在可能包含编码后的起始图像或 CLIP 视觉输出。 |
latent | LATENT | 一个空的潜在张量,其维度根据指定的批次大小、视频长度、宽度和高度进行配置。 |