本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑Kling Lip Sync Audio to Video 节点能够将视频文件中的口型动作与音频文件的内容进行同步。该节点通过分析音频中的人声模式,并调整视频中的面部动作,从而生成逼真的口型同步效果。此处理过程要求视频必须包含清晰可辨的人脸,且音频文件需包含明显可区分的人声。
输入参数
| 参数名 | 数据类型 | 必填 | 取值范围 | 描述 |
|---|---|---|---|---|
视频 | VIDEO | 是 | - | 包含待同步口型人脸的视频文件 |
音频 | AUDIO | 是 | - | 包含需要与视频同步人声的音频文件 |
语音语言 | COMBO | 否 | "en""zh""es""fr""de""it""pt""pl""tr""ru""nl""cs""ar""ja""hu""ko" | 音频文件中人声的语言(默认值:“en”) |
- 音频文件大小不得超过 5MB
- 视频文件大小不得超过 100MB
- 视频尺寸的高/宽应在 720px 至 1920px 之间
- 视频时长应在 2 秒至 10 秒之间
- 音频必须包含清晰可辨的人声
- 视频必须包含清晰可辨的人脸
输出参数
| 输出名称 | 数据类型 | 描述 |
|---|---|---|
视频ID | VIDEO | 经过口型同步处理后的视频 |
时长 | STRING | 已处理视频的唯一标识符 |
duration | STRING | 已处理视频的时长 |