ElevenLabsSpeechToText - ComfyUI Built-in Node Documentation - ComfyUI

本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！在 GitHub 上编辑

ElevenLabs 语音转文本节点可将音频文件转录为文本。它利用 ElevenLabs 的 API 将语音转换为文字记录，支持自动语言检测、识别不同说话者以及标记非语音声音（如音乐或笑声）等功能。

输入参数

参数	数据类型	必填	取值范围	描述
`audio`	AUDIO	是	-	待转录的音频。
`model`	COMBO	是	`"scribe_v2"`	用于转录的模型。选择此模型会显示额外参数。
`tag_audio_events`	BOOLEAN	否	-	在转录文本中标注如（笑声）、（音乐）等声音。此参数在选择 `"scribe_v2"` 模型时显示。（默认值：False）
`diarize`	BOOLEAN	否	-	标注当前说话的说话者。此参数在选择 `"scribe_v2"` 模型时显示。（默认值：False）
`diarization_threshold`	FLOAT	否	0.1 - 0.4	说话者分离敏感度。数值越低对说话者变化越敏感。此参数在选择 `"scribe_v2"` 模型且启用 `diarize` 时显示。（默认值：0.22）
`temperature`	FLOAT	否	0.0 - 2.0	随机性控制。0.0 使用模型默认值。数值越高随机性越大。此参数在选择 `"scribe_v2"` 模型时显示。（默认值：0.0）
`timestamps_granularity`	COMBO	否	`"word"` `"character"` `"none"`	转录文本中单词的时间戳精度。此参数在选择 `"scribe_v2"` 模型时显示。（默认值：“word”）
`language_code`	STRING	否	-	ISO-639-1 或 ISO-639-3 语言代码（例如 ‘en’、‘es’、‘fra’）。留空则自动检测。（默认值：""）
`num_speakers`	INT	否	0 - 32	预测的最大说话者数量。设置为 0 则自动检测。（默认值：0）
`seed`	INT	否	0 - 2147483647	用于结果可复现性的种子值（不保证完全确定性）。（默认值：1）

注意： 启用 diarize 选项时，num_speakers 参数不能设置为大于 0 的值。您必须禁用 diarize 或将 num_speakers 设置为 0。

输出结果

输出名称	数据类型	描述
`text`	STRING	从音频转录得到的文本。
`language_code`	STRING	检测到的音频语言代码。
`words_json`	STRING	JSON 格式的字符串，包含详细的词级信息，如启用则包括时间戳和说话者标签。

ElevenLabsSpeechToSpeech - ComfyUI Built-in Node Documentation

ElevenLabsTextToDialogue - ComfyUI Built-in Node Documentation