跳转到主要内容
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑
ElevenLabs 语音转文本节点可将音频文件转录为文本。它利用 ElevenLabs 的 API 将语音转换为文字记录,支持自动语言检测、识别不同说话者以及标记非语音声音(如音乐或笑声)等功能。

输入参数

参数数据类型必填取值范围描述
audioAUDIO-待转录的音频。
modelCOMBO"scribe_v2"用于转录的模型。选择此模型会显示额外参数。
tag_audio_eventsBOOLEAN-在转录文本中标注如(笑声)、(音乐)等声音。此参数在选择 "scribe_v2" 模型时显示。(默认值:False)
diarizeBOOLEAN-标注当前说话的说话者。此参数在选择 "scribe_v2" 模型时显示。(默认值:False)
diarization_thresholdFLOAT0.1 - 0.4说话者分离敏感度。数值越低对说话者变化越敏感。此参数在选择 "scribe_v2" 模型且启用 diarize 时显示。(默认值:0.22)
temperatureFLOAT0.0 - 2.0随机性控制。0.0 使用模型默认值。数值越高随机性越大。此参数在选择 "scribe_v2" 模型时显示。(默认值:0.0)
timestamps_granularityCOMBO"word"
"character"
"none"
转录文本中单词的时间戳精度。此参数在选择 "scribe_v2" 模型时显示。(默认值:“word”)
language_codeSTRING-ISO-639-1 或 ISO-639-3 语言代码(例如 ‘en’、‘es’、‘fra’)。留空则自动检测。(默认值:"")
num_speakersINT0 - 32预测的最大说话者数量。设置为 0 则自动检测。(默认值:0)
seedINT0 - 2147483647用于结果可复现性的种子值(不保证完全确定性)。(默认值:1)
注意: 启用 diarize 选项时,num_speakers 参数不能设置为大于 0 的值。您必须禁用 diarize 或将 num_speakers 设置为 0。

输出结果

输出名称数据类型描述
textSTRING从音频转录得到的文本。
language_codeSTRING检测到的音频语言代码。
words_jsonSTRINGJSON 格式的字符串,包含详细的词级信息,如启用则包括时间戳和说话者标签。