ElevenLabs Text-zu-Sprache V3
Audio
ElevenLabs Text-zu-Sprache V3
POST
ElevenLabs Text-zu-Sprache V3
Konvertiert Text mit der von Ihnen gewählten Stimme in Sprache und gibt Audio zurück.
Request-Header
Enumerationswert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API Key}}.
Request-Body
Wenn angegeben, versucht das System, möglichst deterministisch zu sampeln. Wiederholte Anfragen mit demselben seed und denselben Parametern sollten dasselbe Ergebnis zurückgeben, vollständige Deterministik wird jedoch nicht garantiert.Wertebereich: [0, 4294967295]
Der Text, der in Sprache umgewandelt werden soll.
Ob der Stream-Modus aktiviert werden soll
Die zu verwendende Sprach-ID.
Sprachcode (ISO 639-1) für das Modell und die Textnormalisierung. Wenn das Modell diesen Sprachcode nicht unterstützt, wird ein Fehler zurückgegeben.
Das Ausgabeformat des generierten Audios. Das Format lautet codec_sample_rate_bitrate. Für eine MP3-Bitrate von 192 kbps ist ein Creator-Konto oder höher erforderlich, für eine PCM-Abtastrate von 44,1 kHz ein Pro-Konto oder höher.Optionale Werte:
mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192Wenn true, wird die IVC-Version der Stimme anstelle der PVC-Version verwendet. Dies ist eine vorübergehende Lösung für die höhere Latenz der PVC-Version.
Steuert die Textnormalisierung. ‘auto’ lässt das System entscheiden, ‘on’ normalisiert immer, ‘off’ überspringt die Normalisierung.Optionale Werte:
auto, on, offSteuert die sprachspezifische Textnormalisierung für bestimmte unterstützte Sprachen, um eine natürlichere Aussprache zu erreichen. Warnung: Dies kann die Latenz erheblich erhöhen. Derzeit wird nur Japanisch unterstützt.
Liste der Aussprachewörterbuch-Locators (id, version_id), die auf den Text angewendet werden sollen. Sie werden der Reihe nach angewendet. Pro Anfrage sind maximal 3 Locators zulässig.Array-Länge: 0 - 3
Antwortinformationen
Generierte Audiodatei Format:binary