ElevenLabs Text-zu-Sprache Turbo V2.5
Audio
ElevenLabs Text-zu-Sprache Turbo V2.5
POST
ElevenLabs Text-zu-Sprache Turbo V2.5
Konvertiert Text mit der von Ihnen gewählten Stimme in Sprache und gibt Audio zurück.
Anfrageheader
Enumerationswert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API Key}}.
Anfragetext
Falls angegeben, versucht das System, möglichst deterministisch zu sampeln. Wiederholte Anfragen mit demselben seed und denselben Parametern sollten dasselbe Ergebnis zurückgeben, eine vollständige Deterministik wird jedoch nicht garantiert.Wertebereich: [0, 4294967295]
Der Text, der in Sprache umgewandelt werden soll.
Die zu verwendende Sprach-ID.
Der Text nach dem Text der aktuellen Anfrage. Wird verwendet, um die Sprachkohärenz beim Zusammenfügen mehrerer Generierungen zu verbessern.
Sprachcode (ISO 639-1) für das Modell und die Textnormalisierung. Wenn das Modell diesen Sprachcode nicht unterstützt, wird ein Fehler zurückgegeben.
Ausgabeformat des generierten Audios. Das Format ist codec_sample_rate_bitrate. Eine MP3-Bitrate von 192 kbps erfordert ein Creator-Konto oder höher, eine PCM-Abtastrate von 44,1 kHz erfordert ein Pro-Konto oder höher.Mögliche Werte:
mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192Der Text vor dem Text der aktuellen Anfrage. Wird verwendet, um die Sprachkohärenz beim Zusammenfügen mehrerer Generierungen zu verbessern.
Wenn true, wird die IVC-Version der Stimme anstelle der PVC-Version verwendet. Dies ist eine vorübergehende Lösung für die höhere Latenz der PVC-Version.
Liste der request_id nachfolgender Samples. Wird verwendet, um die Sprachkohärenz beim erneuten Generieren von Samples zu erhalten. Es können höchstens 3 request_id übergeben werden.Array-Länge: 0 - 3
Liste der request_id von Samples, die vor der aktuellen Generierung bereits generiert wurden. Kann verwendet werden, um die Sprachkohärenz zu verbessern. Es können höchstens 3 request_id übergeben werden.Array-Länge: 0 - 3
Steuert die Textnormalisierung. ‘auto’ lässt das System entscheiden, ‘on’ normalisiert immer, ‘off’ überspringt die Normalisierung.Mögliche Werte:
auto, on, offSteuert die sprachspezifische Textnormalisierung für bestimmte unterstützte Sprachen, um eine natürlichere Aussprache zu ermöglichen. Warnung: Dies kann die Latenz erheblich erhöhen. Derzeit wird nur Japanisch unterstützt.
Liste der Aussprachewörterbuch-Locators (id, version_id), die auf den Text angewendet werden sollen. Sie werden der Reihe nach angewendet. Pro Anfrage sind höchstens 3 Locators möglich.Array-Länge: 0 - 3
Antwortinformationen
Generierte Audiodatei Format:binary