ElevenLabs Text-to-Speech Flash V2
Audio
ElevenLabs Text-to-Speech Flash V2
POST
ElevenLabs Text-to-Speech Flash V2
Konvertiert Text mit der von Ihnen gewählten Stimme in Sprache und gibt Audio zurück.
Anfrageheader
Enumerationswert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API-Schlüssel}}.
Anfragetext
Falls angegeben, versucht das System, so deterministisch wie möglich zu sampeln. Wiederholte Anfragen mit demselben seed und denselben Parametern sollten dasselbe Ergebnis zurückgeben, eine vollständige Deterministik wird jedoch nicht garantiert.Wertebereich: [0, 4294967295]
Der Text, der in Sprache konvertiert werden soll.
Ob der Stream-Modus aktiviert werden soll.
Die zu verwendende Sprach-ID.
Der Text nach dem Text der aktuellen Anfrage. Wird verwendet, um die Sprachkohärenz beim Zusammenfügen mehrerer Generierungen zu verbessern.
Sprachcode (ISO 639-1), der für das Modell und die Textnormalisierung verwendet wird. Wenn das Modell diesen Sprachcode nicht unterstützt, wird ein Fehler zurückgegeben.
Ausgabeformat des generierten Audios. Das Format lautet codec_sample_rate_bitrate. Eine Bitrate von 192 kbps für MP3 erfordert ein Creator-Konto oder höher; eine Abtastrate von 44,1 kHz für PCM erfordert ein Pro-Konto oder höher.Optionale Werte:
mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192Der Text vor dem Text der aktuellen Anfrage. Wird verwendet, um die Sprachkohärenz beim Zusammenfügen mehrerer Generierungen zu verbessern.
Wenn true, wird die IVC-Version der Stimme anstelle der PVC-Version verwendet. Dies ist eine temporäre Lösung für die höhere Latenz der PVC-Version.
Liste der request_id nachfolgender Samples. Wird verwendet, um die Sprachkohärenz beim erneuten Generieren von Samples beizubehalten. Es können maximal 3 request_id übergeben werden.Array-Länge: 0 - 3
Liste der request_id von Samples, die vor der aktuellen Generierung bereits generiert wurden. Kann verwendet werden, um die Sprachkohärenz zu verbessern. Es können maximal 3 request_id übergeben werden.Array-Länge: 0 - 3
Steuert die Textnormalisierung. ‘auto’ wird vom System entschieden, ‘on’ normalisiert immer, ‘off’ überspringt sie.Optionale Werte:
auto, on, offSteuert die sprachspezifische Textnormalisierung für bestimmte unterstützte Sprachen, um eine natürlichere Aussprache zu erzielen. Warnung: Dies kann die Latenz deutlich erhöhen. Derzeit wird nur Japanisch unterstützt.
Liste der Aussprachewörterbuch-Locators (id, version_id), die auf den Text angewendet werden sollen. Sie werden der Reihe nach angewendet. Pro Anfrage sind maximal 3 Locators möglich.Array-Länge: 0 - 3
Antwortinformationen
Generierte Audiodatei Format:binary