ElevenLabs Text-to-Speech Multilingual V2
Audio
ElevenLabs Text-to-Speech Multilingual V2
POST
ElevenLabs Text-to-Speech Multilingual V2
Konvertiert Text mit der von Ihnen gewählten Stimme in Sprache und gibt Audio zurück.
Request-Header
Enum-Wert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API-Schlüssel}}.
Request-Body
Falls angegeben, versucht das System, möglichst deterministisch zu samplen. Wiederholte Anfragen mit demselben seed und denselben Parametern sollten dasselbe Ergebnis zurückgeben, eine vollständige Deterministik ist jedoch nicht garantiert.Wertebereich: [0, 4294967295]
Der Text, der in Sprache konvertiert werden soll.
Die zu verwendende Sprach-ID.
Der Text nach dem Text der aktuellen Anfrage. Wird verwendet, um die Sprachkohärenz beim Zusammenfügen mehrerer Generierungen zu verbessern.
Sprachcode (ISO 639-1) für Modell und Textnormalisierung. Wenn das Modell diesen Sprachcode nicht unterstützt, wird ein Fehler zurückgegeben.
Ausgabeformat des generierten Audios. Das Format ist codec_sample_rate_bitrate. Eine MP3-Bitrate von 192 kbps erfordert ein Creator-Konto oder höher, eine PCM-Abtastrate von 44,1 kHz erfordert ein Pro-Konto oder höher.Mögliche Werte:
mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192Der Text vor dem Text der aktuellen Anfrage. Wird verwendet, um die Sprachkohärenz beim Zusammenfügen mehrerer Generierungen zu verbessern.
Wenn true, wird die IVC-Version der Stimme anstelle der PVC-Version verwendet. Dies ist eine vorübergehende Lösung für die höhere Latenz der PVC-Version.
Liste der request_id nachfolgender Samples. Wird verwendet, um die Sprachkohärenz beim erneuten Generieren von Samples zu erhalten. Es können maximal 3 request_id übergeben werden.Array-Länge: 0 - 3
Liste der request_id bereits generierter Samples vor der aktuellen Generierung. Kann verwendet werden, um die Sprachkohärenz zu verbessern. Es können maximal 3 request_id übergeben werden.Array-Länge: 0 - 3
Steuert die Textnormalisierung. ‘auto’ wird vom System entschieden, ‘on’ normalisiert immer, ‘off’ überspringt sie.Mögliche Werte:
auto, on, offSteuert die sprachspezifische Textnormalisierung für bestimmte unterstützte Sprachen, um eine natürlichere Aussprache zu erreichen. Warnung: Kann die Latenz erheblich erhöhen. Derzeit wird nur Japanisch unterstützt.
Liste der Aussprachewörterbuch-Locators (id, version_id), die auf den Text angewendet werden sollen. Sie werden der Reihe nach angewendet. Pro Anfrage sind maximal 3 Locators zulässig.Array-Länge: 0 - 3
Antwortinformationen
Generierte Audiodatei Format:binary