Zum Hauptinhalt springen
POST
/
v3
/
elevenlabs-tts-turbo-v2
ElevenLabs Text-to-Speech Turbo v2
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-turbo-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'
Konvertiert Text mit der von Ihnen gewählten Stimme in Sprache und gibt Audio zurück.

Request-Header

Content-Type
string
erforderlich
Enum-Wert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Request-Body

seed
integer
Falls angegeben, versucht das System, möglichst deterministisch zu sampeln. Wiederholte Anfragen mit demselben seed und denselben Parametern sollten dasselbe Ergebnis zurückgeben, eine vollständige Deterministik ist jedoch nicht garantiert.Wertebereich: [0, 4294967295]
text
string
erforderlich
Der Text, der in Sprache konvertiert werden soll.
voice_id
string
erforderlich
Die zu verwendende Stimmen-ID.
next_text
string
Der Text nach dem Text der aktuellen Anfrage. Wird verwendet, um die Sprachkohärenz beim Zusammenfügen mehrerer Generierungen zu verbessern.
language_code
string
Sprachcode (ISO 639-1) für Modell und Textnormalisierung. Wenn das Modell diesen Sprachcode nicht unterstützt, wird ein Fehler zurückgegeben.
output_format
string
Standard:"mp3_44100_128"
Das Ausgabeformat des generierten Audios. Format: codec_sample_rate_bitrate. Eine MP3-Bitrate von 192 kbps erfordert ein Creator-Konto oder höher, eine PCM-Abtastrate von 44,1 kHz erfordert ein Pro-Konto oder höher.Optionale Werte: mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192
previous_text
string
Der Text vor dem Text der aktuellen Anfrage. Wird verwendet, um die Sprachkohärenz beim Zusammenfügen mehrerer Generierungen zu verbessern.
use_pvc_as_ivc
boolean
Standard:false
Wenn true, wird die IVC-Version der Stimme anstelle der PVC-Version verwendet. Dies ist eine vorübergehende Lösung für die höhere Latenz der PVC-Version.
voice_settings
object
next_request_ids
array
Liste der request_id-Werte nachfolgender Samples. Wird verwendet, um die Sprachkohärenz beim erneuten Generieren von Samples beizubehalten. Es können maximal 3 request_id-Werte übergeben werden.Array-Länge: 0 - 3
previous_request_ids
array
Liste der request_id-Werte von Samples, die vor der aktuellen Generierung erstellt wurden. Kann zur Verbesserung der Sprachkohärenz verwendet werden. Es können maximal 3 request_id-Werte übergeben werden.Array-Länge: 0 - 3
apply_text_normalization
string
Standard:"auto"
Steuert die Textnormalisierung. ‘auto’ lässt das System entscheiden, ‘on’ normalisiert immer, ‘off’ überspringt die Normalisierung.Optionale Werte: auto, on, off
apply_language_text_normalization
boolean
Standard:false
Steuert die sprachspezifische Textnormalisierung für einige unterstützte Sprachen, um eine natürlichere Aussprache zu erreichen. Warnung: Kann die Latenz erheblich erhöhen. Derzeit wird nur Japanisch unterstützt.
pronunciation_dictionary_locators
array
Liste der Aussprachewörterbuch-Locators (id, version_id), die auf den Text angewendet werden sollen. Sie werden der Reihe nach angewendet. Pro Anfrage sind maximal 3 Locators möglich.Array-Länge: 0 - 3

Antwortinformationen

Generierte Audiodatei Format: binary