Zum Hauptinhalt springen
POST
/
v3
/
elevenlabs-tts-flash-v2.5
ElevenLabs Text-to-Speech Flash V2.5
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-flash-v2.5 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'
Konvertiert Text mit der von Ihnen gewählten Stimme in Sprache und gibt Audio zurück.

Anfrage-Header

Content-Type
string
erforderlich
Enumerationswert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragetext

seed
integer
Wenn angegeben, versucht das System, möglichst deterministisch zu samplen. Wiederholte Anfragen mit demselben seed und denselben Parametern sollten dasselbe Ergebnis zurückgeben, vollständige Deterministik wird jedoch nicht garantiert.Wertebereich: [0, 4294967295]
text
string
erforderlich
Der Text, der in Sprache umgewandelt werden soll.
stream
boolean
Ob der Stream-Modus aktiviert werden soll
voice_id
string
erforderlich
Die zu verwendende Sprach-ID.
next_text
string
Der Text nach dem Text der aktuellen Anfrage. Wird verwendet, um die Stimmkontinuität beim Zusammenfügen mehrerer Generierungen zu verbessern.
language_code
string
Der Sprachcode (ISO 639-1) für Modell- und Textnormalisierung. Wenn das Modell diesen Sprachcode nicht unterstützt, wird ein Fehler zurückgegeben.
output_format
string
Standard:"mp3_44100_128"
Das Ausgabeformat des generierten Audios. Das Format ist codec_sample_rate_bitrate. Für die Bitrate von 192 kbps bei MP3 ist ein Creator-Konto oder höher erforderlich, für die Abtastrate von 44,1 kHz bei PCM ist ein Pro-Konto oder höher erforderlich.Optionale Werte: mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192
previous_text
string
Der Text vor dem Text der aktuellen Anfrage. Wird verwendet, um die Stimmkontinuität beim Zusammenfügen mehrerer Generierungen zu verbessern.
use_pvc_as_ivc
boolean
Standard:false
Wenn true, wird die IVC-Version der Stimme anstelle der PVC-Version verwendet. Dies ist eine temporäre Lösung für die höhere Latenz der PVC-Version.
voice_settings
object
next_request_ids
array
Liste der request_id nachfolgender Samples. Wird verwendet, um die Stimmkontinuität beim erneuten Generieren von Samples zu erhalten. Es können maximal 3 request_id übergeben werden.Array-Länge: 0 - 3
previous_request_ids
array
Liste der request_id der vor der aktuellen Generierung bereits generierten Samples. Kann zur Verbesserung der Stimmkontinuität verwendet werden. Es können maximal 3 request_id übergeben werden.Array-Länge: 0 - 3
apply_text_normalization
string
Standard:"auto"
Steuert die Textnormalisierung. ‘auto’ lässt das System entscheiden, ‘on’ normalisiert immer, ‘off’ überspringt sie.Optionale Werte: auto, on, off
apply_language_text_normalization
boolean
Standard:false
Steuert die sprachspezifische Textnormalisierung für bestimmte unterstützte Sprachen, um eine natürlichere Aussprache zu erzielen. Warnung: Kann die Latenz erheblich erhöhen. Derzeit wird nur Japanisch unterstützt.
pronunciation_dictionary_locators
array
Liste der Aussprachewörterbuch-Locators (id, version_id), die auf den Text angewendet werden sollen. Sie werden der Reihe nach wirksam. Pro Anfrage sind maximal 3 Locators möglich.Array-Länge: 0 - 3

Antwortinformationen

Generierte Audiodatei Format: binary