ElevenLabs Text-to-Speech Flash V2.5

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-flash-v2.5 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'

POST

elevenlabs-tts-flash-v2.5

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-flash-v2.5 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'

Konvertiert Text mit der von Ihnen gewählten Stimme in Sprache und gibt Audio zurück.

Anfrage-Header

Content-Type

string

erforderlich

Enumerationswert: application/json

Authorization

string

erforderlich

Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragetext

seed

integer

Wenn angegeben, versucht das System, möglichst deterministisch zu samplen. Wiederholte Anfragen mit demselben seed und denselben Parametern sollten dasselbe Ergebnis zurückgeben, vollständige Deterministik wird jedoch nicht garantiert.Wertebereich: [0, 4294967295]

text

string

erforderlich

Der Text, der in Sprache umgewandelt werden soll.

stream

boolean

Ob der Stream-Modus aktiviert werden soll

voice_id

string

erforderlich

Die zu verwendende Sprach-ID.

next_text

string

Der Text nach dem Text der aktuellen Anfrage. Wird verwendet, um die Stimmkontinuität beim Zusammenfügen mehrerer Generierungen zu verbessern.

language_code

string

Der Sprachcode (ISO 639-1) für Modell- und Textnormalisierung. Wenn das Modell diesen Sprachcode nicht unterstützt, wird ein Fehler zurückgegeben.

output_format

string

Standard:"mp3_44100_128"

Das Ausgabeformat des generierten Audios. Das Format ist codec_sample_rate_bitrate. Für die Bitrate von 192 kbps bei MP3 ist ein Creator-Konto oder höher erforderlich, für die Abtastrate von 44,1 kHz bei PCM ist ein Pro-Konto oder höher erforderlich.Optionale Werte: mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192

previous_text

string

Der Text vor dem Text der aktuellen Anfrage. Wird verwendet, um die Stimmkontinuität beim Zusammenfügen mehrerer Generierungen zu verbessern.

use_pvc_as_ivc

boolean

Standard:false

Wenn true, wird die IVC-Version der Stimme anstelle der PVC-Version verwendet. Dies ist eine temporäre Lösung für die höhere Latenz der PVC-Version.

voice_settings

object

Ausblenden Eigenschaften

speed

number

Standard:1

Passt die Geschwindigkeit der Stimme an. 1.0 ist die Standardgeschwindigkeit; kleiner als 1.0 verlangsamt die Sprechgeschwindigkeit, größer als 1.0 beschleunigt sie.

style

number

Standard:0

Bestimmt, wie stark der Sprechstil überzeichnet wird. Versucht, den Stil des ursprünglichen Sprechers zu verstärken. Ein Wert ungleich 0 verbraucht mehr Rechenressourcen und kann die Latenz erhöhen.

stability

number

Bestimmt die Stabilität der Sprachgenerierung und die Zufälligkeit zwischen einzelnen Generierungen. Niedrigere Werte ermöglichen eine breitere emotionale Spannweite, höhere Werte können zu monotoner Sprache führen.

similarity_boost

number

Bestimmt, wie genau die KI versucht, die ursprüngliche Stimme nachzubilden.

use_speaker_boost

boolean

Standard:true

Erhöht die Ähnlichkeit mit dem ursprünglichen Sprecher. Erfordert etwas mehr Rechenlast und erhöht die Latenz.

next_request_ids

array

Liste der request_id nachfolgender Samples. Wird verwendet, um die Stimmkontinuität beim erneuten Generieren von Samples zu erhalten. Es können maximal 3 request_id übergeben werden.Array-Länge: 0 - 3

previous_request_ids

array

Liste der request_id der vor der aktuellen Generierung bereits generierten Samples. Kann zur Verbesserung der Stimmkontinuität verwendet werden. Es können maximal 3 request_id übergeben werden.Array-Länge: 0 - 3

apply_text_normalization

string

Standard:"auto"

Steuert die Textnormalisierung. ‘auto’ lässt das System entscheiden, ‘on’ normalisiert immer, ‘off’ überspringt sie.Optionale Werte: auto, on, off

apply_language_text_normalization

boolean

Standard:false

Steuert die sprachspezifische Textnormalisierung für bestimmte unterstützte Sprachen, um eine natürlichere Aussprache zu erzielen. Warnung: Kann die Latenz erheblich erhöhen. Derzeit wird nur Japanisch unterstützt.

pronunciation_dictionary_locators

array

Liste der Aussprachewörterbuch-Locators (id, version_id), die auf den Text angewendet werden sollen. Sie werden der Reihe nach wirksam. Pro Anfrage sind maximal 3 Locators möglich.Array-Länge: 0 - 3

Ausblenden Eigenschaften

version_id

string

Die ID der Aussprachewörterbuch-Version. Wenn nicht angegeben, wird die neueste Version verwendet.

pronunciation_dictionary_id

string

erforderlich

Die ID des Aussprachewörterbuchs.