Saltar al contenido principal
POST
/
v3
/
elevenlabs-tts-flash-v2.5
ElevenLabs texto a voz Flash V2.5
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-flash-v2.5 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'
Convierte texto a voz con la voz que elijas y devuelve el audio.

Encabezados de la solicitud

Content-Type
string
requerido
Valores enumerados: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

seed
integer
Si se especifica, el sistema intentará muestrear de forma determinista. Las solicitudes repetidas con el mismo seed y los mismos parámetros deberían devolver el mismo resultado, pero no se garantiza una determinación completa.Rango de valores: [0, 4294967295]
text
string
requerido
El texto que se convertirá a voz.
stream
boolean
Si se activa el modo Stream
voice_id
string
requerido
El ID de la voz que se utilizará.
next_text
string
El texto posterior al texto de la solicitud actual. Se utiliza para mejorar la continuidad de la voz al unir múltiples generaciones.
language_code
string
Código de idioma (ISO 639-1) utilizado para el modelo y la normalización del texto. Si el modelo no admite este código de idioma, se devolverá un error.
output_format
string
predeterminado:"mp3_44100_128"
Formato de salida del audio generado. El formato es codec_sample_rate_bitrate. La tasa de bits de 192 kbps para MP3 requiere una cuenta Creator o superior; la frecuencia de muestreo de 44.1 kHz para PCM requiere una cuenta Pro o superior.Valores opcionales: mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192
previous_text
string
El texto anterior al texto de la solicitud actual. Se utiliza para mejorar la continuidad de la voz al unir múltiples generaciones.
use_pvc_as_ivc
boolean
predeterminado:false
Si es true, se usa la versión IVC de la voz en lugar de la versión PVC. Esta es una solución temporal para la mayor latencia de la versión PVC.
voice_settings
object
next_request_ids
array
Lista de request_id de muestras posteriores. Se utiliza para mantener la continuidad de la voz al regenerar muestras. Se pueden enviar como máximo 3 request_id.Longitud del arreglo: 0 - 3
previous_request_ids
array
Lista de request_id de muestras generadas antes de la generación actual. Puede utilizarse para mejorar la continuidad de la voz. Se pueden enviar como máximo 3 request_id.Longitud del arreglo: 0 - 3
apply_text_normalization
string
predeterminado:"auto"
Controla la normalización del texto. ‘auto’ deja que el sistema decida, ‘on’ siempre normaliza y ‘off’ la omite.Valores opcionales: auto, on, off
apply_language_text_normalization
boolean
predeterminado:false
Controla la normalización lingüística del texto para ciertos idiomas compatibles con el fin de lograr una pronunciación más natural. Advertencia: puede aumentar significativamente la latencia. Actualmente solo se admite japonés.
pronunciation_dictionary_locators
array
Lista de localizadores de diccionarios de pronunciación (id, version_id) que deben aplicarse al texto. Se aplican en orden. Cada solicitud puede tener como máximo 3 localizadores.Longitud del arreglo: 0 - 3

Información de respuesta

Archivo de audio generado Formato: binary