ElevenLabs texto a voz Flash V2.5

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-flash-v2.5 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'

POST

elevenlabs-tts-flash-v2.5

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-flash-v2.5 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'

Convierte texto a voz con la voz que elijas y devuelve el audio.

Encabezados de la solicitud

Content-Type

string

requerido

Valores enumerados: application/json

Authorization

string

requerido

Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

seed

integer

Si se especifica, el sistema intentará muestrear de forma determinista. Las solicitudes repetidas con el mismo seed y los mismos parámetros deberían devolver el mismo resultado, pero no se garantiza una determinación completa.Rango de valores: [0, 4294967295]

text

string

requerido

El texto que se convertirá a voz.

stream

boolean

Si se activa el modo Stream

voice_id

string

requerido

El ID de la voz que se utilizará.

next_text

string

El texto posterior al texto de la solicitud actual. Se utiliza para mejorar la continuidad de la voz al unir múltiples generaciones.

language_code

string

Código de idioma (ISO 639-1) utilizado para el modelo y la normalización del texto. Si el modelo no admite este código de idioma, se devolverá un error.

output_format

string

predeterminado:"mp3_44100_128"

Formato de salida del audio generado. El formato es codec_sample_rate_bitrate. La tasa de bits de 192 kbps para MP3 requiere una cuenta Creator o superior; la frecuencia de muestreo de 44.1 kHz para PCM requiere una cuenta Pro o superior.Valores opcionales: mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192

previous_text

string

El texto anterior al texto de la solicitud actual. Se utiliza para mejorar la continuidad de la voz al unir múltiples generaciones.

use_pvc_as_ivc

boolean

predeterminado:false

Si es true, se usa la versión IVC de la voz en lugar de la versión PVC. Esta es una solución temporal para la mayor latencia de la versión PVC.

voice_settings

object

Ocultar propiedades

speed

number

predeterminado:1

Ajusta la velocidad de la voz. 1.0 es la velocidad predeterminada; un valor inferior a 1.0 ralentiza el habla, y un valor superior a 1.0 la acelera.

style

number

predeterminado:0

Determina el grado de exageración del estilo de la voz. Intenta amplificar el estilo del hablante original. Establecerlo en un valor distinto de 0 consumirá más recursos de cómputo y puede aumentar la latencia.

stability

number

Determina la estabilidad de la generación de voz y la aleatoriedad entre cada generación. Los valores más bajos aportan un rango emocional más amplio; los valores más altos pueden hacer que la voz suene monótona.

similarity_boost

number

Determina qué tanto se ajusta la IA al intentar replicar la voz original.

use_speaker_boost

boolean

predeterminado:true

Mejora la similitud con el hablante original. Requiere una carga de cómputo ligeramente mayor y aumentará la latencia.

next_request_ids

array

Lista de request_id de muestras posteriores. Se utiliza para mantener la continuidad de la voz al regenerar muestras. Se pueden enviar como máximo 3 request_id.Longitud del arreglo: 0 - 3

previous_request_ids

array

Lista de request_id de muestras generadas antes de la generación actual. Puede utilizarse para mejorar la continuidad de la voz. Se pueden enviar como máximo 3 request_id.Longitud del arreglo: 0 - 3

apply_text_normalization

string

predeterminado:"auto"

Controla la normalización del texto. ‘auto’ deja que el sistema decida, ‘on’ siempre normaliza y ‘off’ la omite.Valores opcionales: auto, on, off

apply_language_text_normalization

boolean

predeterminado:false

Controla la normalización lingüística del texto para ciertos idiomas compatibles con el fin de lograr una pronunciación más natural. Advertencia: puede aumentar significativamente la latencia. Actualmente solo se admite japonés.

pronunciation_dictionary_locators

array

Lista de localizadores de diccionarios de pronunciación (id, version_id) que deben aplicarse al texto. Se aplican en orden. Cada solicitud puede tener como máximo 3 localizadores.Longitud del arreglo: 0 - 3

Ocultar propiedades

version_id

string

El ID de la versión del diccionario de pronunciación. Si no se especifica, se utiliza la versión más reciente.

pronunciation_dictionary_id

string

requerido

El ID del diccionario de pronunciación.

Información de respuesta

Archivo de audio generado Formato: binary

ElevenLabs texto a voz Flash V2

ElevenLabs texto a voz Multilingual V2

​Encabezados de la solicitud

​Cuerpo de la solicitud

​Información de respuesta

Encabezados de la solicitud

Cuerpo de la solicitud

Información de respuesta