Saltar al contenido principal
POST
/
v3
/
async
/
minimax-speech-2.5-turbo-preview
Síntesis de voz asíncrona MiniMax Speech-2.5-turbo-preview
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.5-turbo-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'
{
  "task_id": "<string>"
}
Esta API admite la generación asíncrona de texto a voz. Una sola generación de texto admite una transmisión máxima de 1 millón de caracteres, y el resultado de audio completo generado puede recuperarse de forma asíncrona. Admite más de 100 voces del sistema y voces clonadas seleccionables libremente; también permite ajustar libremente la entonación, la velocidad, el volumen, la tasa de bits, la frecuencia de muestreo y el formato de salida. Después de enviar una solicitud de síntesis de voz para texto largo, tenga en cuenta que la URL devuelta es válida durante 24 horas a partir del momento en que se devuelve. Preste atención al tiempo disponible para descargar la información.
Aplicable a la generación de voz para textos largos, como libros completos; el tiempo de espera en cola de la tarea puede ser prolongado. Para escenarios como generación de frases cortas, chat de voz y socialización en línea, se recomienda usar la llamada síncrona de síntesis de voz.

Encabezados de solicitud

Content-Type
string
requerido
Valores enumerados: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text
string
requerido
Texto que se va a sintetizar, con un límite máximo de 50 000 caracteres.
voice_setting
object
requerido
audio_setting
object
pronunciation_dict
object
language_boost
string
predeterminado:"null"
Mejora la capacidad de reconocimiento de idiomas minoritarios y dialectos especificados. Tras configurarlo, puede mejorar el rendimiento de voz en escenarios del idioma minoritario/dialecto especificado. Si no se conoce claramente el tipo de idioma minoritario, se puede seleccionar “auto”, y el modelo determinará de forma autónoma el tipo de idioma minoritario. Admite los siguientes valores:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
voice_modify
object
Configuración del modificador de efectos de voz. Formatos de audio admitidos por este parámetro: mp3, wav, flac

Parámetros de la información de respuesta

task_id
string
requerido
El task_id de la tarea asíncrona. Debe usar este task_id para solicitar la API de consulta de resultado de tarea y obtener el resultado generado.