Saltar al contenido principal
POST
/
v3
/
async
/
minimax-speech-2.6-turbo
Síntesis de voz asíncrona MiniMax Speech-2.6-turbo
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.6-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'
{
  "task_id": "<string>"
}
Esta API admite la generación asíncrona de texto a voz. Una sola transmisión de generación de texto admite hasta 1 millón de caracteres, y el resultado de audio completo generado puede recuperarse de forma asíncrona. Admite más de 100 voces del sistema y selección independiente de voces clonadas; también permite ajustar de forma independiente la entonación, velocidad, volumen, tasa de bits, frecuencia de muestreo y formato de salida. Después de enviar una solicitud de síntesis de voz para texto largo, tenga en cuenta que la url devuelta es válida durante 24 horas desde el momento en que se devuelve la url. Preste atención al plazo de descarga de la información.
Es adecuada para la generación de voz de textos largos, como libros completos; el tiempo de cola de la tarea puede ser más prolongado. Para escenarios como generación de frases cortas, chat de voz o interacción social en línea, se recomienda usar la síntesis de voz con llamada síncrona.

Encabezados de solicitud

Content-Type
string
requerido
Valores enumerados: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text
string
requerido
Texto que se va a sintetizar, con un límite máximo de 50 000 caracteres.
voice_setting
object
requerido
audio_setting
object
pronunciation_dict
object
language_boost
string
predeterminado:"null"
Mejora la capacidad de reconocimiento para idiomas minoritarios y dialectos especificados. Una vez configurado, puede mejorar el rendimiento de voz en escenarios del idioma minoritario/dialecto especificado. Si no está claro el tipo de idioma minoritario, puede elegir “auto”, y el modelo determinará de forma autónoma el tipo de idioma minoritario. Admite los siguientes valores:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
voice_modify
object
Configuración de efectos de voz. Este parámetro admite los siguientes formatos de audio: mp3, wav, flac

Parámetros de información de respuesta

task_id
string
requerido
El task_id de la tarea asíncrona. Debe usar este task_id para solicitar la API de consulta de resultado de tarea y obtener el resultado generado.