Saltar al contenido principal
POST
/
v3
/
async
/
minimax-speech-02-hd
Síntesis de voz asíncrona MiniMax Speech-02-hd
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-02-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'
{
  "task_id": "<string>"
}
Esta API admite la generación asíncrona de texto a voz. La transferencia de texto para una sola generación admite hasta 1 millón de caracteres, y el resultado de audio completo generado se puede recuperar de forma asíncrona. Admite la selección independiente de más de 100 voces del sistema y voces clonadas; también permite ajustar de forma independiente la entonación, la velocidad, el volumen, la tasa de bits, la frecuencia de muestreo y el formato de salida. Después de enviar una solicitud de síntesis de voz para texto largo, tenga en cuenta que la URL devuelta es válida durante 24 horas desde el momento en que se devuelve. Preste atención al tiempo disponible para descargar la información.
Ideal para la generación de voz a partir de textos largos, como libros completos. El tiempo de espera en la cola de tareas puede ser prolongado. Para escenarios como generación de frases cortas, chat de voz y socialización en línea, se recomienda usar la llamada síncrona de síntesis de voz.

Encabezados de solicitud

Content-Type
string
requerido
Valores enumerados: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text
string
requerido
Texto que se va a sintetizar. Límite máximo: 50 000 caracteres.
voice_setting
object
requerido
audio_setting
object
pronunciation_dict
object
language_boost
string
predeterminado:"null"
Mejora la capacidad de reconocimiento para idiomas minoritarios y dialectos especificados. Después de configurarlo, puede mejorar el rendimiento de la voz en escenarios del idioma minoritario/dialecto especificado. Si no está claro el tipo de idioma minoritario, puede seleccionar “auto” y el modelo determinará el tipo de idioma minoritario de forma autónoma. Admite los siguientes valores:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
voice_modify
object
Configuración de efectos de voz. Formatos de audio admitidos por este parámetro: mp3, wav, flac

Parámetros de la información de respuesta

task_id
string
requerido
task_id de la tarea asíncrona. Debe usar este task_id para solicitar la API de consulta de resultado de tarea y obtener el resultado generado