Saltar al contenido principal
POST
/
v3
/
async
/
minimax-speech-2.6-hd
Síntesis de voz asíncrona MiniMax Speech-2.6-hd
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.6-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'
{
  "task_id": "<string>"
}
Esta API admite la generación asíncrona de texto a voz. La transmisión de generación de texto en una sola vez admite hasta 1 millón de caracteres, y el resultado de audio completo generado se puede recuperar de forma asíncrona. Admite más de 100 voces del sistema y voces clonadas seleccionables libremente; también permite ajustar de forma independiente la entonación, la velocidad, el volumen, la tasa de bits, la frecuencia de muestreo y el formato de salida. Después de enviar una solicitud de síntesis de voz para texto largo, tenga en cuenta que la URL devuelta tiene una validez de 24 horas desde el momento en que se devuelve la URL. Preste atención al tiempo disponible para descargar la información.
Es adecuado para la generación de voz de textos largos, como libros completos; el tiempo de espera en cola de la tarea puede ser prolongado. Para escenarios como generación de frases cortas, chat de voz y socialización en línea, se recomienda usar la síntesis de voz mediante llamada síncrona.

Encabezados de solicitud

Content-Type
string
requerido
Valores enumerados: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text
string
requerido
Texto que se va a sintetizar, con un límite máximo de 50 000 caracteres.
voice_setting
object
requerido
audio_setting
object
pronunciation_dict
object
language_boost
string
predeterminado:"null"
Mejora la capacidad de reconocimiento de idiomas minoritarios y dialectos especificados. Una vez configurado, puede mejorar el rendimiento de voz en escenarios del idioma minoritario/dialecto especificado. Si no está claro el tipo de idioma minoritario, se puede seleccionar “auto” y el modelo determinará de forma autónoma el tipo de idioma minoritario. Admite los siguientes valores:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
voice_modify
object
Configuración del efecto de voz. Formatos de audio admitidos por este parámetro: mp3, wav, flac

Parámetros de información de respuesta

task_id
string
requerido
El task_id de la tarea asíncrona. Debe usar este task_id para solicitar la API de consulta del resultado de la tarea y obtener el resultado generado.