Saltar al contenido principal
POST
/
v3
/
async
/
minimax-speech-2.5-hd-preview
Síntesis de voz asíncrona MiniMax Speech-2.5-hd-preview
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.5-hd-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'
{
  "task_id": "<string>"
}
Esta API admite la generación asíncrona de texto a voz. Una sola generación de texto admite hasta 1 millón de caracteres para la transmisión, y el resultado de audio completo generado se puede recuperar de forma asíncrona. Admite más de 100 voces del sistema y voces clonadas a elección del usuario; también permite ajustar de forma independiente la entonación, velocidad, volumen, tasa de bits, frecuencia de muestreo y formato de salida. Después de enviar una solicitud de síntesis de voz para textos largos, tenga en cuenta que la url devuelta tiene una validez de 24 horas a partir del momento en que se devuelve. Preste atención al momento de descarga de la información.
Aplicable a la generación de voz para textos largos, como libros completos. El tiempo de espera en cola de la tarea puede ser prolongado. Para escenarios como generación de frases cortas, chat de voz y redes sociales en línea, se recomienda usar síntesis de voz mediante llamada síncrona.

Encabezados de solicitud

Content-Type
string
requerido
Valores enumerados: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text
string
requerido
Texto que se va a sintetizar, con un límite máximo de 50 000 caracteres.
voice_setting
object
requerido
audio_setting
object
pronunciation_dict
object
language_boost
string
predeterminado:"null"
Mejora la capacidad de reconocimiento para idiomas minoritarios y dialectos especificados. Una vez configurado, puede mejorar el rendimiento de voz en escenarios del idioma minoritario/dialecto especificado. Si no está claro el tipo de idioma minoritario, puede seleccionar “auto” y el modelo determinará el tipo de idioma de forma autónoma. Admite los siguientes valores:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
voice_modify
object
Configuración de efectos de voz. Este parámetro admite los siguientes formatos de audio: mp3, wav, flac

Parámetros de la información de respuesta

task_id
string
requerido
task_id de la tarea asíncrona. Debe usar este task_id para solicitar la API de consulta de resultados de tarea y obtener el resultado generado