Saltar al contenido principal
POST
/
v3
/
async
/
minimax-speech-2.8-hd
Síntesis de voz asíncrona MiniMax Speech 2.8 HD
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}
Use esta interfaz para crear una tarea asíncrona de síntesis de voz. Admite entrada de texto o archivo; el texto está limitado a un máximo de 50 000 caracteres y los archivos a un máximo de 100 000 caracteres.
Esta es una API asíncrona y solo devolverá el task_id de la tarea asíncrona. Debe usar ese task_id para solicitar la API de consulta de resultado de tarea a fin de recuperar el resultado generado.

Encabezados de solicitud

Content-Type
string
requerido
Valor enumerado: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text
string
Texto del audio que se va a sintetizar, limitado a un máximo de 50 000 caracteres. Se debe proporcionar obligatoriamente uno de text_file_id o text

• Etiquetas de interjecciones: solo cuando el modelo seleccionado sea speech-2.8-hd o speech-2.8-turbo, se admite insertar etiquetas de interjecciones en el texto. Interjecciones admitidas: (laughs) (risa), (chuckle) (risa leve), (coughs) (tos), (clear-throat) (carraspeo), (groans) (gemido), (breath) (respiración normal), (pant) (jadeo), (inhale) (inhalación), (exhale) (exhalación), (gasps) (aspiración repentina), (sniffs) (sorber la nariz), (sighs) (suspiro), (snorts) (resoplido), (burps) (eructo), (lip-smacking) (chasquido de labios), (humming) (tarareo), (hissing) (silbido sibilante), (emm) (eh/em), (whistles) (silbido), (sneezes) (estornudo), (crying) (sollozo), (applause) (aplausos)
text_file_id
integer
id del archivo de texto del audio que se va a sintetizar; la longitud de un único archivo debe ser inferior a 100 000 caracteres. Formatos de archivo admitidos: txt, zip. Se debe proporcionar obligatoriamente uno de text o text_file_id; después de enviarlo, el formato se validará automáticamente.
Archivo txt: límite de longitud <100000 caracteres. Admite usar &lt;#x#&gt; para marcar pausas personalizadas. x es la duración de la pausa (unidad: segundos), rango [0.01, 99.99], con un máximo de dos decimales. Tenga en cuenta que la pausa debe colocarse entre dos fragmentos de texto que puedan pronunciarse, y no se pueden usar varias marcas de pausa de forma consecutiva
Archivo zip:
• El paquete comprimido debe contener archivos txt o json del mismo formato.
• Formato de archivo json: admite tres campos: [title, content, extra], que representan respectivamente título, cuerpo e información adicional. Si los tres campos existen, se producirán 3 grupos de resultados, con un total de 9 archivos, almacenados de forma unificada en una carpeta. Si algún campo no existe o su contenido está vacío, no se generará el resultado correspondiente para ese campo
voice_modify
object
audio_setting
object
voice_setting
object
requerido
aigc_watermark
boolean
predeterminado:false
Controla la adición de una marca de ritmo de audio al final del audio sintetizado. El valor predeterminado es False. Este parámetro solo es efectivo para síntesis no en streaming
language_boost
string
Indica si se debe mejorar la capacidad de reconocimiento para idiomas minoritarios y dialectos especificados. El valor predeterminado es null; puede establecerse en auto para que el modelo lo determine de forma autónoma.Valores opcionales: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
continuous_sound
boolean
predeterminado:false
Active este parámetro para que la conexión entre cláusulas sea más natural. Solo admite los modelos speech-2.8-hd y speech-2.8-turbo
pronunciation_dict
object

Información de respuesta

file_id
integer
ID del archivo de audio correspondiente devuelto después de crear correctamente la tarea.

• Una vez completada la tarea, se puede consultar mediante file_id. Cuando se produce un error en la solicitud, este campo no se devuelve
Nota: La URL de descarga devuelta es válida durante 9 horas (32400 segundos) desde su generación. Después de expirar, el archivo dejará de ser válido y la información generada se perderá; preste atención al tiempo de descarga de la información
task_id
string
Use task_id para solicitar la API de consulta de resultado de tarea a fin de recuperar la salida generada.
base_resp
object
task_token
string
Información de clave utilizada para completar la tarea actual
usage_characters
integer
Número de caracteres facturables