Saltar al contenido principal
POST
/
v3
/
async
/
minimax-speech-2.8-turbo
Síntesis de voz asíncrona MiniMax Speech 2.8 Turbo
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}
Use esta interfaz para crear tareas de síntesis de voz asíncrona. Admite entrada de texto o archivo; la longitud máxima del texto es de 50 000 caracteres y la del archivo es de 100 000 caracteres.
Esta es una API asíncrona que solo devuelve el task_id de la tarea asíncrona. Debe usar ese task_id para solicitar la API de consulta del resultado de la tarea y recuperar el resultado generado.

Encabezados de solicitud

Content-Type
string
requerido
Valores enumerados: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text
string
Texto del audio que se va a sintetizar, con un límite máximo de 50 000 caracteres. Es obligatorio proporcionar uno de text o text_file_id

• Etiquetas de interjecciones: solo cuando el modelo seleccionado es speech-2.8-hd o speech-2.8-turbo, se admite insertar etiquetas de interjecciones en el texto. Interjecciones admitidas: (laughs) (risa), (chuckle) (risa suave), (coughs) (tos), (clear-throat) (aclararse la garganta), (groans) (gemido), (breath) (respiración normal), (pant) (jadeo), (inhale) (inhalación), (exhale) (exhalación), (gasps) (aspiración brusca), (sniffs) (sonarse/aspirar por la nariz), (sighs) (suspiro), (snorts) (resoplido), (burps) (eructo), (lip-smacking) (chasquido de labios), (humming) (tarareo), (hissing) (siseo), (emm) (eh), (whistles) (silbido), (sneezes) (estornudo), (crying) (sollozo), (applause) (aplausos)
text_file_id
integer
id del archivo de texto del audio que se va a sintetizar; la longitud de un solo archivo debe ser inferior a 100 000 caracteres. Formatos de archivo admitidos: txt, zip. Es obligatorio proporcionar uno de text o text_file_id; tras enviarlo, el formato se validará automáticamente.
Archivo txt: límite de longitud <100,000 caracteres. Admite el uso de &lt;#x#&gt; para marcar pausas personalizadas. x es la duración de la pausa (unidad: segundos), rango [0.01,99.99], con un máximo de dos decimales. Tenga en cuenta que la pausa debe establecerse entre dos fragmentos de texto que puedan pronunciarse; no se pueden usar varias marcas de pausa consecutivas
Archivo zip:
• El paquete comprimido debe contener archivos txt o json del mismo formato.
• Formato de archivo json: admite tres campos [title, content, extra], que representan respectivamente el título, el cuerpo y la información adicional. Si existen los tres campos, se producirán 3 conjuntos de resultados, con un total de 9 archivos, almacenados de forma uniforme en una carpeta. Si un campo no existe o su contenido está vacío, no se generará el resultado correspondiente para ese campo
voice_modify
object
audio_setting
object
voice_setting
object
requerido
aigc_watermark
boolean
predeterminado:false
Controla la adición de una marca de ritmo de audio al final del audio sintetizado. El valor predeterminado es False. Este parámetro solo tiene efecto para la síntesis no en streaming
language_boost
string
Indica si se debe mejorar la capacidad de reconocimiento de idiomas minoritarios y dialectos específicos. El valor predeterminado es null; puede establecerse en auto para que el modelo lo determine de forma autónoma.Valores opcionales: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
continuous_sound
boolean
predeterminado:false
Active este parámetro para que la conexión entre cláusulas sea más natural; solo es compatible con los modelos speech-2.8-hd y speech-2.8-turbo
pronunciation_dict
object

Información de respuesta

file_id
integer
ID del archivo de audio correspondiente devuelto después de crear correctamente la tarea.

• Una vez completada la tarea, se puede consultar mediante file_id. Cuando se produce un error en la solicitud, este campo no se devuelve
Nota: la URL de descarga devuelta es válida durante 9 horas (32400 segundos) desde su generación. Una vez vencida, el archivo dejará de ser válido y la información generada se perderá; preste atención al plazo de descarga de la información
task_id
string
Use task_id para solicitar la API de consulta del resultado de la tarea y recuperar la salida generada.
base_resp
object
task_token
string
Información de la clave utilizada para completar la tarea actual
usage_characters
integer
Número de caracteres facturables