Síntesis de voz asíncrona MiniMax Speech 2.8 Turbo

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      "<string>"
    ]
  }
}
'

import requests

url = "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo"

payload = {
    "text": "<string>",
    "text_file_id": 123,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "audio_sample_rate": 123
    },
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "english_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "continuous_sound": True,
    "pronunciation_dict": { "tone": ["<string>"] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    text: '<string>',
    text_file_id: 123,
    voice_modify: {pitch: 123, timbre: 123, intensity: 123, sound_effects: '<string>'},
    audio_setting: {format: '<string>', bitrate: 123, channel: 123, audio_sample_rate: 123},
    voice_setting: {
      vol: 123,
      pitch: 123,
      speed: 123,
      emotion: '<string>',
      voice_id: '<string>',
      english_normalization: true
    },
    aigc_watermark: true,
    language_boost: '<string>',
    continuous_sound: true,
    pronunciation_dict: {tone: ['<string>']}
  })
};

fetch('https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'text' => '<string>',
    'text_file_id' => 123,
    'voice_modify' => [
        'pitch' => 123,
        'timbre' => 123,
        'intensity' => 123,
        'sound_effects' => '<string>'
    ],
    'audio_setting' => [
        'format' => '<string>',
        'bitrate' => 123,
        'channel' => 123,
        'audio_sample_rate' => 123
    ],
    'voice_setting' => [
        'vol' => 123,
        'pitch' => 123,
        'speed' => 123,
        'emotion' => '<string>',
        'voice_id' => '<string>',
        'english_normalization' => true
    ],
    'aigc_watermark' => true,
    'language_boost' => '<string>',
    'continuous_sound' => true,
    'pronunciation_dict' => [
        'tone' => [
                '<string>'
        ]
    ]
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo"

	payload := strings.NewReader("{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}"

response = http.request(request)
puts response.read_body

{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}

POST

async

minimax-speech-2.8-turbo

Síntesis de voz asíncrona MiniMax Speech 2.8 Turbo

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      "<string>"
    ]
  }
}
'

import requests

url = "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo"

payload = {
    "text": "<string>",
    "text_file_id": 123,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "audio_sample_rate": 123
    },
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "english_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "continuous_sound": True,
    "pronunciation_dict": { "tone": ["<string>"] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    text: '<string>',
    text_file_id: 123,
    voice_modify: {pitch: 123, timbre: 123, intensity: 123, sound_effects: '<string>'},
    audio_setting: {format: '<string>', bitrate: 123, channel: 123, audio_sample_rate: 123},
    voice_setting: {
      vol: 123,
      pitch: 123,
      speed: 123,
      emotion: '<string>',
      voice_id: '<string>',
      english_normalization: true
    },
    aigc_watermark: true,
    language_boost: '<string>',
    continuous_sound: true,
    pronunciation_dict: {tone: ['<string>']}
  })
};

fetch('https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'text' => '<string>',
    'text_file_id' => 123,
    'voice_modify' => [
        'pitch' => 123,
        'timbre' => 123,
        'intensity' => 123,
        'sound_effects' => '<string>'
    ],
    'audio_setting' => [
        'format' => '<string>',
        'bitrate' => 123,
        'channel' => 123,
        'audio_sample_rate' => 123
    ],
    'voice_setting' => [
        'vol' => 123,
        'pitch' => 123,
        'speed' => 123,
        'emotion' => '<string>',
        'voice_id' => '<string>',
        'english_normalization' => true
    ],
    'aigc_watermark' => true,
    'language_boost' => '<string>',
    'continuous_sound' => true,
    'pronunciation_dict' => [
        'tone' => [
                '<string>'
        ]
    ]
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo"

	payload := strings.NewReader("{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}"

response = http.request(request)
puts response.read_body

{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}

Use esta interfaz para crear tareas de síntesis de voz asíncrona. Admite entrada de texto o archivo; la longitud máxima del texto es de 50 000 caracteres y la del archivo es de 100 000 caracteres.

Esta es una API asíncrona que solo devuelve el task_id de la tarea asíncrona. Debe usar ese task_id para solicitar la API de consulta del resultado de la tarea y recuperar el resultado generado.

Encabezados de solicitud

string

requerido

Valores enumerados: application/json

string

requerido

Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

string

Texto del audio que se va a sintetizar, con un límite máximo de 50 000 caracteres. Es obligatorio proporcionar uno de text o text_file_id

• Etiquetas de interjecciones: solo cuando el modelo seleccionado es speech-2.8-hd o speech-2.8-turbo, se admite insertar etiquetas de interjecciones en el texto. Interjecciones admitidas: (laughs) (risa), (chuckle) (risa suave), (coughs) (tos), (clear-throat) (aclararse la garganta), (groans) (gemido), (breath) (respiración normal), (pant) (jadeo), (inhale) (inhalación), (exhale) (exhalación), (gasps) (aspiración brusca), (sniffs) (sonarse/aspirar por la nariz), (sighs) (suspiro), (snorts) (resoplido), (burps) (eructo), (lip-smacking) (chasquido de labios), (humming) (tarareo), (hissing) (siseo), (emm) (eh), (whistles) (silbido), (sneezes) (estornudo), (crying) (sollozo), (applause) (aplausos)

integer

id del archivo de texto del audio que se va a sintetizar; la longitud de un solo archivo debe ser inferior a 100 000 caracteres. Formatos de archivo admitidos: txt, zip. Es obligatorio proporcionar uno de text o text_file_id; tras enviarlo, el formato se validará automáticamente.
• Archivo txt: límite de longitud <100,000 caracteres. Admite el uso de <#x#> para marcar pausas personalizadas. x es la duración de la pausa (unidad: segundos), rango [0.01,99.99], con un máximo de dos decimales. Tenga en cuenta que la pausa debe establecerse entre dos fragmentos de texto que puedan pronunciarse; no se pueden usar varias marcas de pausa consecutivas
• Archivo zip:
• El paquete comprimido debe contener archivos txt o json del mismo formato.
• Formato de archivo json: admite tres campos [title, content, extra], que representan respectivamente el título, el cuerpo y la información adicional. Si existen los tres campos, se producirán 3 conjuntos de resultados, con un total de 9 archivos, almacenados de forma uniforme en una carpeta. Si un campo no existe o su contenido está vacío, no se generará el resultado correspondiente para ese campo

object

Ocultar propiedades

integer

Ajuste de tono (grave/brillante), rango [-100, 100]. Cuanto más se acerque el valor a -100, más grave será la voz; cuanto más se acerque a 100, más brillante seráRango de valores: [-100, 100]

integer

Ajuste de timbre (magnético/nítido), rango [-100, 100]. Cuanto más se acerque el valor a -100, más densa será la voz; cuanto más se acerque a 100, más nítida seráRango de valores: [-100, 100]

integer

Ajuste de intensidad (sensación de fuerza/suavidad), rango [-100, 100]. Cuanto más se acerque el valor a -100, más firme será la voz; cuanto más se acerque a 100, más suave seráRango de valores: [-100, 100]

string

Configuración de efectos de sonido; solo se puede seleccionar uno por vez. Valores opcionales:

spacious_echo (eco espacioso)
auditorium_echo (megafonía de auditorio)
lofi_telephone (distorsión telefónica)
robotic (voz electrónica)

Valores opcionales: spacious_echo, auditorium_echo, lofi_telephone, robotic

object

Ocultar propiedades

string

predeterminado:"mp3"

Formato del audio generado. Rango opcional [mp3, pcm, flac], valor predeterminado mp3Valores opcionales: mp3, pcm, flac

integer

predeterminado:128000

Tasa de bits del audio generado. Rango opcional [32000, 64000, 128000, 256000], valor predeterminado 128000. Este parámetro solo tiene efecto para audio en formato mp3

integer

predeterminado:2

Número de canales del audio generado. Rango opcional: [1, 2], donde 1 es mono y 2 es estéreo; el valor predeterminado es 1

integer

predeterminado:32000

Frecuencia de muestreo del audio generado. Rango opcional [8000, 16000, 22050, 24000, 32000, 44100], valor predeterminado 32000

object

requerido

Ocultar propiedades

number

predeterminado:1

Volumen del audio sintetizado; cuanto mayor sea el valor, mayor será el volumen. Rango de valores (0, 10], valor predeterminado 1.0Rango de valores: [0, 10]

integer

predeterminado:0

Entonación del audio sintetizado. Rango de valores [-12, 12], valor predeterminado 0, donde 0 corresponde a la salida con el timbre originalRango de valores: [-12, 12]

number

predeterminado:1

Velocidad del habla del audio sintetizado; cuanto mayor sea el valor, más rápida será la velocidad. Rango de valores [0.5, 2], valor predeterminado 1.0Rango de valores: [0.5, 2]

string

Controla la emoción de la voz sintetizada. Rango de parámetros [“happy”, “sad”, “angry”, “fearful”, “disgusted”, “surprised”, “calm”, “fluent”, “whisper”], que corresponden respectivamente a 8 emociones: felicidad, tristeza, ira, miedo, asco, sorpresa, neutralidad, vivacidad y susurro
• El modelo emparejará automáticamente la emoción adecuada según el texto de entrada; por lo general no es necesario especificarla manualmente
• Este parámetro solo tiene efecto para los modelos speech-2.6-hd, speech-2.6-turbo, speech-01-hd, speech-01-turbo
• Las opciones fluent, whisper solo tienen efecto para los modelos speech-2.6-turbo, speech-2.6-hdValores opcionales: happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper

string

requerido

Identificador de timbre del audio sintetizado. Si necesita configurar un timbre mixto, establezca el parámetro timber_weights y deje este parámetro en un valor vacío. Admite tres tipos: timbres del sistema, timbres clonados y timbres generados a partir de texto. A continuación se muestran algunos de los timbres del sistema más recientes (ID); puede consultar todos los timbres admitidos oficialmente
• Chino:
• moss_audio_ce44fc67-7ce3-11f0-8de5-96e35d26fb85
• moss_audio_aaa1346a-7ce7-11f0-8e61-2e6e3c7ee85d
• Chinese (Mandarin)_Lyrical_Voice
• Chinese (Mandarin)_HK_Flight_Attendant
• Inglés:
• English_Graceful_Lady
• English_Insightful_Speaker
• English_radiant_girl
• English_Persuasive_Man
• moss_audio_6dc281eb-713c-11f0-a447-9613c873494c
• moss_audio_570551b1-735c-11f0-b236-0adeeecad052
• moss_audio_ad5baf92-735f-11f0-8263-fe5a2fe98ec8
• English_Lucky_Robot
• Japonés:
• Japanese_Whisper_Belle
• moss_audio_24875c4a-7be4-11f0-9359-4e72c55db738
• moss_audio_7f4ee608-78ea-11f0-bb73-1e2a4cfcd245
• moss_audio_c1a6a3ac-7be6-11f0-8e8e-36b92fbb4f95

boolean

predeterminado:false

Admite la normalización de texto en inglés. Al activarla, puede mejorar el rendimiento en escenarios de lectura de números, pero aumentará ligeramente la latencia. Valor predeterminado false

boolean

predeterminado:false

Controla la adición de una marca de ritmo de audio al final del audio sintetizado. El valor predeterminado es False. Este parámetro solo tiene efecto para la síntesis no en streaming

string

Indica si se debe mejorar la capacidad de reconocimiento de idiomas minoritarios y dialectos específicos. El valor predeterminado es null; puede establecerse en auto para que el modelo lo determine de forma autónoma.Valores opcionales: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto

boolean

predeterminado:false

Active este parámetro para que la conexión entre cláusulas sea más natural; solo es compatible con los modelos speech-2.8-hd y speech-2.8-turbo

object

Ocultar propiedades

string[]

Define las reglas de reemplazo de anotación fonética o pronunciación correspondientes a caracteres o símbolos que requieren anotación especial. En textos chinos, los tonos se representan con números: el primer tono es 1, el segundo tono es 2, el tercer tono es 3, el cuarto tono es 4 y el tono neutro es 5 Ejemplos: [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]

Información de respuesta

integer

ID del archivo de audio correspondiente devuelto después de crear correctamente la tarea.

• Una vez completada la tarea, se puede consultar mediante file_id. Cuando se produce un error en la solicitud, este campo no se devuelveNota: la URL de descarga devuelta es válida durante 9 horas (32400 segundos) desde su generación. Una vez vencida, el archivo dejará de ser válido y la información generada se perderá; preste atención al plazo de descarga de la información

string

Use task_id para solicitar la API de consulta del resultado de la tarea y recuperar la salida generada.

object

Ocultar propiedades

string

requerido

Detalles del estado

integer

requerido

Código de estado

• 0: normal
• 1002: límite de tasa
• 1004: error de autenticación
• 1039: se activó el límite de tasa TPM
• 1042: caracteres no válidos superiores al 10%
• 2013: error de parámetro

string

Información de la clave utilizada para completar la tarea actual

integer

Número de caracteres facturables

Síntesis de voz asíncrona MiniMax Speech-2.6-turbo

Síntesis de voz síncrona MiniMax Speech 2.8 Turbo

Conceptos básicos de API

Modelos de lenguaje

Imágenes

Vídeo

Audio

Síntesis de voz asíncrona MiniMax Speech 2.8 Turbo

Encabezados de solicitud

Cuerpo de la solicitud

Información de respuesta

​Encabezados de solicitud

​Cuerpo de la solicitud

​Información de respuesta

Encabezados de solicitud

Cuerpo de la solicitud

Información de respuesta