Síntesis de voz asíncrona MiniMax Speech-2.5-turbo-preview

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.5-turbo-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

POST

async

minimax-speech-2.5-turbo-preview

Síntesis de voz asíncrona MiniMax Speech-2.5-turbo-preview

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.5-turbo-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

Esta API admite la generación asíncrona de texto a voz. Una sola generación de texto admite una transmisión máxima de 1 millón de caracteres, y el resultado de audio completo generado puede recuperarse de forma asíncrona. Admite más de 100 voces del sistema y voces clonadas seleccionables libremente; también permite ajustar libremente la entonación, la velocidad, el volumen, la tasa de bits, la frecuencia de muestreo y el formato de salida. Después de enviar una solicitud de síntesis de voz para texto largo, tenga en cuenta que la URL devuelta es válida durante 24 horas a partir del momento en que se devuelve. Preste atención al tiempo disponible para descargar la información.

Aplicable a la generación de voz para textos largos, como libros completos; el tiempo de espera en cola de la tarea puede ser prolongado. Para escenarios como generación de frases cortas, chat de voz y socialización en línea, se recomienda usar la llamada síncrona de síntesis de voz.

Encabezados de solicitud

Content-Type

string

requerido

Valores enumerados: application/json

Authorization

string

requerido

Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text

string

requerido

Texto que se va a sintetizar, con un límite máximo de 50 000 caracteres.

voice_setting

object

requerido

Mostrar propiedades

speed

number

Rango [0.5,2], valor predeterminado 1.0Velocidad del habla de la voz generada. Opcional; cuanto mayor sea el valor, más rápida será la velocidad del habla.

vol

number

Rango (0,10], valor predeterminado 1.0Volumen de la voz generada. Opcional; cuanto mayor sea el valor, mayor será el volumen.

pitch

number

predeterminado:0

Rango [-12,12], valor predeterminado 0Entonación de la voz generada. Opcional (0 corresponde a la salida de la voz original; el valor debe ser un entero).

voice_id

string

ID de la voz solicitada.Admite dos tipos: voces del sistema (id) y voces clonadas (id). Las voces del sistema (ID) son las siguientes:

Voz juvenil inexperta: male-qn-qingse
Voz juvenil de élite: male-qn-jingying
Voz juvenil dominante: male-qn-badao
Voz de joven universitario: male-qn-daxuesheng
Voz de chica joven: female-shaonv
Voz de mujer madura y segura: female-yujie
Voz femenina madura: female-chengshu
Voz femenina dulce: female-tianmei
Presentador masculino: presenter_male
Presentadora femenina: presenter_female
Audiolibro masculino 1: audiobook_male_1
Audiolibro masculino 2: audiobook_male_2
Audiolibro femenino 1: audiobook_female_1
Audiolibro femenino 2: audiobook_female_2
Voz juvenil inexperta-beta: male-qn-qingse-jingpin
Voz juvenil de élite-beta: male-qn-jingying-jingpin
Voz juvenil dominante-beta: male-qn-badao-jingpin
Voz de joven universitario-beta: male-qn-daxuesheng-jingpin
Voz de chica joven-beta: female-shaonv-jingpin
Voz de mujer madura y segura-beta: female-yujie-jingpin
Voz femenina madura-beta: female-chengshu-jingpin
Voz femenina dulce-beta: female-tianmei-jingpin
Niño listo: clever_boy
Niño adorable: cute_boy
Niña tierna: lovely_girl
Cerdita de dibujos animados Xiaoqi: cartoon_pig
Hermano menor yandere: bingjiao_didi
Novio apuesto: junlang_nanyou
Compañero menor inocente: chunzhen_xuedi
Compañero mayor distante: lengdan_xiongzhang
Joven señor dominante: badao_shaoye
Dulce Xiaoling: tianxin_xiaoling
Chica mona y traviesa: qiaopi_mengmei
Mujer madura y seductora: wumei_yujie
Compañera menor coqueta: diadia_xuemei
Compañera mayor elegante: danya_xuejie
Santa Claus: Santa_Claus
Grinch: Grinch
Rudolph: Rudolph
Arnold: Arnold
Charming Santa: Charming_Santa
Charming Lady: Charming_Lady
Sweet Girl: Sweet_Girl
Cute Elf: Cute_Elf
Attractive Girl: Attractive_Girl
Serene Woman: Serene_Woman

emotion

string

Controla la emoción de la voz sintetizada;Actualmente admite 7 emociones: alegría, tristeza, ira, miedo, asco, sorpresa y neutral;Rango del parámetro: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

text_normalization

bool

predeterminado:"false"

Este parámetro admite la normalización de texto en inglés y puede mejorar el rendimiento en escenarios de lectura de números, aunque aumentará ligeramente la latencia. Si no se proporciona, el valor predeterminado es false.

audio_setting

object

Mostrar propiedades

sample_rate

number

predeterminado:32000

Rango 【8000，16000，22050，24000，32000，44100】Frecuencia de muestreo de la voz generada. Opcional; el valor predeterminado es 32000.

bitrate

number

predeterminado:128000

Rango 【32000，64000，128000，256000】Tasa de bits de la voz generada. Opcional; el valor predeterminado es 128000. Este parámetro solo tiene efecto para audio en formato mp3.

format

string

predeterminado:"mp3"

Formato del audio generado. Valor predeterminado: mp3. Opciones: mp3, pcm, flac, wav. wav solo se admite en salidas no transmitidas por streaming.

channel

number

predeterminado:1

Número de canales del audio generado. Valor predeterminado 1: mono. Opciones:1: mono2: estéreo

pronunciation_dict

object

Mostrar propiedades

tone

list

Reemplaza texto, símbolos y sus anotaciones fonéticas correspondientes que requieren marcado especial.Reemplazo de pronunciación (ajustar tonos/reemplazar la pronunciación de otros caracteres), con el siguiente formato:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]Los tonos se representan con números: primer tono (yīnpíng) es 1, segundo tono (yángpíng) es 2, tercer tono (shǎngshēng) es 3, cuarto tono (qùshēng) es 4, y tono ligero es 5.

language_boost

string

predeterminado:"null"

Mejora la capacidad de reconocimiento de idiomas minoritarios y dialectos especificados. Tras configurarlo, puede mejorar el rendimiento de voz en escenarios del idioma minoritario/dialecto especificado. Si no se conoce claramente el tipo de idioma minoritario, se puede seleccionar “auto”, y el modelo determinará de forma autónoma el tipo de idioma minoritario. Admite los siguientes valores:

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

voice_modify

object

Configuración del modificador de efectos de voz. Formatos de audio admitidos por este parámetro: mp3, wav, flac

Mostrar propiedades

pitch

integer

Ajuste de tono (profundo/brillante), rango [-100,100]. Cuanto más se acerque el valor a -100, más profunda será la voz; cuanto más se acerque a 100, más brillante será.

intensity

integer

Ajuste de intensidad (potencia/suavidad), rango [-100,100]. Cuanto más se acerque el valor a -100, más firme será la voz; cuanto más se acerque a 100, más suave será.

timbre

integer

Ajuste de timbre (magnético/nítido), rango [-100,100]. Cuanto más se acerque el valor a -100, más plena será la voz; cuanto más se acerque a 100, más nítida será.

sound_effects

string

Configuración de efectos de sonido. Solo se puede seleccionar uno por vez. Valores disponibles:

spacious_echo（eco espacioso）
auditorium_echo（megafonía de auditorio）
lofi_telephone（distorsión telefónica）
robotic（voz electrónica）

Parámetros de la información de respuesta

task_id

string

requerido

El task_id de la tarea asíncrona. Debe usar este task_id para solicitar la API de consulta de resultado de tarea y obtener el resultado generado.

Síntesis de voz síncrona de MiniMax Speech-2.5-turbo-preview

Síntesis de voz síncrona MiniMax Speech-2.6-hd

​Encabezados de solicitud

​Cuerpo de la solicitud

​Parámetros de la información de respuesta

Encabezados de solicitud

Cuerpo de la solicitud

Parámetros de la información de respuesta