Síntesis de voz asíncrona MiniMax Speech-2.5-hd-preview

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.5-hd-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

POST

async

minimax-speech-2.5-hd-preview

Síntesis de voz asíncrona MiniMax Speech-2.5-hd-preview

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.5-hd-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

Esta API admite la generación asíncrona de texto a voz. Una sola generación de texto admite hasta 1 millón de caracteres para la transmisión, y el resultado de audio completo generado se puede recuperar de forma asíncrona. Admite más de 100 voces del sistema y voces clonadas a elección del usuario; también permite ajustar de forma independiente la entonación, velocidad, volumen, tasa de bits, frecuencia de muestreo y formato de salida. Después de enviar una solicitud de síntesis de voz para textos largos, tenga en cuenta que la url devuelta tiene una validez de 24 horas a partir del momento en que se devuelve. Preste atención al momento de descarga de la información.

Aplicable a la generación de voz para textos largos, como libros completos. El tiempo de espera en cola de la tarea puede ser prolongado. Para escenarios como generación de frases cortas, chat de voz y redes sociales en línea, se recomienda usar síntesis de voz mediante llamada síncrona.

Encabezados de solicitud

Content-Type

string

requerido

Valores enumerados: application/json

Authorization

string

requerido

Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text

string

requerido

Texto que se va a sintetizar, con un límite máximo de 50 000 caracteres.

voice_setting

object

requerido

Mostrar properties

speed

number

Rango [0.5,2], valor predeterminado 1.0Velocidad del habla de la voz generada. Opcional; cuanto mayor sea el valor, más rápida será la velocidad.

vol

number

Rango (0,10], valor predeterminado 1.0Volumen de la voz generada. Opcional; cuanto mayor sea el valor, mayor será el volumen.

pitch

number

predeterminado:0

Rango [-12,12], valor predeterminado 0Entonación de la voz generada. Opcional (0 corresponde a la salida con la voz original; el valor debe ser un entero).

voice_id

string

ID de la voz solicitada.Admite dos tipos: voces del sistema (id) y voces clonadas (id). Las voces del sistema (ID) son las siguientes:

Voz juvenil tímida: male-qn-qingse
Voz juvenil élite: male-qn-jingying
Voz juvenil dominante: male-qn-badao
Voz de estudiante universitario joven: male-qn-daxuesheng
Voz de chica joven: female-shaonv
Voz de mujer madura y segura: female-yujie
Voz de mujer madura: female-chengshu
Voz femenina dulce: female-tianmei
Presentador masculino: presenter_male
Presentadora femenina: presenter_female
Audiolibro masculino 1: audiobook_male_1
Audiolibro masculino 2: audiobook_male_2
Audiolibro femenino 1: audiobook_female_1
Audiolibro femenino 2: audiobook_female_2
Voz juvenil tímida-beta: male-qn-qingse-jingpin
Voz juvenil élite-beta: male-qn-jingying-jingpin
Voz juvenil dominante-beta: male-qn-badao-jingpin
Voz de estudiante universitario joven-beta: male-qn-daxuesheng-jingpin
Voz de chica joven-beta: female-shaonv-jingpin
Voz de mujer madura y segura-beta: female-yujie-jingpin
Voz de mujer madura-beta: female-chengshu-jingpin
Voz femenina dulce-beta: female-tianmei-jingpin
Niño inteligente: clever_boy
Niño adorable: cute_boy
Niña encantadora: lovely_girl
Cerdito de dibujos animados Xiaoqi: cartoon_pig
Hermano menor yandere: bingjiao_didi
Novio apuesto: junlang_nanyou
Estudiante menor inocente: chunzhen_xuedi
Estudiante mayor distante: lengdan_xiongzhang
Joven señor dominante: badao_shaoye
Dulce Xiaoling: tianxin_xiaoling
Chica adorable y traviesa: qiaopi_mengmei
Mujer madura seductora: wumei_yujie
Estudiante menor coqueta: diadia_xuemei
Estudiante mayor elegante: danya_xuejie
Santa Claus: Santa_Claus
Grinch: Grinch
Rudolph: Rudolph
Arnold: Arnold
Charming Santa: Charming_Santa
Charming Lady: Charming_Lady
Sweet Girl: Sweet_Girl
Cute Elf: Cute_Elf
Attractive Girl: Attractive_Girl
Serene Woman: Serene_Woman

emotion

string

Controla la emoción de la voz sintetizada;Actualmente admite 7 emociones: alegría, tristeza, ira, miedo, asco, sorpresa y neutral;Rango del parámetro: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

text_normalization

bool

predeterminado:"false"

Este parámetro admite la normalización de texto en inglés y puede mejorar el rendimiento en escenarios de lectura de números, aunque aumentará ligeramente la latencia. Si no se proporciona, el valor predeterminado es false.

audio_setting

object

Mostrar properties

sample_rate

number

predeterminado:32000

Rango 【8000，16000，22050，24000，32000，44100】Frecuencia de muestreo de la voz generada. Opcional; el valor predeterminado es 32000.

bitrate

number

predeterminado:128000

Rango 【32000，64000，128000，256000】Tasa de bits de la voz generada. Opcional; el valor predeterminado es 128000. Este parámetro solo tiene efecto para audio en formato mp3.

format

string

predeterminado:"mp3"

Formato del audio generado. Predeterminado: mp3. Opciones: mp3, pcm, flac, wav. wav solo se admite en salida no stream.

channel

number

predeterminado:1

Número de canales del audio generado. Predeterminado 1: mono. Opciones:1: mono2: estéreo

pronunciation_dict

object

Mostrar properties

tone

list

Sustituye texto, símbolos y sus pronunciaciones correspondientes que requieren anotación especial.Sustitución de pronunciación (ajustar tonos/sustituir la pronunciación de otros caracteres), con el siguiente formato:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]Los tonos se representan con números: primer tono (yinping) como 1, segundo tono (yangping) como 2, tercer tono (shangsheng) como 3, cuarto tono (qusheng) como 4, y tono neutro como 5.

language_boost

string

predeterminado:"null"

Mejora la capacidad de reconocimiento para idiomas minoritarios y dialectos especificados. Una vez configurado, puede mejorar el rendimiento de voz en escenarios del idioma minoritario/dialecto especificado. Si no está claro el tipo de idioma minoritario, puede seleccionar “auto” y el modelo determinará el tipo de idioma de forma autónoma. Admite los siguientes valores:

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

voice_modify

object

Configuración de efectos de voz. Este parámetro admite los siguientes formatos de audio: mp3, wav, flac

Mostrar properties

pitch

integer

Ajuste de tono (grave/brillante), rango [-100,100]. Cuanto más se acerque el valor a -100, más grave será la voz; cuanto más se acerque a 100, más brillante será la voz

intensity

integer

Ajuste de intensidad (fuerza/suavidad), rango [-100,100]. Cuanto más se acerque el valor a -100, más enérgica será la voz; cuanto más se acerque a 100, más suave será la voz

timbre

integer

Ajuste de timbre (magnético/nítido), rango [-100,100]. Cuanto más se acerque el valor a -100, más profunda será la voz; cuanto más se acerque a 100, más nítida será la voz

sound_effects

string

Configuración de efectos de sonido. Solo se puede seleccionar un tipo por vez. Valores opcionales:

spacious_echo（eco espacioso）
auditorium_echo（transmisión de auditorio）
lofi_telephone（distorsión telefónica）
robotic（voz electrónica）

Parámetros de la información de respuesta

task_id

string

requerido

task_id de la tarea asíncrona. Debe usar este task_id para solicitar la API de consulta de resultados de tarea y obtener el resultado generado

Síntesis de voz síncrona MiniMax Speech-2.5-hd-preview

Síntesis de voz síncrona de MiniMax Speech-2.5-turbo-preview

​Encabezados de solicitud

​Cuerpo de la solicitud

​Parámetros de la información de respuesta

Encabezados de solicitud

Cuerpo de la solicitud

Parámetros de la información de respuesta