API ASYNC TTA Speech 02 HD | Síntesis de voz de alta calidad de MiniMax

Síntesis de voz asíncrona MiniMax Speech-02-hd

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-02-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

POST

async

minimax-speech-02-hd

Síntesis de voz asíncrona MiniMax Speech-02-hd

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-02-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

Esta API admite la generación asíncrona de texto a voz. La transferencia de texto para una sola generación admite hasta 1 millón de caracteres, y el resultado de audio completo generado se puede recuperar de forma asíncrona. Admite la selección independiente de más de 100 voces del sistema y voces clonadas; también permite ajustar de forma independiente la entonación, la velocidad, el volumen, la tasa de bits, la frecuencia de muestreo y el formato de salida. Después de enviar una solicitud de síntesis de voz para texto largo, tenga en cuenta que la URL devuelta es válida durante 24 horas desde el momento en que se devuelve. Preste atención al tiempo disponible para descargar la información.

Ideal para la generación de voz a partir de textos largos, como libros completos. El tiempo de espera en la cola de tareas puede ser prolongado. Para escenarios como generación de frases cortas, chat de voz y socialización en línea, se recomienda usar la llamada síncrona de síntesis de voz.

Encabezados de solicitud

Content-Type

string

requerido

Valores enumerados: application/json

Authorization

string

requerido

Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text

string

requerido

Texto que se va a sintetizar. Límite máximo: 50 000 caracteres.

voice_setting

object

requerido

Mostrar propiedades

speed

number

Rango [0.5,2], valor predeterminado: 1.0Velocidad del habla de la voz generada. Opcional. Cuanto mayor sea el valor, más rápida será la velocidad.

vol

number

Rango (0,10], valor predeterminado: 1.0Volumen de la voz generada. Opcional. Cuanto mayor sea el valor, mayor será el volumen.

pitch

number

predeterminado:0

Rango [-12,12], valor predeterminado: 0Entonación de la voz generada. Opcional. (0 indica salida con la voz original; el valor debe ser un número entero).

voice_id

string

ID de la voz solicitada.Admite dos tipos: voces del sistema (id) y voces clonadas (id). Las voces del sistema (ID) son las siguientes:

Voz de joven ingenuo: male-qn-qingse
Voz de joven profesional: male-qn-jingying
Voz de joven dominante: male-qn-badao
Voz de estudiante universitario joven: male-qn-daxuesheng
Voz de chica joven: female-shaonv
Voz de mujer elegante: female-yujie
Voz de mujer madura: female-chengshu
Voz de mujer dulce: female-tianmei
Presentador masculino: presenter_male
Presentadora femenina: presenter_female
Audiolibro masculino 1: audiobook_male_1
Audiolibro masculino 2: audiobook_male_2
Audiolibro femenino 1: audiobook_female_1
Audiolibro femenino 2: audiobook_female_2
Voz de joven ingenuo-beta: male-qn-qingse-jingpin
Voz de joven profesional-beta: male-qn-jingying-jingpin
Voz de joven dominante-beta: male-qn-badao-jingpin
Voz de estudiante universitario joven-beta: male-qn-daxuesheng-jingpin
Voz de chica joven-beta: female-shaonv-jingpin
Voz de mujer elegante-beta: female-yujie-jingpin
Voz de mujer madura-beta: female-chengshu-jingpin
Voz de mujer dulce-beta: female-tianmei-jingpin
Niño inteligente: clever_boy
Niño adorable: cute_boy
Niña tierna: lovely_girl
Cerdita de dibujos animados Xiaoqi: cartoon_pig
Hermano menor yandere: bingjiao_didi
Novio apuesto: junlang_nanyou
Estudiante menor inocente: chunzhen_xuedi
Estudiante mayor distante: lengdan_xiongzhang
Joven amo dominante: badao_shaoye
Dulce Xiaoling: tianxin_xiaoling
Chica adorable y traviesa: qiaopi_mengmei
Mujer elegante encantadora: wumei_yujie
Estudiante menor melosa: diadia_xuemei
Estudiante mayor refinada: danya_xuejie
Santa Claus: Santa_Claus
Grinch: Grinch
Rudolph: Rudolph
Arnold: Arnold
Charming Santa: Charming_Santa
Charming Lady: Charming_Lady
Sweet Girl: Sweet_Girl
Cute Elf: Cute_Elf
Attractive Girl: Attractive_Girl
Serene Woman: Serene_Woman

emotion

string

Controla la emoción de la voz sintetizada;Actualmente admite 7 emociones: alegría, tristeza, ira, miedo, asco, sorpresa y neutralidad;Rango de parámetros: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

text_normalization

bool

predeterminado:"false"

Este parámetro admite la normalización de texto en inglés y puede mejorar el rendimiento en escenarios de lectura de números, aunque aumentará ligeramente la latencia. Si no se proporciona, el valor predeterminado es false.

audio_setting

object

Mostrar propiedades

sample_rate

number

predeterminado:32000

Rango 【8000，16000，22050，24000，32000，44100】Frecuencia de muestreo de la voz generada. Opcional; valor predeterminado: 32000.

bitrate

number

predeterminado:128000

Rango 【32000，64000，128000，256000】Tasa de bits de la voz generada. Opcional; valor predeterminado: 128000. Este parámetro solo tiene efecto en audio con formato mp3.

format

string

predeterminado:"mp3"

Formato del audio generado. Predeterminado: mp3. Opciones: mp3, pcm, flac, wav. wav solo se admite en salida no transmitida en streaming.

channel

number

predeterminado:1

Número de canales del audio generado. Predeterminado: 1: mono. Opciones:1: mono2: estéreo

pronunciation_dict

object

Mostrar propiedades

tone

list

Reemplaza texto, símbolos y sus pronunciaciones correspondientes que requieren anotaciones especiales.Reemplazo de pronunciación (ajuste de tono/reemplazo de la pronunciación de otros caracteres), con el siguiente formato:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]Los tonos se representan con números: primer tono (yinping) es 1, segundo tono (yangping) es 2, tercer tono (shangsheng) es 3, cuarto tono (qusheng) es 4, y el tono neutro es 5.

language_boost

string

predeterminado:"null"

Mejora la capacidad de reconocimiento para idiomas minoritarios y dialectos especificados. Después de configurarlo, puede mejorar el rendimiento de la voz en escenarios del idioma minoritario/dialecto especificado. Si no está claro el tipo de idioma minoritario, puede seleccionar “auto” y el modelo determinará el tipo de idioma minoritario de forma autónoma. Admite los siguientes valores:

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

voice_modify

object

Configuración de efectos de voz. Formatos de audio admitidos por este parámetro: mp3, wav, flac

Mostrar propiedades

pitch

integer

Ajuste de tono (grave/brillante), rango [-100,100]. Cuanto más se acerque el valor a -100, más grave será la voz; cuanto más se acerque a 100, más brillante será la voz

intensity

integer

Ajuste de intensidad (fuerza/suavidad), rango [-100,100]. Cuanto más se acerque el valor a -100, más enérgica será la voz; cuanto más se acerque a 100, más suave será

timbre

integer

Ajuste de timbre (magnético/nítido), rango [-100,100]. Cuanto más se acerque el valor a -100, más profunda y resonante será la voz; cuanto más se acerque a 100, más nítida será

sound_effects

string

Configuración de efectos de sonido. Solo se puede seleccionar uno por vez. Valores disponibles:

spacious_echo（eco amplio）
auditorium_echo（megafonía de auditorio）
lofi_telephone（distorsión telefónica）
robotic（sonido electrónico）

Parámetros de la información de respuesta

task_id

string

requerido

task_id de la tarea asíncrona. Debe usar este task_id para solicitar la API de consulta de resultado de tarea y obtener el resultado generado

Síntesis de voz síncrona MiniMax Speech-02-hd

Síntesis de voz síncrona MiniMax Speech-02-turbo

​Encabezados de solicitud

​Cuerpo de la solicitud

​Parámetros de la información de respuesta

Encabezados de solicitud

Cuerpo de la solicitud

Parámetros de la información de respuesta