API TTA Speech 2.6 HD | Síntesis de voz de alta calidad de MiniMax

Síntesis de voz síncrona MiniMax Speech-2.6-hd

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.6-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "audio": "<string>",
  "status": 123
}

POST

minimax-speech-2.6-hd

Síntesis de voz síncrona MiniMax Speech-2.6-hd

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.6-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "audio": "<string>",
  "status": 123
}

Esta API admite la generación síncrona de texto a voz, con un máximo de 10000 caracteres por envío de texto. Admite más de 100 voces del sistema y la selección autónoma de voces clonadas; permite ajustar el volumen, el tono, la velocidad y el formato de salida; admite mezcla proporcional, control de intervalos de tiempo fijos; admite múltiples especificaciones y formatos de audio, incluidos: mp3, pcm, flac, wav, y admite salida en streaming. Después de enviar una solicitud de síntesis de voz de texto largo, ten en cuenta que la url devuelta es válida durante 24 horas desde el momento en que se devuelve la url. Presta atención al tiempo de descarga de la información.

Adecuada para escenarios como generación de frases cortas, chat de voz y redes sociales en línea. Tiene baja latencia, pero el límite de longitud del texto es inferior a 10000 caracteres. Para textos largos, se recomienda usar síntesis de voz mediante llamada asíncrona.

Encabezados de solicitud

Content-Type

string

requerido

Valores enumerados: application/json

Authorization

string

requerido

Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text

string

requerido

Texto que se va a sintetizar, con una longitud inferior a 10000 caracteres. Los cambios de párrafo se sustituyen por saltos de línea. (Si necesitas controlar el intervalo de tiempo en la voz, añade <#x#> entre caracteres; x se expresa en segundos, admite 0.01-99.99, con un máximo de dos decimales). Admite intervalos de tiempo de voz personalizados entre textos para lograr el efecto de pausas personalizadas en la voz del texto. Ten en cuenta que el intervalo de tiempo entre textos debe establecerse entre dos fragmentos de texto que puedan pronunciarse, y no se pueden establecer varios intervalos de tiempo consecutivos.

voice_setting

object

requerido

Mostrar properties

speed

float

predeterminado:"1.0"

Rango [0.5,2], valor predeterminado 1.0Velocidad de habla de la voz generada. Opcional; cuanto mayor sea el valor, más rápida será la velocidad.

vol

float

predeterminado:"1.0"

Rango (0,10], valor predeterminado 1.0Volumen de la voz generada. Opcional; cuanto mayor sea el valor, más alto será el volumen.

pitch

int

predeterminado:"0"

Rango [-12,12], valor predeterminado 0Tono de la voz generada. Opcional (0 corresponde a la salida de la voz original; el valor debe ser un entero).

voice_id

string

ID de la voz solicitada. Obligatorio, a elegir entre este y timbre_weights.Admite dos tipos: voces del sistema (id) y voces clonadas (id). Las voces del sistema (ID) son las siguientes:

Voz de joven inexperto: male-qn-qingse
Voz de joven élite: male-qn-jingying
Voz de joven dominante: male-qn-badao
Voz de estudiante universitario joven: male-qn-daxuesheng
Voz de chica joven: female-shaonv
Voz de mujer madura y elegante: female-yujie
Voz de mujer madura: female-chengshu
Voz de mujer dulce: female-tianmei
Presentador masculino: presenter_male
Presentadora femenina: presenter_female
Audiolibro masculino 1: audiobook_male_1
Audiolibro masculino 2: audiobook_male_2
Audiolibro femenino 1: audiobook_female_1
Audiolibro femenino 2: audiobook_female_2
Voz de joven inexperto-beta: male-qn-qingse-jingpin
Voz de joven élite-beta: male-qn-jingying-jingpin
Voz de joven dominante-beta: male-qn-badao-jingpin
Voz de estudiante universitario joven-beta: male-qn-daxuesheng-jingpin
Voz de chica joven-beta: female-shaonv-jingpin
Voz de mujer madura y elegante-beta: female-yujie-jingpin
Voz de mujer madura-beta: female-chengshu-jingpin
Voz de mujer dulce-beta: female-tianmei-jingpin
Niño inteligente: clever_boy
Niño adorable: cute_boy
Niña encantadora: lovely_girl
Cerdita caricaturesca Xiaoqi: cartoon_pig
Hermano menor yandere: bingjiao_didi
Novio apuesto: junlang_nanyou
Estudiante menor inocente: chunzhen_xuedi
Estudiante mayor distante: lengdan_xiongzhang
Joven amo dominante: badao_shaoye
Dulce Xiaoling: tianxin_xiaoling
Chica tierna y traviesa: qiaopi_mengmei
Mujer madura seductora: wumei_yujie
Estudiante menor mimosa: diadia_xuemei
Estudiante mayor elegante: danya_xuejie
Santa Claus: Santa_Claus
Grinch: Grinch
Rudolph: Rudolph
Arnold: Arnold
Charming Santa: Charming_Santa
Charming Lady: Charming_Lady
Sweet Girl: Sweet_Girl
Cute Elf: Cute_Elf
Attractive Girl: Attractive_Girl
Serene Woman: Serene_Woman

emotion

string

Controla la emoción de la voz sintetizada;Actualmente admite 7 emociones: alegría, tristeza, ira, miedo, asco, sorpresa, neutralidad;Rango de parámetros: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

latex_read

bool

predeterminado:"false"

Controla si se admite la lectura de fórmulas latex. El valor predeterminado es false.Ten en cuenta:

Las fórmulas de la solicitud deben estar rodeadas por $$ al inicio y al final;
Si una fórmula de la solicitud contiene "", debe escaparse como ”\”.

Ejemplo: la fórmula básica de la derivada es $$\\frac{d}{dx}(x^n) = nx^{n-1}$$

text_normalization

bool

predeterminado:"false"

Este parámetro admite la normalización de texto en inglés, lo que puede mejorar el rendimiento en escenarios de lectura de números, pero aumentará ligeramente la latencia. Si no se proporciona, el valor predeterminado es false.

audio_setting

object

Mostrar properties

sample_rate

int

predeterminado:"32000"

Rango 【8000，16000，22050，24000，32000，44100】Frecuencia de muestreo de la voz generada. Opcional; el valor predeterminado es 32000.

bitrate

int

predeterminado:"128000"

Rango 【32000，64000，128000，256000】Tasa de bits de la voz generada. Opcional; el valor predeterminado es 128000. Este parámetro solo tiene efecto para audio en formato mp3.

format

string

predeterminado:"mp3"

Formato del audio generado. El valor predeterminado es mp3; rango [mp3,pcm,flac,wav]. wav solo se admite en salida no streaming.

channel

int

predeterminado:"1"

Número de canales del audio generado. Valor predeterminado 1: mono. Opciones:1: mono2: estéreo

pronunciation_dict

object

Mostrar properties

tone

list

Sustituye texto, símbolos y sus pronunciaciones correspondientes que requieren anotación especial.Sustitución de pronunciación (ajustar tono/sustituir la pronunciación de otros caracteres), con el siguiente formato:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]Los tonos se sustituyen por números: el primer tono (yinping) es 1, el segundo tono (yangping) es 2, el tercer tono (shangsheng) es 3, el cuarto tono (qusheng) es 4, y el tono neutro es 5.

timbre_weights

object[]

Obligatorio, a elegir entre este y voice_id

Mostrar properties

voice_id

string

ID de la voz solicitada. Debe completarse junto con el parámetro weight.

weight

int

Rango [1,100]Peso; debe completarse junto con voice_id. Admite la mezcla de hasta 4 voces. El valor debe ser un entero; cuanto mayor sea la proporción de una sola voz, más se parecerá la voz sintetizada a ella.

stream

boolean

predeterminado:"false"

Indica si se usa streaming. El valor predeterminado es false, es decir, el streaming no está habilitado.

stream_options

object

Mostrar properties

exclude_aggregated_audio

boolean

predeterminado:"false"

Cuando este parámetro se establece en True, el último chunk del streaming no contendrá los datos hex de la voz completa concatenada. El valor predeterminado es False, es decir, el último chunk contiene los datos hex de la voz completa concatenada.

language_boost

string

predeterminado:"null"

Mejora la capacidad de reconocimiento para lenguas minoritarias y dialectos especificados. Después de configurarlo, puede mejorar el rendimiento de voz en escenarios de la lengua minoritaria/dialecto especificado. Si no está claro el tipo de lengua minoritaria, puedes elegir “auto”, y el modelo determinará de forma autónoma el tipo de lengua minoritaria. Admite los siguientes valores:

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

output_format

string

predeterminado:"hex"

Parámetro que controla la forma del resultado de salida. Los valores opcionales son url hex. El valor predeterminado es hex. Este parámetro solo tiene efecto en escenarios no streaming; los escenarios de streaming solo admiten la devolución en formato hex. La url devuelta es válida durante 24 horas.

voice_modify

object

Configuración de efectos de voz. Este parámetro admite los siguientes formatos de audio:

No streaming: mp3, wav, flac
Streaming: mp3

Mostrar properties

pitch

integer

Ajuste de tono (grave/brillante), rango [-100,100]. Cuanto más se acerque el valor a -100, más grave será la voz; cuanto más se acerque a 100, más brillante será.

intensity

integer

Ajuste de intensidad (potencia/suavidad), rango [-100,100]. Cuanto más se acerque el valor a -100, más firme será la voz; cuanto más se acerque a 100, más suave será.

timbre

integer

Ajuste de timbre (magnético/nítido), rango [-100,100]. Cuanto más se acerque el valor a -100, más profunda y rica será la voz; cuanto más se acerque a 100, más nítida será.

sound_effects

string

Configuración de efectos de sonido. Solo se puede seleccionar uno por solicitud. Valores opcionales:

spacious_echo（eco espacioso）
auditorium_echo（difusión de auditorio）
lofi_telephone（distorsión telefónica）
robotic（voz electrónica）

Información de respuesta

audio

string

Fragmento de audio sintetizado, codificado en hex, generado según el formato definido en la entrada (audio_setting.format) (mp3/pcm/flac). La forma de devolución se basa en la definición de output_format; cuando stream es true, solo se admite la devolución en formato hex.

status

number

Estado actual del flujo de audio, devuelto solo cuando stream es true. 1 indica que la síntesis está en curso; 2 indica que la síntesis ha finalizado.

Síntesis de voz asíncrona MiniMax Speech-2.5-turbo-preview

Síntesis de voz asíncrona MiniMax Speech-2.6-hd

​Encabezados de solicitud

​Cuerpo de la solicitud

​Información de respuesta

Encabezados de solicitud

Cuerpo de la solicitud

Información de respuesta