Síntesis de voz síncrona MiniMax Speech 2.8 HD

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}

POST

minimax-speech-2.8-hd

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}

Convierte texto en voz, compatible con múltiples voces, control de emociones, ajuste de velocidad y otras funciones. El límite de longitud del texto es inferior a 10000 caracteres; si la longitud del texto supera los 3000 caracteres, se recomienda usar salida en streaming.

Encabezados de solicitud

Content-Type

string

requerido

Valores enumerados: application/json

Authorization

string

requerido

Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text

string

requerido

Texto que se debe sintetizar como voz. El límite de longitud es inferior a 10000 caracteres; si la longitud del texto supera los 3000 caracteres, se recomienda usar salida en streaming. Admite cambios de párrafo (saltos de línea), control de pausas (marca <#x#>) y etiquetas de muletillas o sonidos vocales (como (laughs), (coughs), etc.; solo compatibles con speech-2.8-hd/turbo)

stream

boolean

predeterminado:false

Controla si se usa salida en streaming. El valor predeterminado es false, es decir, no se habilita el streaming

voice_modify

object

Ocultar propiedades

pitch

integer

Ajuste de tono (grave/brillante), rango [-100, 100]. Cuanto más se acerque el valor a -100, más grave será la voz; cuanto más se acerque a 100, más brillante seráRango de valores: [-100, 100]

timbre

integer

Ajuste de timbre (magnético/nítido), rango [-100, 100]. Cuanto más se acerque el valor a -100, más profunda será la voz; cuanto más se acerque a 100, más nítida seráRango de valores: [-100, 100]

intensity

integer

Ajuste de intensidad (sensación de fuerza/suavidad), rango [-100, 100]. Cuanto más se acerque el valor a -100, más enérgica será la voz; cuanto más se acerque a 100, más suave seráRango de valores: [-100, 100]

sound_effects

string

Configuración de efectos de sonido. Solo se puede seleccionar uno por vez. Valores disponibles: spacious_echo (eco en espacio abierto), auditorium_echo (difusión de auditorio), lofi_telephone (distorsión telefónica), robotic (sonido electrónico)Valores disponibles: spacious_echo, auditorium_echo, lofi_telephone, robotic

audio_setting

object

Ocultar propiedades

format

string

predeterminado:"mp3"

Formato del audio generado. wav solo es compatible con salida sin streamingValores disponibles: mp3, pcm, flac, wav

bitrate

integer

predeterminado:128000

Tasa de bits del audio generado. Rango disponible [32000, 64000, 128000, 256000], valor predeterminado 128000. Este parámetro solo tiene efecto para audio en formato mp3Valores disponibles: 32000, 64000, 128000, 256000

channel

integer

predeterminado:1

Número de canales del audio generado. Rango disponible: [1, 2], donde 1 es mono y 2 es estéreo. El valor predeterminado es 1Valores disponibles: 1, 2

force_cbr

boolean

predeterminado:false

Control de tasa de bits constante (cbr) para audio; valores disponibles: false, true. Cuando este parámetro se establece en true, el audio se codifica con tasa de bits constante. Nota: este parámetro solo tiene efecto cuando el audio se configura como salida en streaming y el formato de audio es mp3

sample_rate

integer

predeterminado:32000

Frecuencia de muestreo del audio generado. Rango disponible [8000, 16000, 22050, 24000, 32000, 44100], valor predeterminado 32000Valores disponibles: 8000, 16000, 22050, 24000, 32000, 44100

output_format

string

predeterminado:"hex"

Parámetro que controla la forma del resultado de salida. El rango de valores disponible es url, hex, con valor predeterminado hex. Este parámetro solo tiene efecto en escenarios sin streaming; en escenarios con streaming solo se admite devolver el formato hex. La url devuelta tiene una validez de 24 horasValores disponibles: url, hex

voice_setting

object

Ocultar propiedades

vol

number

predeterminado:1

Volumen del audio sintetizado; cuanto mayor sea el valor, mayor será el volumen. Rango de valores (0, 10], valor predeterminado 1.0Rango de valores: [0, 10]

pitch

integer

predeterminado:0

Entonación del audio sintetizado. Rango de valores [-12, 12], valor predeterminado 0, donde 0 corresponde a la salida con la voz originalRango de valores: [-12, 12]

speed

number

predeterminado:1

Velocidad del audio sintetizado; cuanto mayor sea el valor, más rápida será la velocidad. Rango de valores [0.5, 2], valor predeterminado 1.0Rango de valores: [0.5, 2]

emotion

string

Controla la emoción de la voz sintetizada. El rango del parámetro corresponde a 8 emociones: alegría (happy), tristeza (sad), ira (angry), miedo (fearful), asco (disgusted), sorpresa (surprised), neutralidad (calm), vivacidad (fluent), susurro (whisper). El modelo emparejará automáticamente una emoción adecuada según el texto de entrada; por lo general, no es necesario especificarla manualmenteValores disponibles: happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper

voice_id

string

requerido

Identificador de la voz del audio sintetizado. Si necesitas configurar una mezcla de voces, establece el parámetro timber_weights y deja este parámetro como valor vacío. Admite tres tipos: voces del sistema, voces clonadas y voces generadas a partir de texto

latex_read

boolean

predeterminado:false

Controla si se leen fórmulas latex; el valor predeterminado es false. Solo es compatible con chino. Después de habilitar este parámetro, el parámetro language_boost se establecerá en Chinese

text_normalization

boolean

predeterminado:false

Indica si se habilita la normalización de texto en chino e inglés. Al habilitarla, puede mejorar el rendimiento en escenarios de lectura de números, pero aumentará ligeramente la latencia. El valor predeterminado es false

aigc_watermark

boolean

predeterminado:false

Controla si se añade una marca de ritmo de audio al final del audio sintetizado; el valor predeterminado es false. Este parámetro solo tiene efecto para síntesis sin streaming

language_boost

string

Indica si se mejora la capacidad de reconocimiento para el idioma minoritario o dialecto especificado. El valor predeterminado es null; se puede establecer en auto para que el modelo lo determine de forma autónomaValores disponibles: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto

stream_options

object

Ocultar propiedades

exclude_aggregated_audio

boolean

predeterminado:false

Configura si el último chunk contiene los datos de voz hex concatenados. El valor predeterminado es false, es decir, el último chunk contiene los datos hex completos de la voz concatenada

timber_weights

array

Configuración de mezcla de voces; admite como máximo la mezcla de 4 voces

Ocultar propiedades

weight

integer

requerido

Peso que ocupa cada voz en el audio sintetizado; debe completarse de forma sincronizada con voice_id. El rango de valores disponible es [1, 100]. Admite como máximo la mezcla de 4 voces; cuanto mayor sea la proporción de una sola voz, mayor será la similitud de la voz sintetizada con esa vozRango de valores: [1, 100]

voice_id

string

requerido

Identificador de la voz del audio sintetizado; debe completarse junto con el parámetro weight. Admite tres tipos: voces del sistema, voces clonadas y voces generadas a partir de texto

subtitle_enable

boolean

predeterminado:false

Controla si se habilita el servicio de subtítulos; el valor predeterminado es false. Este parámetro solo es válido en escenarios de salida sin streaming y solo es efectivo para los modelos speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd

continuous_sound

boolean

predeterminado:false

Habilita este parámetro para que la conexión entre suboraciones sea más natural. Solo es compatible con los modelos speech-2.8-hd y speech-2.8-turbo

pronunciation_dict

object

Ocultar propiedades

tone

array

Define las reglas de sustitución de pronunciación o lectura correspondientes a textos o símbolos que requieren anotación especial. En texto chino, los tonos se representan con números: el primer tono es 1, el segundo tono es 2, el tercer tono es 3, el cuarto tono es 4 y el tono neutro es 5. Ejemplo: [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]

Información de respuesta

data

object

Objeto de datos de síntesis devuelto; puede ser null, por lo que se debe comprobar que no sea nulo

trace_id

string

id de esta sesión, utilizado para ayudar a localizar problemas durante consultas o comentarios

base_resp

object

Código de estado y detalles de esta solicitud

extra_info

object

Información adicional del audio

Síntesis de voz asíncrona MiniMax Speech 2.8 HD

Clonación rápida de audio MiniMax

​Encabezados de solicitud

​Cuerpo de la solicitud

​Información de respuesta

Encabezados de solicitud

Cuerpo de la solicitud

Información de respuesta