Saltar al contenido principal
POST
/
v3
/
minimax-speech-2.8-hd
Síntesis de voz síncrona MiniMax Speech 2.8 HD
curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}
Convierte texto en voz, compatible con múltiples voces, control de emociones, ajuste de velocidad y otras funciones. El límite de longitud del texto es inferior a 10000 caracteres; si la longitud del texto supera los 3000 caracteres, se recomienda usar salida en streaming.

Encabezados de solicitud

Content-Type
string
requerido
Valores enumerados: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text
string
requerido
Texto que se debe sintetizar como voz. El límite de longitud es inferior a 10000 caracteres; si la longitud del texto supera los 3000 caracteres, se recomienda usar salida en streaming. Admite cambios de párrafo (saltos de línea), control de pausas (marca &lt;#x#&gt;) y etiquetas de muletillas o sonidos vocales (como (laughs), (coughs), etc.; solo compatibles con speech-2.8-hd/turbo)
stream
boolean
predeterminado:false
Controla si se usa salida en streaming. El valor predeterminado es false, es decir, no se habilita el streaming
voice_modify
object
audio_setting
object
output_format
string
predeterminado:"hex"
Parámetro que controla la forma del resultado de salida. El rango de valores disponible es url, hex, con valor predeterminado hex. Este parámetro solo tiene efecto en escenarios sin streaming; en escenarios con streaming solo se admite devolver el formato hex. La url devuelta tiene una validez de 24 horasValores disponibles: url, hex
voice_setting
object
aigc_watermark
boolean
predeterminado:false
Controla si se añade una marca de ritmo de audio al final del audio sintetizado; el valor predeterminado es false. Este parámetro solo tiene efecto para síntesis sin streaming
language_boost
string
Indica si se mejora la capacidad de reconocimiento para el idioma minoritario o dialecto especificado. El valor predeterminado es null; se puede establecer en auto para que el modelo lo determine de forma autónomaValores disponibles: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
stream_options
object
timber_weights
array
Configuración de mezcla de voces; admite como máximo la mezcla de 4 voces
subtitle_enable
boolean
predeterminado:false
Controla si se habilita el servicio de subtítulos; el valor predeterminado es false. Este parámetro solo es válido en escenarios de salida sin streaming y solo es efectivo para los modelos speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd
continuous_sound
boolean
predeterminado:false
Habilita este parámetro para que la conexión entre suboraciones sea más natural. Solo es compatible con los modelos speech-2.8-hd y speech-2.8-turbo
pronunciation_dict
object

Información de respuesta

data
object
Objeto de datos de síntesis devuelto; puede ser null, por lo que se debe comprobar que no sea nulo
trace_id
string
id de esta sesión, utilizado para ayudar a localizar problemas durante consultas o comentarios
base_resp
object
Código de estado y detalles de esta solicitud
extra_info
object
Información adicional del audio