Saltar al contenido principal
POST
/
v3
/
minimax-speech-2.8-turbo
Síntesis de voz síncrona MiniMax Speech 2.8 Turbo
curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}
Convierte texto en voz, con soporte para múltiples voces, control de emociones, ajuste de velocidad de habla y otras funciones. La longitud del texto debe ser inferior a 10000 caracteres. Si la longitud del texto supera los 3000 caracteres, se recomienda usar salida en streaming.

Encabezados de solicitud

Content-Type
string
requerido
Valor enum: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text
string
requerido
Texto que se debe sintetizar en voz. La longitud debe ser inferior a 10000 caracteres. Si la longitud del texto supera los 3000 caracteres, se recomienda usar salida en streaming. Admite cambios de párrafo (saltos de línea), control de pausas (marcador &lt;#x#&gt;) y etiquetas de muletillas/expresiones vocales (como (laughs), (coughs), etc.; solo compatibles con speech-2.8-hd/turbo)
stream
boolean
predeterminado:false
Controla si se usa salida en streaming. El valor predeterminado es false, es decir, el streaming no está habilitado
voice_modify
object
audio_setting
object
output_format
string
predeterminado:"hex"
Parámetro que controla el formato del resultado de salida. Los valores disponibles son url y hex; el valor predeterminado es hex. Este parámetro solo tiene efecto en escenarios no streaming; en escenarios de streaming solo se admite devolver el formato hex. La url devuelta tiene una validez de 24 horasValores permitidos: url, hex
voice_setting
object
aigc_watermark
boolean
predeterminado:false
Controla si se agrega un identificador de ritmo de audio al final del audio sintetizado. El valor predeterminado es false. Este parámetro solo tiene efecto para síntesis no streaming
language_boost
string
Indica si se mejora la capacidad de reconocimiento para el idioma minoritario o dialecto especificado. El valor predeterminado es null; puede establecerse en auto para que el modelo lo determine automáticamenteValores permitidos: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
stream_options
object
timber_weights
array
Configuración de voz mixta. Admite la mezcla de hasta 4 voces
subtitle_enable
boolean
predeterminado:false
Controla si se habilita el servicio de subtítulos. El valor predeterminado es false. Este parámetro solo es válido en escenarios de salida no streaming y solo para los modelos speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd
continuous_sound
boolean
predeterminado:false
Habilite este parámetro para que las transiciones entre cláusulas sean más naturales. Solo es compatible con los modelos speech-2.8-hd y speech-2.8-turbo
pronunciation_dict
object

Información de respuesta

data
object
Objeto de datos sintetizados devuelto. Puede ser null, por lo que debe realizarse una comprobación de no nulidad
trace_id
string
id de esta sesión, usado para ayudar a localizar problemas durante consultas o comentarios
base_resp
object
Código de estado y detalles de esta solicitud
extra_info
object
Información adicional del audio