Saltar al contenido principal
POST
/
v3
/
minimax-speech-2.5-turbo-preview
Síntesis de voz síncrona de MiniMax Speech-2.5-turbo-preview
curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.5-turbo-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'
{
  "audio": "<string>",
  "status": 123
}
Esta API admite la generación síncrona de texto a voz, con un máximo de 10000 caracteres por envío de texto. Admite más de 100 voces del sistema y voces clonadas seleccionables por el usuario; permite ajustar volumen, entonación, velocidad y formato de salida; admite mezcla de voces por proporción y control de intervalos fijos; admite múltiples especificaciones y formatos de audio, incluidos: mp3, pcm, flac, wav, y admite salida en streaming. Después de enviar una solicitud de síntesis de voz con texto largo, ten en cuenta que la URL devuelta tiene una validez de 24 horas desde el momento en que se devuelve la URL. Presta atención al tiempo disponible para descargar la información.
Aplicable a escenarios como generación de frases cortas, chat de voz y redes sociales en línea. Tiene baja latencia, pero el límite de longitud del texto es inferior a 10000 caracteres. Para textos largos, se recomienda usar síntesis de voz mediante llamada asíncrona.

Encabezados de solicitud

Content-Type
string
requerido
Valores enumerados: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text
string
requerido
Texto que se va a sintetizar, con un límite de longitud inferior a 10000 caracteres. Los cambios de párrafo se sustituyen por saltos de línea. (Si necesitas controlar el tiempo de intervalo en la voz, añade <#x#> entre caracteres; x está en segundos, admite 0.01-99.99, con un máximo de dos decimales). Admite intervalos de tiempo de voz personalizados entre textos para lograr pausas personalizadas en el texto hablado. Ten en cuenta que el intervalo de tiempo entre textos debe establecerse entre dos fragmentos de texto que puedan pronunciarse, y no se pueden establecer múltiples intervalos de tiempo consecutivos.
voice_setting
object
requerido
audio_setting
object
pronunciation_dict
object
timbre_weights
object[]
Obligatorio elegir uno entre este parámetro y voice_id
stream
boolean
predeterminado:"false"
Indica si se usa streaming. El valor predeterminado es false, es decir, streaming desactivado.
stream_options
object
language_boost
string
predeterminado:"null"
Mejora la capacidad de reconocimiento para idiomas minoritarios y dialectos especificados. Una vez configurado, puede mejorar el rendimiento de la voz en escenarios del idioma minoritario/dialecto especificado. Si no está claro el tipo de idioma minoritario, puedes elegir “auto” y el modelo determinará de forma autónoma el tipo de idioma minoritario. Admite los siguientes valores:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
output_format
string
predeterminado:"hex"
Parámetro que controla la forma del resultado de salida. Los valores opcionales son url hex. El valor predeterminado es hex. Este parámetro solo tiene efecto en escenarios no streaming; en escenarios de streaming solo se admite la devolución en formato hex. La URL devuelta tiene una validez de 24 horas.
voice_modify
object
Configuración del efecto de voz. Este parámetro admite los siguientes formatos de audio:
  • No streaming: mp3, wav, flac
  • Streaming: mp3

Información de respuesta

audio
string
Fragmento de audio sintetizado, codificado en hex, generado según el formato definido en la entrada (audio_setting.format) (mp3/pcm/flac). La forma de devolución depende de la definición de output_format; cuando stream es true, solo se admite la devolución en formato hex.
status
number
Estado actual del flujo de audio, devuelto solo cuando stream es true. 1 indica que la síntesis está en curso, 2 indica que la síntesis ha finalizado.