Síntese de voz síncrona MiniMax Speech 2.8 HD

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}

POST

minimax-speech-2.8-hd

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}

Converta texto em fala, com suporte a várias vozes, controle de emoção, ajuste de velocidade de fala e outros recursos. O limite de comprimento do texto é inferior a 10000 caracteres; se o texto tiver mais de 3000 caracteres, recomenda-se usar saída em streaming.

Cabeçalhos da requisição

Content-Type

string

obrigatório

Valores enumerados: application/json

Authorization

string

obrigatório

Formato de autenticação Bearer: Bearer {{API Key}}.

Corpo da requisição

text

string

obrigatório

O texto a ser sintetizado em fala. O limite de comprimento é inferior a 10000 caracteres; se o texto tiver mais de 3000 caracteres, recomenda-se usar saída em streaming. Oferece suporte a troca de parágrafos (quebras de linha), controle de pausas (marcador <#x#>) e tags de interjeições (como (laughs), (coughs), etc.; compatível apenas com speech-2.8-hd/turbo)

stream

boolean

padrão:false

Controla se a saída será em streaming. O padrão é false, ou seja, streaming desativado

voice_modify

object

Ocultar propriedades

pitch

integer

Ajuste de altura vocal (grave/brilhante), intervalo [-100, 100]. Quanto mais próximo de -100, mais grave a voz; quanto mais próximo de 100, mais brilhante a vozIntervalo de valores: [-100, 100]

timbre

integer

Ajuste de timbre (encorpado/cristalino), intervalo [-100, 100]. Quanto mais próximo de -100, mais encorpada a voz; quanto mais próximo de 100, mais cristalina a vozIntervalo de valores: [-100, 100]

intensity

integer

Ajuste de intensidade (força/suavidade), intervalo [-100, 100]. Quanto mais próximo de -100, mais firme a voz; quanto mais próximo de 100, mais suave a vozIntervalo de valores: [-100, 100]

sound_effects

string

Configuração de efeito sonoro. Apenas um pode ser selecionado por vez. Valores disponíveis: spacious_echo (eco em espaço aberto), auditorium_echo (transmissão em auditório), lofi_telephone (distorção de telefone), robotic (voz eletrônica)Valores disponíveis: spacious_echo, auditorium_echo, lofi_telephone, robotic

audio_setting

object

Ocultar propriedades

format

string

padrão:"mp3"

Formato do áudio gerado. wav é compatível apenas com saída não streamingValores disponíveis: mp3, pcm, flac, wav

bitrate

integer

padrão:128000

Taxa de bits do áudio gerado. Intervalo disponível [32000, 64000, 128000, 256000], valor padrão 128000. Este parâmetro só tem efeito para áudio no formato mp3Valores disponíveis: 32000, 64000, 128000, 256000

channel

integer

padrão:1

Número de canais do áudio gerado. Intervalo disponível: [1, 2], em que 1 é mono e 2 é estéreo. O valor padrão é 1Valores disponíveis: 1, 2

force_cbr

boolean

padrão:false

Controle de taxa de bits constante (cbr) para áudio; opções: false, true. Quando este parâmetro é definido como true, o áudio será codificado com taxa de bits constante. Observação: este parâmetro só tem efeito quando o áudio está configurado para saída em streaming e o formato de áudio é mp3

sample_rate

integer

padrão:32000

Taxa de amostragem do áudio gerado. Intervalo disponível [8000, 16000, 22050, 24000, 32000, 44100], padrão 32000Valores disponíveis: 8000, 16000, 22050, 24000, 32000, 44100

output_format

string

padrão:"hex"

Parâmetro que controla o formato do resultado de saída. Os valores disponíveis são url e hex; o valor padrão é hex. Este parâmetro só tem efeito em cenários não streaming; em cenários de streaming, apenas o retorno em formato hex é compatível. A url retornada é válida por 24 horasValores disponíveis: url, hex

voice_setting

object

Ocultar propriedades

vol

number

padrão:1

Volume do áudio sintetizado. Quanto maior o valor, maior o volume. Intervalo de valores (0, 10], valor padrão 1.0Intervalo de valores: [0, 10]

pitch

integer

padrão:0

Tom do áudio sintetizado. Intervalo de valores [-12, 12], valor padrão 0, em que 0 indica saída com o timbre originalIntervalo de valores: [-12, 12]

speed

number

padrão:1

Velocidade de fala do áudio sintetizado. Quanto maior o valor, mais rápida a fala. Intervalo de valores [0.5, 2], valor padrão 1.0Intervalo de valores: [0.5, 2]

emotion

string

Controla a emoção da fala sintetizada. O intervalo de parâmetros corresponde a 8 emoções: feliz (happy), triste (sad), irritado (angry), com medo (fearful), com nojo (disgusted), surpreso (surprised), neutro (calm), vívido (fluent), sussurro (whisper). O modelo corresponderá automaticamente a emoção adequada de acordo com o texto de entrada; em geral, não é necessário especificar manualmenteValores disponíveis: happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper

voice_id

string

obrigatório

ID da voz do áudio sintetizado. Se precisar configurar uma voz mista, defina o parâmetro timber_weights e deixe este parâmetro vazio. Oferece suporte a três tipos: vozes do sistema, vozes clonadas e vozes geradas a partir de texto

latex_read

boolean

padrão:false

Controla se fórmulas latex serão lidas, padrão false. Compatível apenas com chinês. Após ativar este parâmetro, o parâmetro language_boost será definido como Chinese

text_normalization

boolean

padrão:false

Define se a normalização de texto em chinês e inglês será ativada. Após ativada, pode melhorar o desempenho em cenários de leitura de números, mas aumentará ligeiramente a latência. O valor padrão é false

aigc_watermark

boolean

padrão:false

Controla a adição de um identificador de ritmo de áudio ao final do áudio sintetizado. O valor padrão é false. Este parâmetro só tem efeito para síntese não streaming

language_boost

string

Define se a capacidade de reconhecimento para idiomas minoritários e dialetos especificados será aprimorada. O valor padrão é null; pode ser definido como auto para permitir que o modelo julgue automaticamenteValores disponíveis: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto

stream_options

object

Ocultar propriedades

exclude_aggregated_audio

boolean

padrão:false

Define se o último chunk contém os dados de áudio hex concatenados. O valor padrão é false, ou seja, o último chunk contém os dados hex do áudio completo após a concatenação

timber_weights

array

Configuração de voz mista, com suporte a no máximo 4 vozes misturadas

Ocultar propriedades

weight

integer

obrigatório

Peso de cada voz no áudio sintetizado; deve ser preenchido junto com voice_id. O intervalo de valores disponível é [1, 100], com suporte a no máximo 4 vozes misturadas. Quanto maior a proporção de uma única voz, mais semelhante a voz sintetizada será a elaIntervalo de valores: [1, 100]

voice_id

string

obrigatório

ID da voz do áudio sintetizado; deve ser preenchido junto com o parâmetro weight. Oferece suporte a três tipos: vozes do sistema, vozes clonadas e vozes geradas a partir de texto

subtitle_enable

boolean

padrão:false

Controla se o serviço de legendas será ativado, padrão false. Este parâmetro só é válido em cenários de saída não streaming e apenas para os modelos speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd

continuous_sound

boolean

padrão:false

Ative este parâmetro para tornar a transição entre orações mais natural. Compatível apenas com os modelos speech-2.8-hd e speech-2.8-turbo

pronunciation_dict

object

Ocultar propriedades

tone

array

Define regras de substituição de pronúncia ou leitura fonética correspondentes a textos ou símbolos que exigem marcação especial. Em textos em chinês, os tons são representados por números: primeiro tom é 1, segundo tom é 2, terceiro tom é 3, quarto tom é 4 e tom neutro é 5. Exemplo: [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]

Informações da resposta

data

object

Objeto de dados sintetizados retornado; pode ser null, portanto é necessário verificar se não está vazio

trace_id

string

id desta sessão, usado para ajudar a localizar problemas em consultas/feedback

base_resp

object

Código de status e detalhes desta requisição

extra_info

object

Informações adicionais do áudio

Síntese de voz assíncrona MiniMax Speech 2.8 HD

Clonagem rápida de áudio MiniMax

​Cabeçalhos da requisição

​Corpo da requisição

​Informações da resposta

Cabeçalhos da requisição

Corpo da requisição

Informações da resposta