Pular para o conteúdo principal
POST
/
v3
/
async
/
minimax-speech-2.8-turbo
MiniMax Speech 2.8 Turbo Síntese de fala assíncrona
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}
Use esta interface para criar uma tarefa assíncrona de síntese de fala. Oferece suporte a entrada por texto ou arquivo; o texto tem limite máximo de 50 mil caracteres, e arquivos têm limite máximo de 100 mil caracteres.
Esta é uma API assíncrona e retornará apenas o task_id da tarefa assíncrona. Você deve usar esse task_id para solicitar a API de consulta do resultado da tarefa e recuperar o resultado gerado.

Cabeçalhos da requisição

Content-Type
string
obrigatório
Valores enumerados: application/json
Authorization
string
obrigatório
Formato de autenticação Bearer: Bearer {{API Key}}.

Corpo da requisição

text
string
Texto do áudio a ser sintetizado, com limite máximo de 50 mil caracteres. Obrigatório escolher um entre este campo e text_file_id

• Tags de interjeições: somente quando o modelo selecionado for speech-2.8-hd ou speech-2.8-turbo, é possível inserir tags de interjeição no texto. Interjeições compatíveis: (laughs) (risada), (chuckle) (risinho), (coughs) (tosse), (clear-throat) (limpar a garganta), (groans) (gemido), (breath) (respiração normal), (pant) (ofegar), (inhale) (inspirar), (exhale) (expirar), (gasps) (inspiração súbita), (sniffs) (fungar), (sighs) (suspiro), (snorts) (bufada pelo nariz), (burps) (arroto), (lip-smacking) (estalar os lábios), (humming) (cantarolar), (hissing) (chiado), (emm) (hum), (whistles) (assobio), (sneezes) (espirro), (crying) (soluço/choro), (applause) (aplausos)
text_file_id
integer
id do arquivo de texto do áudio a ser sintetizado; o tamanho de um único arquivo deve ser menor que 100 mil caracteres. Formatos de arquivo compatíveis: txt, zip. Obrigatório escolher um entre este campo e text; após o envio, o formato será validado automaticamente.
Arquivo txt: limite de tamanho <100.000 caracteres. Suporta o uso de &lt;#x#&gt; para marcar pausas personalizadas. x é a duração da pausa (unidade: segundos), no intervalo [0.01,99.99], com no máximo duas casas decimais. Observe que a pausa deve ser definida entre dois trechos de texto que possam ser pronunciados, e várias marcações de pausa não podem ser usadas consecutivamente
Arquivo zip:
• O pacote compactado deve conter arquivos txt ou json no mesmo formato.
• Formato do arquivo json: oferece suporte aos três campos [title, content, extra], que representam, respectivamente, título, corpo do texto e informações adicionais. Se os três campos existirem, serão gerados 3 grupos de resultados, totalizando 9 arquivos, armazenados em uma única pasta. Se algum campo não existir ou seu conteúdo estiver vazio, o resultado correspondente a esse campo não será gerado
voice_modify
object
audio_setting
object
voice_setting
object
obrigatório
aigc_watermark
boolean
padrão:false
Controla a adição de uma marcação rítmica de áudio ao final do áudio sintetizado; o valor padrão é False. Este parâmetro só tem efeito na síntese não streaming
language_boost
string
Indica se a capacidade de reconhecimento de determinados idiomas minoritários e dialetos deve ser aprimorada. O valor padrão é null; pode ser definido como auto para permitir que o modelo decida autonomamente.Valores opcionais: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
continuous_sound
boolean
padrão:false
Ative este parâmetro para tornar a conexão entre subfrases mais natural; compatível apenas com os modelos speech-2.8-hd e speech-2.8-turbo
pronunciation_dict
object

Informações da resposta

file_id
integer
ID do arquivo de áudio correspondente retornado após a criação bem-sucedida da tarefa.

• Após a conclusão da tarefa, ele pode ser consultado por meio de file_id. Quando ocorrer erro na requisição, este campo não será retornado
Observação: a URL de download retornada é válida por 9 horas (32400 segundos) a partir da geração. Após expirar, o arquivo ficará inválido e as informações geradas serão perdidas; observe o prazo para baixar as informações
task_id
string
Use o task_id para solicitar a API de consulta do resultado da tarefa e recuperar a saída gerada.
base_resp
object
task_token
string
Informações da chave usadas para concluir a tarefa atual
usage_characters
integer
Número de caracteres faturáveis