Pular para o conteúdo principal
POST
/
v4beta
/
txt2speech
Síntese de voz Fish Audio
curl --request POST \
  --url https://api.highwayapi.ai/v4beta/txt2speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "temperature": 123,
  "top_p": 123,
  "references": {
    "text": "<string>"
  },
  "reference_id": {},
  "prosody": {
    "speed": 123,
    "volume": 123
  },
  "chunk_length": 123,
  "normalize": true,
  "format": {},
  "sample_rate": {},
  "mp3_bitrate": {},
  "opus_bitrate": {},
  "latency": {}
}
'
Para obter os melhores resultados, recomendamos usar a clonagem de áudio para enviar um áudio de referência antes de usar esta API. Isso melhorará a qualidade da voz e reduzirá a latência.
O Fish Audio converte texto em fala. Formatos de áudio compatíveis:
  • WAV / PCM
    • Taxa de amostragem: 8kHz, 16kHz, 24kHz, 32kHz, 44.1kHz
    • Taxa de amostragem padrão: 44.1kHz
    • 16-bit, mono
  • MP3
    • Taxa de amostragem: 32kHz, 44.1kHz
    • Taxa de amostragem padrão: 44.1kHz
    • Mono
    • Taxa de bits: 64kbps, 128kbps (padrão), 192kbps
  • Opus
    • Taxa de amostragem: 48kHz
    • Taxa de amostragem padrão: 48kHz
    • Mono
    • Taxa de bits: -1000 (automático), 24kbps, 32kbps (padrão), 48kbps, 64kbps

Cabeçalhos da requisição

Content-Type
string
obrigatório
Valores enumerados: application/json
Authorization
string
obrigatório
Formato de autenticação Bearer: Bearer {{API Key}}.

Corpo da requisição

text
string
obrigatório
O texto a ser convertido em fala.
temperature
number
Controla a aleatoriedade da geração de fala. Valores mais altos (por exemplo, 1.0) tornam a saída mais aleatória, enquanto valores mais baixos (por exemplo, 0.1) a tornam mais determinística. Recomendamos usar 0.9 para o modelo s1.Intervalo obrigatório: 0 <= x <= 1
top_p
number
Controla a diversidade por meio de amostragem de núcleo. Valores mais baixos (por exemplo, 0.1) tornam a saída mais focada, enquanto valores mais altos (por exemplo, 1.0) permitem mais diversidade. Recomendamos usar 0.9 para o modelo s1.Intervalo obrigatório: 0 <= x <= 1
references
ReferenceAudio · object[] | null
Áudios de referência usados para a voz; isso requer serialização MessagePack, que substituirá reference_voices e reference_texts.
reference_id
string | null
ID do modelo de referência usado para a voz.
prosody
ProsodyControl · object
Controle de prosódia usado para a voz.
chunk_length
integer
padrão:200
Comprimento dos blocos usado para a voz.Intervalo obrigatório: 100 <= x <= 300
normalize
boolean
padrão:true
Se deve normalizar a fala; isso reduzirá a latência, mas pode diminuir o desempenho no processamento de números e datas.
format
enum<string>
padrão:"mp3"
Formato usado para a voz.Valores opcionais: wav, pcm, mp3, opus
sample_rate
integer | null
Taxa de amostragem usada para a voz.
mp3_bitrate
enum<integer>
padrão:128
Taxa de bits MP3 usada para a voz.Valores opcionais: 64, 128, 192
opus_bitrate
enum<integer>
padrão:32
Taxa de bits Opus usada para a voz.Valores opcionais: -1000, 24, 32, 48, 64
latency
enum<string>
padrão:"normal"
Configuração de latência usada para a voz; balanced reduzirá a latência, mas pode causar queda de desempenho.Valores opcionais: normal, balanced

Informações de resposta

A API retornará diretamente um fluxo de áudio no formato especificado pelo parâmetro format (padrão: mp3).