Síntese de voz Fish Audio
Áudio
Síntese de voz Fish Audio
POST
Síntese de voz Fish Audio
Para obter os melhores resultados, recomendamos usar a clonagem de áudio para enviar um áudio de referência antes de usar esta API. Isso melhorará a qualidade da voz e reduzirá a latência.
-
WAV / PCM
- Taxa de amostragem: 8kHz, 16kHz, 24kHz, 32kHz, 44.1kHz
- Taxa de amostragem padrão: 44.1kHz
- 16-bit, mono
-
MP3
- Taxa de amostragem: 32kHz, 44.1kHz
- Taxa de amostragem padrão: 44.1kHz
- Mono
- Taxa de bits: 64kbps, 128kbps (padrão), 192kbps
-
Opus
- Taxa de amostragem: 48kHz
- Taxa de amostragem padrão: 48kHz
- Mono
- Taxa de bits: -1000 (automático), 24kbps, 32kbps (padrão), 48kbps, 64kbps
Cabeçalhos da requisição
Valores enumerados:
application/jsonFormato de autenticação Bearer: Bearer {{API Key}}.
Corpo da requisição
O texto a ser convertido em fala.
Controla a aleatoriedade da geração de fala. Valores mais altos (por exemplo, 1.0) tornam a saída mais aleatória, enquanto valores mais baixos (por exemplo, 0.1) a tornam mais determinística. Recomendamos usar
0.9 para o modelo s1.Intervalo obrigatório: 0 <= x <= 1Controla a diversidade por meio de amostragem de núcleo. Valores mais baixos (por exemplo, 0.1) tornam a saída mais focada, enquanto valores mais altos (por exemplo, 1.0) permitem mais diversidade. Recomendamos usar
0.9 para o modelo s1.Intervalo obrigatório: 0 <= x <= 1Áudios de referência usados para a voz; isso requer serialização MessagePack, que substituirá reference_voices e reference_texts.
ID do modelo de referência usado para a voz.
Controle de prosódia usado para a voz.
Comprimento dos blocos usado para a voz.Intervalo obrigatório:
100 <= x <= 300Se deve normalizar a fala; isso reduzirá a latência, mas pode diminuir o desempenho no processamento de números e datas.
Formato usado para a voz.Valores opcionais:
wav, pcm, mp3, opusTaxa de amostragem usada para a voz.
Taxa de bits MP3 usada para a voz.Valores opcionais:
64, 128, 192Taxa de bits Opus usada para a voz.Valores opcionais:
-1000, 24, 32, 48, 64Configuração de latência usada para a voz; balanced reduzirá a latência, mas pode causar queda de desempenho.Valores opcionais:
normal, balancedInformações de resposta
A API retornará diretamente um fluxo de áudio no formato especificado pelo parâmetroformat (padrão: mp3).