Síntesis de voz de Fish Audio
Audio
Síntesis de voz de Fish Audio
POST
Síntesis de voz de Fish Audio
Para obtener los mejores resultados, se recomienda usar clonación de voz para subir audio de referencia antes de utilizar esta API. Esto mejorará la calidad de la voz y reducirá la latencia.
-
WAV / PCM
- Frecuencia de muestreo: 8kHz, 16kHz, 24kHz, 32kHz, 44.1kHz
- Frecuencia de muestreo predeterminada: 44.1kHz
- 16-bit, mono
-
MP3
- Frecuencia de muestreo: 32kHz, 44.1kHz
- Frecuencia de muestreo predeterminada: 44.1kHz
- Mono
- Tasa de bits: 64kbps, 128kbps (predeterminada), 192kbps
-
Opus
- Frecuencia de muestreo: 48kHz
- Frecuencia de muestreo predeterminada: 48kHz
- Mono
- Tasa de bits: -1000 (automática), 24kbps, 32kbps (predeterminada), 48kbps, 64kbps
Encabezados de solicitud
Valores enumerados:
application/jsonFormato de autenticación Bearer: Bearer {{API Key}}.
Cuerpo de la solicitud
Texto que se convertirá en voz.
Controla la aleatoriedad de la generación de voz. Los valores más altos (por ejemplo, 1.0) hacen que la salida sea más aleatoria, mientras que los valores más bajos (por ejemplo, 0.1) la hacen más determinista. Recomendamos usar
0.9 para el modelo s1.Rango requerido: 0 <= x <= 1Controla la diversidad mediante muestreo de núcleo. Los valores más bajos (por ejemplo, 0.1) hacen que la salida esté más enfocada, mientras que los valores más altos (por ejemplo, 1.0) permiten mayor diversidad. Recomendamos usar
0.9 para el modelo s1.Rango requerido: 0 <= x <= 1Audio de referencia para la voz; esto requiere serialización MessagePack y sobrescribirá reference_voices y reference_texts.
ID del modelo de referencia utilizado para la voz.
Control de prosodia utilizado para la voz.
Longitud de fragmentación utilizada para la voz.Rango requerido:
100 <= x <= 300Indica si se debe normalizar la voz; esto reducirá la latencia, pero puede disminuir el rendimiento al procesar números y fechas.
Formato utilizado para la voz.Valores opcionales:
wav, pcm, mp3, opusFrecuencia de muestreo utilizada para la voz.
Tasa de bits MP3 utilizada para la voz.Valores opcionales:
64, 128, 192Tasa de bits Opus utilizada para la voz.Valores opcionales:
-1000, 24, 32, 48, 64Configuración de latencia utilizada para la voz; balanced reducirá la latencia, pero puede provocar una disminución del rendimiento.Valores opcionales:
normal, balancedInformación de respuesta
La API devolverá directamente un flujo de audio en el formato especificado por el parámetroformat (predeterminado: mp3).