Synthèse vocale Fish Audio
Audio
Synthèse vocale Fish Audio
POST
Synthèse vocale Fish Audio
Pour obtenir les meilleurs résultats, il est recommandé d’utiliser d’abord le clonage audio pour téléverser un audio de référence avant d’utiliser cette API. Cela améliorera la qualité vocale et réduira la latence.
-
WAV / PCM
- Fréquence d’échantillonnage : 8kHz, 16kHz, 24kHz, 32kHz, 44.1kHz
- Fréquence d’échantillonnage par défaut : 44.1kHz
- 16-bit, mono
-
MP3
- Fréquence d’échantillonnage : 32kHz, 44.1kHz
- Fréquence d’échantillonnage par défaut : 44.1kHz
- Mono
- Débit binaire : 64kbps, 128kbps (par défaut), 192kbps
-
Opus
- Fréquence d’échantillonnage : 48kHz
- Fréquence d’échantillonnage par défaut : 48kHz
- Mono
- Débit binaire : -1000 (automatique), 24kbps, 32kbps (par défaut), 48kbps, 64kbps
En-têtes de requête
Valeur énumérée :
application/jsonFormat d’authentification Bearer : Bearer {{clé API}}.
Corps de la requête
Texte à convertir en parole.
Contrôle le caractère aléatoire de la génération vocale. Des valeurs plus élevées (par exemple 1.0) rendent la sortie plus aléatoire, tandis que des valeurs plus faibles (par exemple 0.1) la rendent plus déterministe. Nous recommandons d’utiliser
0.9 pour le modèle s1.Plage requise : 0 <= x <= 1Contrôle la diversité via l’échantillonnage par noyau. Des valeurs plus faibles (par exemple 0.1) rendent la sortie plus concentrée, tandis que des valeurs plus élevées (par exemple 1.0) permettent davantage de diversité. Nous recommandons d’utiliser
0.9 pour le modèle s1.Plage requise : 0 <= x <= 1Audio de référence à utiliser pour la voix ; cela nécessite une sérialisation MessagePack et remplacera reference_voices et reference_texts.
ID du modèle de référence à utiliser pour la voix.
Contrôle de la prosodie à utiliser pour la voix.
Longueur des blocs à utiliser pour la voix.Plage requise :
100 <= x <= 300Indique s’il faut normaliser la voix, ce qui réduira la latence, mais peut dégrader les performances de traitement des nombres et des dates.
Format à utiliser pour la voix.Valeurs possibles :
wav, pcm, mp3, opusFréquence d’échantillonnage à utiliser pour la voix.
Débit binaire MP3 à utiliser pour la voix.Valeurs possibles :
64, 128, 192Débit binaire Opus à utiliser pour la voix.Valeurs possibles :
-1000, 24, 32, 48, 64Paramètre de latence à utiliser pour la voix ; balanced réduira la latence, mais peut entraîner une baisse des performances.Valeurs possibles :
normal, balancedInformations de réponse
L’API renverra directement un flux audio au format spécifié par le paramètreformat (par défaut : mp3).