Synthèse vocale Fish Audio S2 Pro
Audio
Synthèse vocale Fish Audio S2 Pro
POST
Synthèse vocale Fish Audio S2 Pro
Le modèle de synthèse vocale Fish Audio S2 Pro convertit du texte en parole naturelle et prend en charge les voix de référence, le contrôle de l’échantillonnage, la segmentation, les formats audio et le contrôle de la prosodie.
En-têtes de requête
Valeur d’énumération :
application/jsonFormat d’authentification Bearer : Bearer {{API Key}}.
Corps de la requête
Texte à convertir en parole. Le texte multi-locuteur S2-Pro peut utiliser les balises <|speaker:0|>你好<|speaker:1|>你好呀.
Contrôle de la diversité de l’échantillonnage par noyau.Plage de valeurs : [0, 1]
Format audio de sortie.Valeurs possibles :
wav, pcm, mp3, opusNiveau de latence.Valeurs possibles :
low, normal, balancedContrôle de la prosodie.
Normalise les textes chinois et anglais.
Échantillons audio de référence pour le clonage vocal zero-shot.
Débit MP3, en kbps.Valeurs possibles :
64, 128, 192Taux d’échantillonnage de sortie en Hz. Si vide, la valeur par défaut du format est utilisée : 48000 Hz pour opus, généralement 44100 Hz pour les autres formats.
Contrôle de l’expressivité.Plage de valeurs : [0, 1]
Taille de segmentation du texte.Plage de valeurs : [100, 300]
Débit Opus, en bps ; -1000 signifie automatique.Valeurs possibles :
-1000, 24000, 32000, 48000, 64000ID du modèle de voix ; dans les scénarios multi-locuteurs, vous pouvez transmettre un tableau correspondant à l’index speaker.
Nombre maximal de tokens audio par segment.
Nombre minimal de caractères avant segmentation.Plage de valeurs : [0, 100]
Coefficient de pénalité réduisant la répétition des motifs audio.
Seuil d’arrêt anticipé.Plage de valeurs : [0, 1]
Utilise les segments audio précédents comme contexte.
Informations de réponse
Audio généré. Format :binary