Passer au contenu principal
POST
/
v4beta
/
txt2speech
Synthèse vocale Fish Audio
curl --request POST \
  --url https://api.highwayapi.ai/v4beta/txt2speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "temperature": 123,
  "top_p": 123,
  "references": {
    "text": "<string>"
  },
  "reference_id": {},
  "prosody": {
    "speed": 123,
    "volume": 123
  },
  "chunk_length": 123,
  "normalize": true,
  "format": {},
  "sample_rate": {},
  "mp3_bitrate": {},
  "opus_bitrate": {},
  "latency": {}
}
'
Pour obtenir les meilleurs résultats, il est recommandé d’utiliser d’abord le clonage audio pour téléverser un audio de référence avant d’utiliser cette API. Cela améliorera la qualité vocale et réduira la latence.
Fish Audio convertit du texte en parole. Formats audio pris en charge :
  • WAV / PCM
    • Fréquence d’échantillonnage : 8kHz, 16kHz, 24kHz, 32kHz, 44.1kHz
    • Fréquence d’échantillonnage par défaut : 44.1kHz
    • 16-bit, mono
  • MP3
    • Fréquence d’échantillonnage : 32kHz, 44.1kHz
    • Fréquence d’échantillonnage par défaut : 44.1kHz
    • Mono
    • Débit binaire : 64kbps, 128kbps (par défaut), 192kbps
  • Opus
    • Fréquence d’échantillonnage : 48kHz
    • Fréquence d’échantillonnage par défaut : 48kHz
    • Mono
    • Débit binaire : -1000 (automatique), 24kbps, 32kbps (par défaut), 48kbps, 64kbps

En-têtes de requête

Content-Type
string
requis
Valeur énumérée : application/json
Authorization
string
requis
Format d’authentification Bearer : Bearer {{clé API}}.

Corps de la requête

text
string
requis
Texte à convertir en parole.
temperature
number
Contrôle le caractère aléatoire de la génération vocale. Des valeurs plus élevées (par exemple 1.0) rendent la sortie plus aléatoire, tandis que des valeurs plus faibles (par exemple 0.1) la rendent plus déterministe. Nous recommandons d’utiliser 0.9 pour le modèle s1.Plage requise : 0 <= x <= 1
top_p
number
Contrôle la diversité via l’échantillonnage par noyau. Des valeurs plus faibles (par exemple 0.1) rendent la sortie plus concentrée, tandis que des valeurs plus élevées (par exemple 1.0) permettent davantage de diversité. Nous recommandons d’utiliser 0.9 pour le modèle s1.Plage requise : 0 <= x <= 1
references
ReferenceAudio · object[] | null
Audio de référence à utiliser pour la voix ; cela nécessite une sérialisation MessagePack et remplacera reference_voices et reference_texts.
reference_id
string | null
ID du modèle de référence à utiliser pour la voix.
prosody
ProsodyControl · object
Contrôle de la prosodie à utiliser pour la voix.
chunk_length
integer
défaut:200
Longueur des blocs à utiliser pour la voix.Plage requise : 100 <= x <= 300
normalize
boolean
défaut:true
Indique s’il faut normaliser la voix, ce qui réduira la latence, mais peut dégrader les performances de traitement des nombres et des dates.
format
enum<string>
défaut:"mp3"
Format à utiliser pour la voix.Valeurs possibles : wav, pcm, mp3, opus
sample_rate
integer | null
Fréquence d’échantillonnage à utiliser pour la voix.
mp3_bitrate
enum<integer>
défaut:128
Débit binaire MP3 à utiliser pour la voix.Valeurs possibles : 64, 128, 192
opus_bitrate
enum<integer>
défaut:32
Débit binaire Opus à utiliser pour la voix.Valeurs possibles : -1000, 24, 32, 48, 64
latency
enum<string>
défaut:"normal"
Paramètre de latence à utiliser pour la voix ; balanced réduira la latence, mais peut entraîner une baisse des performances.Valeurs possibles : normal, balanced

Informations de réponse

L’API renverra directement un flux audio au format spécifié par le paramètre format (par défaut : mp3).