Passer au contenu principal
POST
/
v3
/
fish-audio-s2-pro-text-to-speech
Synthèse vocale Fish Audio S2 Pro
curl --request POST \
  --url https://api.highwayapi.ai/v3/fish-audio-s2-pro-text-to-speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "top_p": 123,
  "format": "<string>",
  "latency": "<string>",
  "prosody": {
    "speed": 123,
    "volume": 123,
    "normalize_loudness": true
  },
  "normalize": true,
  "references": [
    {
      "text": "<string>",
      "audio": "<string>"
    }
  ],
  "mp3_bitrate": 123,
  "sample_rate": 123,
  "temperature": 123,
  "chunk_length": 123,
  "opus_bitrate": 123,
  "reference_id": "<string>",
  "max_new_tokens": 123,
  "min_chunk_length": 123,
  "repetition_penalty": 123,
  "early_stop_threshold": 123,
  "condition_on_previous_chunks": true
}
'
Le modèle de synthèse vocale Fish Audio S2 Pro convertit du texte en parole naturelle et prend en charge les voix de référence, le contrôle de l’échantillonnage, la segmentation, les formats audio et le contrôle de la prosodie.

En-têtes de requête

Content-Type
string
requis
Valeur d’énumération : application/json
Authorization
string
requis
Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

text
string
requis
Texte à convertir en parole. Le texte multi-locuteur S2-Pro peut utiliser les balises <|speaker:0|>你好<|speaker:1|>你好呀.
top_p
number
Contrôle de la diversité de l’échantillonnage par noyau.Plage de valeurs : [0, 1]
format
string
défaut:"mp3"
Format audio de sortie.Valeurs possibles : wav, pcm, mp3, opus
latency
string
défaut:"normal"
Niveau de latence.Valeurs possibles : low, normal, balanced
prosody
object
Contrôle de la prosodie.
normalize
boolean
défaut:true
Normalise les textes chinois et anglais.
references
array
Échantillons audio de référence pour le clonage vocal zero-shot.
mp3_bitrate
integer
défaut:128
Débit MP3, en kbps.Valeurs possibles : 64, 128, 192
sample_rate
integer
Taux d’échantillonnage de sortie en Hz. Si vide, la valeur par défaut du format est utilisée : 48000 Hz pour opus, généralement 44100 Hz pour les autres formats.
temperature
number
Contrôle de l’expressivité.Plage de valeurs : [0, 1]
chunk_length
integer
défaut:300
Taille de segmentation du texte.Plage de valeurs : [100, 300]
opus_bitrate
integer
Débit Opus, en bps ; -1000 signifie automatique.Valeurs possibles : -1000, 24000, 32000, 48000, 64000
reference_id
string
ID du modèle de voix ; dans les scénarios multi-locuteurs, vous pouvez transmettre un tableau correspondant à l’index speaker.
max_new_tokens
integer
défaut:1024
Nombre maximal de tokens audio par segment.
min_chunk_length
integer
défaut:50
Nombre minimal de caractères avant segmentation.Plage de valeurs : [0, 100]
repetition_penalty
number
Coefficient de pénalité réduisant la répétition des motifs audio.
early_stop_threshold
number
défaut:1
Seuil d’arrêt anticipé.Plage de valeurs : [0, 1]
condition_on_previous_chunks
boolean
défaut:true
Utilise les segments audio précédents comme contexte.

Informations de réponse

Audio généré. Format : binary