Zum Hauptinhalt springen
POST
/
v3
/
fish-audio-s2-pro-text-to-speech
Fish Audio S2 Pro Text to Speech
curl --request POST \
  --url https://api.highwayapi.ai/v3/fish-audio-s2-pro-text-to-speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "top_p": 123,
  "format": "<string>",
  "latency": "<string>",
  "prosody": {
    "speed": 123,
    "volume": 123,
    "normalize_loudness": true
  },
  "normalize": true,
  "references": [
    {
      "text": "<string>",
      "audio": "<string>"
    }
  ],
  "mp3_bitrate": 123,
  "sample_rate": 123,
  "temperature": 123,
  "chunk_length": 123,
  "opus_bitrate": 123,
  "reference_id": "<string>",
  "max_new_tokens": 123,
  "min_chunk_length": 123,
  "repetition_penalty": 123,
  "early_stop_threshold": 123,
  "condition_on_previous_chunks": true
}
'
Das Fish Audio S2 Pro Text-to-Speech-Modell wandelt Text in natürliche Sprache um und unterstützt Referenzstimmen, Sampling-Steuerung, Segmentierung, Audioformate und Prosodie-Steuerung.

Anfrage-Header

Content-Type
string
erforderlich
Enum-Wert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API-Schlüssel}}.

Anfragebody

text
string
erforderlich
Der Text, der in Sprache umgewandelt werden soll. Für S2-Pro-Mehrsprecher-Text können die Tags <|speaker:0|>Hallo<|speaker:1|>Hallo zusammen verwendet werden.
top_p
number
Steuerung der Diversität beim Nucleus Sampling.Wertebereich: [0, 1]
format
string
Standard:"mp3"
Ausgabe-Audioformat.Optionale Werte: wav, pcm, mp3, opus
latency
string
Standard:"normal"
Latenzstufe.Optionale Werte: low, normal, balanced
prosody
object
Prosodie-Steuerung.
normalize
boolean
Standard:true
Normalisiert chinesischen und englischen Text.
references
array
Referenz-Audiosamples für Zero-Shot-Stimmklonen.
mp3_bitrate
integer
Standard:128
MP3-Bitrate in kbps.Optionale Werte: 64, 128, 192
sample_rate
integer
Ausgabe-Samplerate in Hz. Wenn leer, wird der Standardwert des Formats verwendet; opus ist 48000 Hz, andere üblicherweise 44100 Hz.
temperature
number
Steuerung der Ausdrucksstärke.Wertebereich: [0, 1]
chunk_length
integer
Standard:300
Textsegmentgröße.Wertebereich: [100, 300]
opus_bitrate
integer
Opus-Bitrate in bps; -1000 bedeutet automatisch.Optionale Werte: -1000, 24000, 32000, 48000, 64000
reference_id
string
Stimmenmodell-ID; in Mehrsprecher-Szenarien kann ein Array übergeben werden, das den speaker-Indizes entspricht.
max_new_tokens
integer
Standard:1024
Maximale Anzahl an Audio-Token pro Segment.
min_chunk_length
integer
Standard:50
Mindestanzahl an Zeichen vor der Segmentierung.Wertebereich: [0, 100]
repetition_penalty
number
Strafkoeffizient zur Reduzierung von Wiederholungen im Audiomuster.
early_stop_threshold
number
Standard:1
Schwellenwert für vorzeitiges Stoppen.Wertebereich: [0, 1]
condition_on_previous_chunks
boolean
Standard:true
Verwendet vorherige Audiosegmente als Kontext.

Antwortinformationen

Generiertes Audio. Format: binary