Fish Audio S2 Pro Text to Speech
Audio
Fish Audio S2 Pro Text to Speech
POST
Fish Audio S2 Pro Text to Speech
Das Fish Audio S2 Pro Text-to-Speech-Modell wandelt Text in natürliche Sprache um und unterstützt Referenzstimmen, Sampling-Steuerung, Segmentierung, Audioformate und Prosodie-Steuerung.
Anfrage-Header
Enum-Wert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API-Schlüssel}}.
Anfragebody
Der Text, der in Sprache umgewandelt werden soll. Für S2-Pro-Mehrsprecher-Text können die Tags <|speaker:0|>Hallo<|speaker:1|>Hallo zusammen verwendet werden.
Steuerung der Diversität beim Nucleus Sampling.Wertebereich: [0, 1]
Ausgabe-Audioformat.Optionale Werte:
wav, pcm, mp3, opusLatenzstufe.Optionale Werte:
low, normal, balancedProsodie-Steuerung.
Normalisiert chinesischen und englischen Text.
Referenz-Audiosamples für Zero-Shot-Stimmklonen.
MP3-Bitrate in kbps.Optionale Werte:
64, 128, 192Ausgabe-Samplerate in Hz. Wenn leer, wird der Standardwert des Formats verwendet; opus ist 48000 Hz, andere üblicherweise 44100 Hz.
Steuerung der Ausdrucksstärke.Wertebereich: [0, 1]
Textsegmentgröße.Wertebereich: [100, 300]
Opus-Bitrate in bps; -1000 bedeutet automatisch.Optionale Werte:
-1000, 24000, 32000, 48000, 64000Stimmenmodell-ID; in Mehrsprecher-Szenarien kann ein Array übergeben werden, das den speaker-Indizes entspricht.
Maximale Anzahl an Audio-Token pro Segment.
Mindestanzahl an Zeichen vor der Segmentierung.Wertebereich: [0, 100]
Strafkoeffizient zur Reduzierung von Wiederholungen im Audiomuster.
Schwellenwert für vorzeitiges Stoppen.Wertebereich: [0, 1]
Verwendet vorherige Audiosegmente als Kontext.
Antwortinformationen
Generiertes Audio. Format:binary