Fish Audio Sprachsynthese
Audio
Fish Audio Sprachsynthese
POST
Fish Audio Sprachsynthese
Für optimale Ergebnisse empfehlen wir, vor der Verwendung dieser API zunächst Referenzaudio mit Audio-Klonen hochzuladen. Dies verbessert die Sprachqualität und reduziert die Latenz.
-
WAV / PCM
- Abtastrate: 8kHz, 16kHz, 24kHz, 32kHz, 44.1kHz
- Standard-Abtastrate: 44.1kHz
- 16-bit, Mono
-
MP3
- Abtastrate: 32kHz, 44.1kHz
- Standard-Abtastrate: 44.1kHz
- Mono
- Bitrate: 64kbps, 128kbps (Standard), 192kbps
-
Opus
- Abtastrate: 48kHz
- Standard-Abtastrate: 48kHz
- Mono
- Bitrate: -1000 (automatisch), 24kbps, 32kbps (Standard), 48kbps, 64kbps
Anfrageheader
Enumerationswert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API Key}}.
Anfragetext
Der Text, der in Sprache umgewandelt werden soll.
Steuert die Zufälligkeit der Sprachgenerierung. Höhere Werte (z. B. 1.0) machen die Ausgabe zufälliger, niedrigere Werte (z. B. 0.1) machen sie deterministischer. Wir empfehlen für das Modell
s1 die Verwendung von 0.9.Erforderlicher Bereich: 0 <= x <= 1Steuert die Vielfalt durch Nucleus-Sampling. Niedrigere Werte (z. B. 0.1) machen die Ausgabe fokussierter, höhere Werte (z. B. 1.0) erlauben mehr Vielfalt. Wir empfehlen für das Modell
s1 die Verwendung von 0.9.Erforderlicher Bereich: 0 <= x <= 1Referenzaudio für die Stimme. Dies erfordert MessagePack-Serialisierung und überschreibt reference_voices und reference_texts.
Referenzmodell-ID für die Stimme.
Prosodiesteuerung für die Stimme.
Chunk-Länge für die Sprache.Erforderlicher Bereich:
100 <= x <= 300Ob die Sprache normalisiert werden soll. Dies reduziert die Latenz, kann jedoch die Verarbeitungsleistung für Zahlen und Datumsangaben verringern.
Format für die Sprache.Optionale Werte:
wav, pcm, mp3, opusAbtastrate für die Sprache.
MP3-Bitrate für die Sprache.Optionale Werte:
64, 128, 192Opus-Bitrate für die Sprache.Optionale Werte:
-1000, 24, 32, 48, 64Latenzeinstellung für die Sprache. balanced reduziert die Latenz, kann jedoch zu Leistungseinbußen führen.Optionale Werte:
normal, balancedAntwortinformationen
Die API gibt direkt einen Audiostream in dem durch den Parameterformat angegebenen Format zurück (Standard: mp3).