Zum Hauptinhalt springen
POST
/
v4beta
/
txt2speech
Fish Audio Sprachsynthese
curl --request POST \
  --url https://api.highwayapi.ai/v4beta/txt2speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "temperature": 123,
  "top_p": 123,
  "references": {
    "text": "<string>"
  },
  "reference_id": {},
  "prosody": {
    "speed": 123,
    "volume": 123
  },
  "chunk_length": 123,
  "normalize": true,
  "format": {},
  "sample_rate": {},
  "mp3_bitrate": {},
  "opus_bitrate": {},
  "latency": {}
}
'
Für optimale Ergebnisse empfehlen wir, vor der Verwendung dieser API zunächst Referenzaudio mit Audio-Klonen hochzuladen. Dies verbessert die Sprachqualität und reduziert die Latenz.
Fish Audio wandelt Text in Sprache um. Unterstützte Audioformate:
  • WAV / PCM
    • Abtastrate: 8kHz, 16kHz, 24kHz, 32kHz, 44.1kHz
    • Standard-Abtastrate: 44.1kHz
    • 16-bit, Mono
  • MP3
    • Abtastrate: 32kHz, 44.1kHz
    • Standard-Abtastrate: 44.1kHz
    • Mono
    • Bitrate: 64kbps, 128kbps (Standard), 192kbps
  • Opus
    • Abtastrate: 48kHz
    • Standard-Abtastrate: 48kHz
    • Mono
    • Bitrate: -1000 (automatisch), 24kbps, 32kbps (Standard), 48kbps, 64kbps

Anfrageheader

Content-Type
string
erforderlich
Enumerationswert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragetext

text
string
erforderlich
Der Text, der in Sprache umgewandelt werden soll.
temperature
number
Steuert die Zufälligkeit der Sprachgenerierung. Höhere Werte (z. B. 1.0) machen die Ausgabe zufälliger, niedrigere Werte (z. B. 0.1) machen sie deterministischer. Wir empfehlen für das Modell s1 die Verwendung von 0.9.Erforderlicher Bereich: 0 <= x <= 1
top_p
number
Steuert die Vielfalt durch Nucleus-Sampling. Niedrigere Werte (z. B. 0.1) machen die Ausgabe fokussierter, höhere Werte (z. B. 1.0) erlauben mehr Vielfalt. Wir empfehlen für das Modell s1 die Verwendung von 0.9.Erforderlicher Bereich: 0 <= x <= 1
references
ReferenceAudio · object[] | null
Referenzaudio für die Stimme. Dies erfordert MessagePack-Serialisierung und überschreibt reference_voices und reference_texts.
reference_id
string | null
Referenzmodell-ID für die Stimme.
prosody
ProsodyControl · object
Prosodiesteuerung für die Stimme.
chunk_length
integer
Standard:200
Chunk-Länge für die Sprache.Erforderlicher Bereich: 100 <= x <= 300
normalize
boolean
Standard:true
Ob die Sprache normalisiert werden soll. Dies reduziert die Latenz, kann jedoch die Verarbeitungsleistung für Zahlen und Datumsangaben verringern.
format
enum<string>
Standard:"mp3"
Format für die Sprache.Optionale Werte: wav, pcm, mp3, opus
sample_rate
integer | null
Abtastrate für die Sprache.
mp3_bitrate
enum<integer>
Standard:128
MP3-Bitrate für die Sprache.Optionale Werte: 64, 128, 192
opus_bitrate
enum<integer>
Standard:32
Opus-Bitrate für die Sprache.Optionale Werte: -1000, 24, 32, 48, 64
latency
enum<string>
Standard:"normal"
Latenzeinstellung für die Sprache. balanced reduziert die Latenz, kann jedoch zu Leistungseinbußen führen.Optionale Werte: normal, balanced

Antwortinformationen

Die API gibt direkt einen Audiostream in dem durch den Parameter format angegebenen Format zurück (Standard: mp3).