Fish Audio S2 Pro テキスト読み上げ
音声
Fish Audio S2 Pro テキスト読み上げ
POST
Fish Audio S2 Pro テキスト読み上げ
Fish Audio S2 Pro テキスト読み上げモデルは、テキストを自然な音声に変換し、参照音色、サンプリング制御、分割、音声形式、韻律制御をサポートします。
リクエストヘッダー
列挙値:
application/jsonBearer 認証形式: Bearer {{API Key}}。
リクエスト本文
音声に変換するテキスト。S2-Pro のマルチスピーカーテキストでは、<|speaker:0|>你好<|speaker:1|>你好呀 タグを使用できます。
nucleus sampling の多様性制御。値の範囲:[0, 1]
出力音声形式。指定可能な値:
wav, pcm, mp3, opusレイテンシーの段階。指定可能な値:
low, normal, balanced韻律制御。
中国語・英語テキストを正規化します。
ゼロショット音声クローニングに使用する参照音声サンプル。
MP3 ビットレート。単位は kbps。指定可能な値:
64, 128, 192出力サンプリングレート Hz。空の場合は形式のデフォルト値を使用します。opus は 48000 Hz、それ以外は通常 44100 Hz です。
表現力の制御。値の範囲:[0, 1]
テキスト分割サイズ。値の範囲:[100, 300]
Opus ビットレート。単位は bps。-1000 は自動を表します。指定可能な値:
-1000, 24000, 32000, 48000, 64000音色モデル ID。マルチスピーカーのシーンでは、speaker インデックスに対応する配列を渡すことができます。
各分割の最大音声 token 数。
分割前の最小文字数。値の範囲:[0, 100]
音声パターンの繰り返しを低減するペナルティ係数。
早期停止しきい値。値の範囲:[0, 1]
前の音声分割をコンテキストとして使用します。
レスポンス情報
生成された音声。 形式:binary