メインコンテンツへスキップ
POST
/
v3
/
fish-audio-s2-pro-text-to-speech
Fish Audio S2 Pro テキスト読み上げ
curl --request POST \
  --url https://api.highwayapi.ai/v3/fish-audio-s2-pro-text-to-speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "top_p": 123,
  "format": "<string>",
  "latency": "<string>",
  "prosody": {
    "speed": 123,
    "volume": 123,
    "normalize_loudness": true
  },
  "normalize": true,
  "references": [
    {
      "text": "<string>",
      "audio": "<string>"
    }
  ],
  "mp3_bitrate": 123,
  "sample_rate": 123,
  "temperature": 123,
  "chunk_length": 123,
  "opus_bitrate": 123,
  "reference_id": "<string>",
  "max_new_tokens": 123,
  "min_chunk_length": 123,
  "repetition_penalty": 123,
  "early_stop_threshold": 123,
  "condition_on_previous_chunks": true
}
'
Fish Audio S2 Pro テキスト読み上げモデルは、テキストを自然な音声に変換し、参照音色、サンプリング制御、分割、音声形式、韻律制御をサポートします。

リクエストヘッダー

Content-Type
string
必須
列挙値: application/json
Authorization
string
必須
Bearer 認証形式: Bearer {{API Key}}。

リクエスト本文

text
string
必須
音声に変換するテキスト。S2-Pro のマルチスピーカーテキストでは、<|speaker:0|>你好<|speaker:1|>你好呀 タグを使用できます。
top_p
number
nucleus sampling の多様性制御。値の範囲:[0, 1]
format
string
デフォルト:"mp3"
出力音声形式。指定可能な値:wav, pcm, mp3, opus
latency
string
デフォルト:"normal"
レイテンシーの段階。指定可能な値:low, normal, balanced
prosody
object
韻律制御。
normalize
boolean
デフォルト:true
中国語・英語テキストを正規化します。
references
array
ゼロショット音声クローニングに使用する参照音声サンプル。
mp3_bitrate
integer
デフォルト:128
MP3 ビットレート。単位は kbps。指定可能な値:64, 128, 192
sample_rate
integer
出力サンプリングレート Hz。空の場合は形式のデフォルト値を使用します。opus は 48000 Hz、それ以外は通常 44100 Hz です。
temperature
number
表現力の制御。値の範囲:[0, 1]
chunk_length
integer
デフォルト:300
テキスト分割サイズ。値の範囲:[100, 300]
opus_bitrate
integer
Opus ビットレート。単位は bps。-1000 は自動を表します。指定可能な値:-1000, 24000, 32000, 48000, 64000
reference_id
string
音色モデル ID。マルチスピーカーのシーンでは、speaker インデックスに対応する配列を渡すことができます。
max_new_tokens
integer
デフォルト:1024
各分割の最大音声 token 数。
min_chunk_length
integer
デフォルト:50
分割前の最小文字数。値の範囲:[0, 100]
repetition_penalty
number
音声パターンの繰り返しを低減するペナルティ係数。
early_stop_threshold
number
デフォルト:1
早期停止しきい値。値の範囲:[0, 1]
condition_on_previous_chunks
boolean
デフォルト:true
前の音声分割をコンテキストとして使用します。

レスポンス情報

生成された音声。 形式: binary