メインコンテンツへスキップ
POST
/
v4beta
/
txt2speech
Fish Audio 音声合成
curl --request POST \
  --url https://api.highwayapi.ai/v4beta/txt2speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "temperature": 123,
  "top_p": 123,
  "references": {
    "text": "<string>"
  },
  "reference_id": {},
  "prosody": {
    "speed": 123,
    "volume": 123
  },
  "chunk_length": 123,
  "normalize": true,
  "format": {},
  "sample_rate": {},
  "mp3_bitrate": {},
  "opus_bitrate": {},
  "latency": {}
}
'
最良の結果を得るには、この API を使用する前に、まず音声クローンを使用して参照音声をアップロードすることをお勧めします。これにより、音声品質が向上し、レイテンシが低減されます。
Fish Audio はテキストを音声に変換します。 対応している音声形式:
  • WAV / PCM
    • サンプルレート:8kHz, 16kHz, 24kHz, 32kHz, 44.1kHz
    • デフォルトのサンプルレート:44.1kHz
    • 16-bit、モノラル
  • MP3
    • サンプルレート:32kHz, 44.1kHz
    • デフォルトのサンプルレート:44.1kHz
    • モノラル
    • ビットレート:64kbps, 128kbps (デフォルト), 192kbps
  • Opus
    • サンプルレート:48kHz
    • デフォルトのサンプルレート:48kHz
    • モノラル
    • ビットレート:-1000 (自動), 24kbps, 32kbps (デフォルト), 48kbps, 64kbps

リクエストヘッダー

Content-Type
string
必須
列挙値: application/json
Authorization
string
必須
Bearer 認証形式: Bearer {{API Key}}。

リクエストボディ

text
string
必須
音声に変換するテキスト。
temperature
number
音声生成のランダム性を制御します。値が高いほど(例:1.0)出力はよりランダムになり、値が低いほど(例:0.1)より決定的になります。s1 モデルでは 0.9 の使用をお勧めします。必須範囲:0 <= x <= 1
top_p
number
nucleus sampling によって多様性を制御します。値が低いほど(例:0.1)出力はより集中し、値が高いほど(例:1.0)より多様性が許容されます。s1 モデルでは 0.9 の使用をお勧めします。必須範囲:0 <= x <= 1
references
ReferenceAudio · object[] | null
音声に使用する参照音声です。これには MessagePack シリアライズが必要で、reference_voices と reference_texts を上書きします。
reference_id
string | null
音声に使用する参照モデル ID。
prosody
ProsodyControl · object
音声に使用する韻律制御。
chunk_length
integer
デフォルト:200
音声に使用するチャンク長。必須範囲:100 <= x <= 300
normalize
boolean
デフォルト:true
音声を正規化するかどうか。これによりレイテンシは低減されますが、数字や日付の処理性能が低下する可能性があります。
format
enum<string>
デフォルト:"mp3"
音声に使用する形式。選択可能な値:wav, pcm, mp3, opus
sample_rate
integer | null
音声に使用するサンプルレート。
mp3_bitrate
enum<integer>
デフォルト:128
音声に使用する MP3 ビットレート。選択可能な値:64, 128, 192
opus_bitrate
enum<integer>
デフォルト:32
音声に使用する Opus ビットレート。選択可能な値:-1000, 24, 32, 48, 64
latency
enum<string>
デフォルト:"normal"
音声に使用するレイテンシ設定。balanced はレイテンシを低減しますが、性能低下を引き起こす可能性があります。選択可能な値:normal, balanced

レスポンス情報

API は format パラメータで指定された形式の音声ストリームを直接返します(デフォルト:mp3)。