メインコンテンツへスキップ
POST
/
v3
/
elevenlabs-tts-flash-v2
ElevenLabs テキスト読み上げ Flash V2
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-flash-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'
選択した音声を使用してテキストを音声に変換し、音声を返します。

リクエストヘッダー

Content-Type
string
必須
列挙値: application/json
Authorization
string
必須
Bearer 認証形式: Bearer {{API キー}}。

リクエストボディ

seed
integer
指定した場合、システムは可能な限り決定論的にサンプリングします。同じseedおよびパラメータの繰り返しリクエストは同じ結果を返すはずですが、完全な決定性は保証されません。値の範囲:[0, 4294967295]
text
string
必須
音声に変換するテキスト。
stream
boolean
Stream モードを有効にするかどうか
voice_id
string
必須
使用する音声ID。
next_text
string
現在のリクエストテキストの後に続くテキスト。複数回生成して連結する際に、音声の一貫性を改善するために使用します。
language_code
string
モデルおよびテキスト正規化に使用する言語コード(ISO 639-1)。モデルがこの言語コードをサポートしていない場合、エラーが返されます。
output_format
string
デフォルト:"mp3_44100_128"
生成される音声の出力形式。形式は codec_sample_rate_bitrate です。MP3 の 192kbps ビットレートには Creator 以上のアカウント、PCM の 44.1kHz サンプリングレートには Pro 以上のアカウントが必要です。使用可能な値:mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192
previous_text
string
現在のリクエストテキストの前にあるテキスト。複数回生成して連結する際に、音声の一貫性を改善するために使用します。
use_pvc_as_ivc
boolean
デフォルト:false
true の場合、PVC 版ではなく IVC 版の音声を使用します。これは PVC 版の遅延が大きいことに対する一時的な回避策です。
voice_settings
object
next_request_ids
array
後続サンプルのrequest_idリスト。サンプルを再生成する際に、音声の一貫性を保つために使用します。最大3個のrequest_idを渡せます。配列の長さ:0 - 3
previous_request_ids
array
現在の生成より前に生成済みのサンプルのrequest_idリスト。音声の一貫性を改善するために使用できます。最大3個のrequest_idを渡せます。配列の長さ:0 - 3
apply_text_normalization
string
デフォルト:"auto"
テキスト正規化を制御します。‘auto’ はシステムが判断し、‘on’ は常に正規化し、‘off’ はスキップします。使用可能な値:auto, on, off
apply_language_text_normalization
boolean
デフォルト:false
より自然な発音を実現するため、特定の対応言語向けの言語テキスト正規化を制御します。警告:遅延が大幅に増加する可能性があります。現在は日本語のみ対応しています。
pronunciation_dictionary_locators
array
テキストに適用する発音辞書ロケーター(id, version_id)のリスト。順番に適用されます。各リクエストで最大3個のロケーターを指定できます。配列の長さ:0 - 3

レスポンス情報

生成された音声ファイル 形式: binary