ElevenLabs テキスト読み上げ Flash V2.5

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-flash-v2.5 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'

POST

elevenlabs-tts-flash-v2.5

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-flash-v2.5 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'

選択した音声を使用してテキストを音声に変換し、音声を返します。

リクエストヘッダー

Content-Type

string

必須

列挙値: application/json

Authorization

string

必須

Bearer 認証形式: Bearer {{API Key}}。

リクエストボディ

seed

integer

指定した場合、システムは可能な限り決定論的にサンプリングします。同じseedおよびパラメータでリクエストを繰り返すと同じ結果が返されるはずですが、完全な決定性は保証されません。値の範囲：[0, 4294967295]

text

string

必須

音声に変換するテキスト。

stream

boolean

Stream モードを有効にするかどうか

voice_id

string

必須

使用する音声ID。

next_text

string

現在のリクエストテキストの後に続くテキスト。複数回の生成をつなぎ合わせる際に音声の一貫性を改善するために使用します。

language_code

string

モデルとテキスト正規化に使用する言語コード（ISO 639-1）。モデルがこの言語コードに対応していない場合、エラーが返されます。

output_format

string

デフォルト:"mp3_44100_128"

生成される音声の出力形式。形式は codec_sample_rate_bitrate です。MP3の192kbpsビットレートにはCreator以上のアカウントが必要で、PCMの44.1kHzサンプルレートにはPro以上のアカウントが必要です。使用可能な値：mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192

previous_text

string

現在のリクエストテキストの前にあるテキスト。複数回の生成をつなぎ合わせる際に音声の一貫性を改善するために使用します。

use_pvc_as_ivc

boolean

デフォルト:false

true の場合、PVCバージョンではなくIVCバージョンの音声を使用します。これはPVCバージョンの遅延が大きいことに対する一時的な回避策です。

voice_settings

object

非表示 properties

speed

number

デフォルト:1

音声の速度を調整します。1.0がデフォルト速度で、1.0未満では話速が遅くなり、1.0を超えると話速が速くなります。

style

number

デフォルト:0

音声スタイルの誇張の度合いを決定します。元の話者のスタイルを強調しようとします。0以外に設定すると、より多くの計算リソースを消費し、遅延が増加する可能性があります。

stability

number

音声生成の安定性と、各生成間のランダム性を決定します。値が低いほど感情表現の幅が広がり、値が高いほど音声が単調になる可能性があります。

similarity_boost

number

AI が元の声を再現しようとする際の一致度を決定します。

use_speaker_boost

boolean

デフォルト:true

元の話者との類似度を高めます。やや高い計算負荷が必要となり、遅延が増加します。

next_request_ids

array

後続サンプルのrequest_idリスト。サンプルを再生成する際に音声の一貫性を維持するために使用します。最大3つのrequest_idを渡せます。配列長：0 - 3

previous_request_ids

array

現在の生成より前に生成済みのサンプルのrequest_idリスト。音声の一貫性を改善するために使用できます。最大3つのrequest_idを渡せます。配列長：0 - 3

apply_text_normalization

string

デフォルト:"auto"

テキスト正規化を制御します。‘auto’ はシステムが判断し、‘on’ は常に正規化し、‘off’ はスキップします。使用可能な値：auto, on, off

apply_language_text_normalization

boolean

デフォルト:false

より自然な発音を実現するため、対応する一部の言語に対する言語テキスト正規化を制御します。警告：遅延が大幅に増加する可能性があります。現在は日本語のみ対応しています。

pronunciation_dictionary_locators

array

テキストに適用する発音辞書ロケーター（id, version_id）のリスト。順番に適用されます。各リクエストで最大3つのロケーターを使用できます。配列長：0 - 3

非表示 properties

version_id

string

発音辞書バージョンのID。指定しない場合は最新バージョンが使用されます。

pronunciation_dictionary_id

string

必須

発音辞書のID。

レスポンス情報

生成された音声ファイル形式: binary

ElevenLabs テキスト読み上げ Flash V2

ElevenLabs テキスト読み上げ Multilingual V2

​リクエストヘッダー

​リクエストボディ

​レスポンス情報

リクエストヘッダー

リクエストボディ

レスポンス情報