メインコンテンツへスキップ
POST
/
v3
/
async
/
minimax-speech-2.8-hd
MiniMax Speech 2.8 HD 非同期音声合成
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}
このインターフェースを使用して、非同期音声合成タスクを作成します。テキストまたはファイル入力に対応し、テキストの長さは最大 5 万文字、ファイルは最大 10 万文字までに制限されます。
これは非同期API であり、非同期タスクの task_id のみを返します。この task_id を使用して タスク結果照会 API にリクエストし、生成結果を取得してください。

リクエストヘッダー

Content-Type
string
必須
列挙値: application/json
Authorization
string
必須
Bearer 認証形式: Bearer {{API Key}}。

リクエストボディ

text
string
合成する音声のテキスト。最大 5 万文字までに制限されます。text_file_id とのいずれか一方が必須です

• フィラータグ:モデルで speech-2.8-hd または speech-2.8-turbo を選択した場合のみ、テキスト内にフィラータグを挿入できます。対応するフィラー:(laughs)(笑い声)、(chuckle)(軽い笑い)、(coughs)(咳)、(clear-throat)(咳払い)、(groans)(うめき声)、(breath)(通常の呼吸)、(pant)(息切れ)、(inhale)(吸気)、(exhale)(呼気)、(gasps)(息をのむ)、(sniffs)(鼻をすする)、(sighs)(ため息)、(snorts)(鼻息)、(burps)(げっぷ)、(lip-smacking)(舌鼓)、(humming)(鼻歌)、(hissing)(シューという音)、(emm)(ええと)、(whistles)(口笛)、(sneezes)(くしゃみ)、(crying)(すすり泣き)、(applause)(拍手)
text_file_id
integer
合成する音声のテキストファイル id。単一ファイルの長さは 10 万文字未満に制限され、対応ファイル形式は txt、zip です。text とのいずれか一方が必須で、指定後に形式が自動検証されます。
txt ファイル:長さ制限 <100000 文字。&lt;#x#&gt; マークによるカスタムポーズに対応しています。x はポーズの長さ(単位:秒)で、範囲は [0.01, 99.99]、小数点以下は最大 2 桁まで保持できます。ポーズは音声として発音可能な 2 つのテキストの間に設定する必要があり、複数のポーズマークを連続して使用することはできません
zip ファイル
• 圧縮ファイル内には、同一形式の txt または json ファイルを含める必要があります。
• json ファイル形式:[title, content, extra] の 3 つのフィールドに対応しており、それぞれタイトル、本文、追加情報を表します。3 つのフィールドがすべて存在する場合、3 セットの結果、合計 9 ファイルが生成され、1 つのフォルダにまとめて保存されます。いずれかのフィールドが存在しない、または内容が空の場合、そのフィールドに対応する結果は生成されません
voice_modify
object
audio_setting
object
voice_setting
object
必須
aigc_watermark
boolean
デフォルト:false
合成音声の末尾に音声リズム識別子を追加するかどうかを制御します。デフォルト値は False です。このパラメータは非ストリーミング合成にのみ有効です
language_boost
string
指定した少数言語および方言の認識能力を強化するかどうか。デフォルト値は null で、auto に設定するとモデルが自律的に判断します。選択可能な値:Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
continuous_sound
boolean
デフォルト:false
このパラメータを有効にすると、句の接続部分がより自然になります。speech-2.8-hd および speech-2.8-turbo モデルのみ対応しています
pronunciation_dict
object

レスポンス情報

file_id
integer
タスク作成成功後に返される、対応する音声ファイルの ID。

• タスク完了後、file_id で照会できます。リクエストでエラーが発生した場合、このフィールドは返されません
注意:返されるダウンロード URL は生成時から 9 時間(32400 秒)有効です。有効期限を過ぎるとファイルは無効になり、生成された情報は失われます。ダウンロード情報の時間にご注意ください
task_id
string
task_id を使用して タスク結果照会 API にリクエストし、生成された出力を取得します。
base_resp
object
task_token
string
現在のタスクの完了に使用されたキー情報
usage_characters
integer
課金対象文字数