TTA Speech 02 Turbo ASYNC API | MiniMax 高品質音声合成

MiniMax Speech-02-turbo 非同期音声合成

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-02-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

POST

async

minimax-speech-02-turbo

MiniMax Speech-02-turbo 非同期音声合成

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-02-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

この API は、テキストから音声への非同期生成をサポートしています。1 回のテキスト生成リクエストで最大 100 万文字まで対応し、生成された完全な音声結果は非同期方式で取得できます。100 種以上のシステムボイスおよびクローンボイスを任意に選択でき、イントネーション、話速、音量、ビットレート、サンプリングレート、出力形式を自由に調整できます。長文テキストの音声合成リクエストを送信した後、返却される url の有効期限は url が返却されてから 24 時間である点にご注意ください。ダウンロード情報の期限に注意してください。

書籍全体などの長文テキストの音声生成に適しています。タスクのキュー待ちに時間がかかる場合があります。短文生成、音声チャット、オンラインソーシャルなどのシーンでは、同期呼び出し音声合成の使用を推奨します。

リクエストヘッダー

Content-Type

string

必須

列挙値: application/json

Authorization

string

必須

Bearer 認証形式: Bearer {{API Key}}。

リクエストボディ

text

string

必須

合成するテキスト。最大 5 万文字まで。

voice_setting

object

必須

表示プロパティ

speed

number

範囲 [0.5,2]、デフォルト値は 1.0生成される音声の話速。任意。値が大きいほど話速が速くなります。

vol

number

範囲（0,10]、デフォルト値は 1.0生成される音声の音量。任意。値が大きいほど音量が高くなります。

pitch

number

デフォルト:0

範囲 [-12,12]、デフォルト値は 0生成される音声のイントネーション。任意。（0 は元の音色で出力、値は整数である必要があります）。

voice_id

string

リクエストする音色 ID。システムボイス（id）とクローンボイス（id）の 2 種類をサポートしています。システムボイス（ID）は以下のとおりです：

初々しい青年ボイス：male-qn-qingse
エリート青年ボイス：male-qn-jingying
霸道な青年ボイス：male-qn-badao
青年大学生ボイス：male-qn-daxuesheng
少女ボイス：female-shaonv
大人の女性ボイス：female-yujie
成熟した女性ボイス：female-chengshu
甘い女性ボイス：female-tianmei
男性司会者：presenter_male
女性司会者：presenter_female
男性オーディオブック 1：audiobook_male_1
男性オーディオブック 2：audiobook_male_2
女性オーディオブック 1：audiobook_female_1
女性オーディオブック 2：audiobook_female_2
初々しい青年ボイス-beta：male-qn-qingse-jingpin
エリート青年ボイス-beta：male-qn-jingying-jingpin
霸道な青年ボイス-beta：male-qn-badao-jingpin
青年大学生ボイス-beta：male-qn-daxuesheng-jingpin
少女ボイス-beta：female-shaonv-jingpin
大人の女性ボイス-beta：female-yujie-jingpin
成熟した女性ボイス-beta：female-chengshu-jingpin
甘い女性ボイス-beta：female-tianmei-jingpin
賢い男の子：clever_boy
かわいい男の子：cute_boy
愛らしい女の子：lovely_girl
カートン豚シャオチー：cartoon_pig
ヤンデレ弟：bingjiao_didi
ハンサムな彼氏：junlang_nanyou
純真な後輩男子：chunzhen_xuedi
クールな先輩男子：lengdan_xiongzhang
霸道なお坊ちゃま：badao_shaoye
スイートなシャオリン：tianxin_xiaoling
やんちゃで萌え系の妹：qiaopi_mengmei
妖艶な大人の女性：wumei_yujie
甘え声の後輩女子：diadia_xuemei
上品な先輩女子：danya_xuejie
Santa Claus：Santa_Claus
Grinch：Grinch
Rudolph：Rudolph
Arnold：Arnold
Charming Santa：Charming_Santa
Charming Lady：Charming_Lady
Sweet Girl：Sweet_Girl
Cute Elf：Cute_Elf
Attractive Girl：Attractive_Girl
Serene Woman：Serene_Woman

emotion

string

合成音声の感情を制御します；現在 7 種類の感情をサポートしています：happy、sad、angry、fearful、disgusted、surprised、neutral；パラメータ範囲：["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

text_normalization

bool

デフォルト:"false"

このパラメータは英語テキストの正規化をサポートし、数字読み上げシーンでの性能を向上できますが、わずかに遅延が増加します。指定しない場合、デフォルト値は false です。

audio_setting

object

表示プロパティ

sample_rate

number

デフォルト:32000

範囲【8000，16000，22050，24000，32000，44100】生成される音声のサンプリングレート。任意。デフォルトは 32000 です。

bitrate

number

デフォルト:128000

範囲【32000，64000，128000，256000】生成される音声のビットレート。任意。デフォルト値は 128000 です。このパラメータは mp3 形式の音声にのみ有効です。

format

string

デフォルト:"mp3"

生成される音声形式。デフォルトは mp3。任意：mp3, pcm, flac, wav。wav は非ストリーミング出力でのみサポートされます。

channel

number

デフォルト:1

生成音声のチャンネル数。デフォルトは 1：モノラル。任意：1：モノラル2：ステレオ

pronunciation_dict

object

表示プロパティ

tone

list

特別な注記が必要な文字、記号、および対応する発音表記を置換します。発音の置換（声調の調整/他の文字発音への置換）の形式は以下のとおりです：["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]声調は数字で表します。一声（陰平）は 1、二声（陽平）は 2、三声（上声）は 3、四声（去声）は 4、軽声は 5 です。

language_boost

string

デフォルト:"null"

指定した言語や方言の認識能力を強化し、指定した言語/方言シーンでの音声表現を向上できます。言語の種類が不明な場合は “auto” を選択でき、モデルが言語の種類を自動判定します。以下の値をサポートしています：

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

voice_modify

object

音声エフェクター設定。このパラメータがサポートする音声形式：mp3, wav, flac

表示プロパティ

pitch

integer

ピッチ調整（低い/明るい）。範囲 [-100,100]。値が -100 に近いほど音声はより低くなり、100 に近いほどより明るくなります

intensity

integer

強度調整（力強さ/柔らかさ）。範囲 [-100,100]。値が -100 に近いほど音声はより力強く、100 に近いほどより柔らかくなります

timbre

integer

音色調整（艶のある/澄んだ）。範囲 [-100,100]。値が -100 に近いほど音声はより厚みがあり、100 に近いほどより澄んだ音になります

sound_effects

string

音響効果の設定。1 回につき 1 種類のみ選択できます。選択可能な値：

spacious_echo（広い空間のエコー）
auditorium_echo（講堂アナウンス）
lofi_telephone（電話風の歪み）
robotic（電子音）

レスポンス情報パラメータ

task_id

string

必須

非同期タスクの task_id。この task_id を使用してタスク結果照会 API にリクエストし、生成結果を取得してください

MiniMax Speech-02-turbo 同期音声合成

MiniMax Speech-2.5-hd-preview 同期音声合成

​リクエストヘッダー

​リクエストボディ

​レスポンス情報パラメータ

リクエストヘッダー

リクエストボディ

レスポンス情報パラメータ