MiniMax Speech-2.5-turbo-preview 非同期音声合成

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.5-turbo-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

POST

async

minimax-speech-2.5-turbo-preview

MiniMax Speech-2.5-turbo-preview 非同期音声合成

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.5-turbo-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

この API は、テキストから音声への非同期生成をサポートしています。1 回のテキスト生成リクエストで最大 100 万文字まで送信でき、生成された完全な音声結果は非同期で取得できます。100 種類以上のシステム音色およびクローン音色を自由に選択でき、イントネーション、話速、音量、ビットレート、サンプリングレート、出力形式も自由に調整できます。長文の音声合成リクエストを送信した後は、返却される url の有効期限が url 返却開始から 24 時間である点に注意し、期限内に情報をダウンロードしてください。

書籍全体などの長文テキストの音声生成に適しています。タスクのキュー待ちに時間がかかる場合があります。短文生成、音声チャット、オンラインソーシャルなどのシーンでは、同期呼び出し音声合成の使用を推奨します。

リクエストヘッダー

Content-Type

string

必須

列挙値: application/json

Authorization

string

必須

Bearer 認証形式: Bearer {{API キー}}。

リクエストボディ

text

string

必須

合成対象のテキスト。最大 5 万文字まで。

voice_setting

object

必須

表示プロパティ

speed

number

範囲[0.5,2]、デフォルト値は 1.0生成される音声の話速。任意。値が大きいほど話速が速くなります。

vol

number

範囲（0,10]、デフォルト値は 1.0生成される音声の音量。任意。値が大きいほど音量が大きくなります。

pitch

number

デフォルト:0

範囲[-12,12]、デフォルト値は 0生成される音声のイントネーション。任意。（0 は元の音色で出力、値は整数である必要があります）。

voice_id

string

リクエストする音色番号。システム音色(id)とクローン音色（id）の 2 種類をサポートしています。システム音色（ID）は以下のとおりです：

初々しい青年音色：male-qn-qingse
エリート青年音色：male-qn-jingying
強引な青年音色：male-qn-badao
青年大学生音色：male-qn-daxuesheng
少女音色：female-shaonv
お姉さん系音色：female-yujie
大人の女性音色：female-chengshu
甘い女性音色：female-tianmei
男性司会者：presenter_male
女性司会者：presenter_female
男性オーディオブック 1：audiobook_male_1
男性オーディオブック 2：audiobook_male_2
女性オーディオブック 1：audiobook_female_1
女性オーディオブック 2：audiobook_female_2
初々しい青年音色-beta：male-qn-qingse-jingpin
エリート青年音色-beta：male-qn-jingying-jingpin
強引な青年音色-beta：male-qn-badao-jingpin
青年大学生音色-beta：male-qn-daxuesheng-jingpin
少女音色-beta：female-shaonv-jingpin
お姉さん系音色-beta：female-yujie-jingpin
大人の女性音色-beta：female-chengshu-jingpin
甘い女性音色-beta：female-tianmei-jingpin
賢い男の子：clever_boy
かわいい男の子：cute_boy
愛らしい女の子：lovely_girl
カートンのブタ小琪：cartoon_pig
ヤンデレ弟：bingjiao_didi
ハンサムな彼氏：junlang_nanyou
純真な後輩男子：chunzhen_xuedi
クールな先輩男子：lengdan_xiongzhang
強引な御曹司：badao_shaoye
スイートな小玲：tianxin_xiaoling
おちゃめで萌え系の女の子：qiaopi_mengmei
艶やかなお姉さん系：wumei_yujie
甘えん坊の後輩女子：diadia_xuemei
上品な先輩女子：danya_xuejie
Santa Claus：Santa_Claus
Grinch：Grinch
Rudolph：Rudolph
Arnold：Arnold
Charming Santa：Charming_Santa
Charming Lady：Charming_Lady
Sweet Girl：Sweet_Girl
Cute Elf：Cute_Elf
Attractive Girl：Attractive_Girl
Serene Woman：Serene_Woman

emotion

string

合成音声の感情を制御します；現在 7 種類の感情をサポートしています：喜び、悲しみ、怒り、恐れ、嫌悪、驚き、中立；パラメータ範囲：["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

text_normalization

bool

デフォルト:"false"

このパラメータは英語テキストの正規化をサポートし、数字読み上げシーンでの性能を向上できますが、わずかにレイテンシが増加します。指定しない場合、デフォルト値は false です。

audio_setting

object

表示プロパティ

sample_rate

number

デフォルト:32000

範囲【8000，16000，22050，24000，32000，44100】生成される音声のサンプリングレート。任意。デフォルトは 32000 です。

bitrate

number

デフォルト:128000

範囲【32000，64000，128000，256000】生成される音声のビットレート。任意。デフォルト値は 128000 です。このパラメータは mp3 形式の音声にのみ有効です。

format

string

デフォルト:"mp3"

生成される音声形式。デフォルトは mp3。任意：mp3, pcm, flac, wav。wav は非ストリーミング出力でのみサポートされます。

channel

number

デフォルト:1

生成音声のチャンネル数。デフォルトは 1：モノラル。任意：1：モノラル2：ステレオ

pronunciation_dict

object

表示プロパティ

tone

list

特別な注記が必要な文字、記号、および対応する発音表記を置換します。発音置換（声調の調整/他の文字発音への置換）の形式は以下のとおりです：["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]声調は数字で表します。一声（陰平）は 1、二声（陽平）は 2、三声（上声）は 3、四声（去声）は 4、軽声は 5 です。

language_boost

string

デフォルト:"null"

指定した少数言語および方言の認識能力を強化します。設定後、指定した少数言語/方言シーンでの音声表現を向上できます。少数言語の種類が不明な場合は、“auto” を選択できます。モデルが少数言語の種類を自動的に判断します。以下の値をサポートしています：

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

voice_modify

object

音声エフェクター設定。このパラメータがサポートする音声形式：mp3, wav, flac

表示プロパティ

pitch

integer

ピッチ調整（低め/明るめ）。範囲 [-100,100]。値が -100 に近いほど声はより低くなり、100 に近いほど声はより明るくなります

intensity

integer

強度調整（力強さ/柔らかさ）。範囲 [-100,100]。値が -100 に近いほど声はより力強く、100 に近いほど声はより柔らかくなります

timbre

integer

音色調整（磁性的/クリア）。範囲 [-100,100]。値が -100 に近いほど声はより厚みがあり、100 に近いほど声はよりクリアになります

sound_effects

string

音響効果設定。1 回につき 1 種類のみ選択できます。任意の値：

spacious_echo（広い空間のエコー）
auditorium_echo（講堂放送）
lofi_telephone（電話の歪み）
robotic（電子音）

レスポンス情報パラメータ

task_id

string

必須

非同期タスクの task_id。この task_id を使用してタスク結果照会 API をリクエストし、生成結果を取得してください

MiniMax Speech-2.5-turbo-preview 同期音声合成

MiniMax Speech-2.6-hd 同期音声合成

​リクエストヘッダー

​リクエストボディ

​レスポンス情報パラメータ

リクエストヘッダー

リクエストボディ

レスポンス情報パラメータ