TTA Speech 2.6 HD API | MiniMax 高品質音声合成

MiniMax Speech-2.6-hd 同期音声合成

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.6-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "audio": "<string>",
  "status": 123
}

POST

minimax-speech-2.6-hd

MiniMax Speech-2.6-hd 同期音声合成

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.6-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "audio": "<string>",
  "status": 123
}

この API は、テキスト読み上げに基づく同期生成をサポートし、1 回のテキスト送信は最大 10000 文字です。100 種類以上のシステム音色、復刻音色の自由選択に対応しています。音量、イントネーション、話速、出力形式の調整に対応しています。比率指定のミキシング機能、固定間隔時間の制御に対応しています。mp3, pcm, flac, wav を含む複数の音声仕様・形式に対応し、ストリーミング出力にも対応しています。長文の音声合成リクエストを送信した後は、返却される url の有効期限が url 返却時点から 24 時間である点に注意し、ダウンロード情報の時間にご注意ください。

短文生成、音声チャット、オンラインソーシャルなどのシーンに適しています。所要時間は短いですが、テキスト長の制限は 10000 文字未満です。長文の場合は非同期音声合成呼び出しの利用を推奨します。

リクエストヘッダー

Content-Type

string

必須

列挙値: application/json

Authorization

string

必須

Bearer 認証形式: Bearer {{API Key}}。

リクエストボディ

text

string

必須

合成するテキスト。長さの制限は 10000 文字未満で、段落の切り替えは改行文字で代替します。（音声中の間隔時間を制御する必要がある場合は、文字間に <#x#> を追加します。x の単位は秒で、0.01-99.99 をサポートし、小数点以下は最大 2 桁です）。カスタムテキスト間の音声時間間隔をサポートし、テキスト音声のポーズ時間をカスタマイズする効果を実現できます。なお、テキスト間隔時間は、音声として発音可能な 2 つのテキストの間に設定する必要があり、連続した時間間隔を複数設定することはできません。

voice_setting

object

必須

表示プロパティ

speed

float

デフォルト:"1.0"

範囲[0.5,2]、デフォルト値は 1.0生成音声の話速。任意項目です。値が大きいほど、話速が速くなります。

vol

float

デフォルト:"1.0"

範囲（0,10]、デフォルト値は 1.0生成音声の音量。任意項目です。値が大きいほど、音量が高くなります。

pitch

int

デフォルト:"0"

範囲[-12,12]、デフォルト値は 0生成音声のイントネーション。任意項目です。（0 は元の音色での出力を表し、値は整数である必要があります）。

voice_id

string

リクエストする音色番号。timbre_weights との二者択一で「必須」です。システム音色(id)と復刻音色（id）の 2 種類をサポートします。システム音色（ID）は以下のとおりです：

初々しい青年音色：male-qn-qingse
エリート青年音色：male-qn-jingying
霸道な青年音色：male-qn-badao
青年大学生音色：male-qn-daxuesheng
少女音色：female-shaonv
お姉さん音色：female-yujie
成熟女性音色：female-chengshu
甘い女性音色：female-tianmei
男性司会者：presenter_male
女性司会者：presenter_female
男性オーディオブック 1：audiobook_male_1
男性オーディオブック 2：audiobook_male_2
女性オーディオブック 1：audiobook_female_1
女性オーディオブック 2：audiobook_female_2
初々しい青年音色-beta：male-qn-qingse-jingpin
エリート青年音色-beta：male-qn-jingying-jingpin
霸道な青年音色-beta：male-qn-badao-jingpin
青年大学生音色-beta：male-qn-daxuesheng-jingpin
少女音色-beta：female-shaonv-jingpin
お姉さん音色-beta：female-yujie-jingpin
成熟女性音色-beta：female-chengshu-jingpin
甘い女性音色-beta：female-tianmei-jingpin
賢い男の子：clever_boy
かわいい男の子：cute_boy
愛らしい女の子：lovely_girl
カートンの子ブタ小琪：cartoon_pig
ヤンデレ弟：bingjiao_didi
ハンサムな彼氏：junlang_nanyou
純真な後輩男子：chunzhen_xuedi
クールな先輩男子：lengdan_xiongzhang
霸道なお坊ちゃま：badao_shaoye
スイートハート小玲：tianxin_xiaoling
おちゃめな萌え妹：qiaopi_mengmei
妖艶なお姉さん：wumei_yujie
甘え声の後輩女子：diadia_xuemei
上品な先輩女子：danya_xuejie
Santa Claus：Santa_Claus
Grinch：Grinch
Rudolph：Rudolph
Arnold：Arnold
Charming Santa：Charming_Santa
Charming Lady：Charming_Lady
Sweet Girl：Sweet_Girl
Cute Elf：Cute_Elf
Attractive Girl：Attractive_Girl
Serene Woman：Serene_Woman

emotion

string

合成音声の感情を制御します；現在 7 種類の感情をサポートしています：喜び、悲しみ、怒り、恐怖、嫌悪、驚き、中立；パラメータ範囲：["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

latex_read

bool

デフォルト:"false"

latex 数式の読み上げをサポートするかどうかを制御します。デフォルトは false です。注意事項：

リクエスト内の数式は、数式の先頭と末尾に $$ を付ける必要があります；
リクエスト内の数式に "" がある場合は、”\” にエスケープする必要があります。

例：導関数の基本公式は $$\\frac{d}{dx}(x^n) = nx^{n-1}$$ です

text_normalization

bool

デフォルト:"false"

このパラメータは英語テキストの正規化をサポートし、数字読み上げシーンのパフォーマンスを向上できますが、遅延がわずかに増加します。指定しない場合、デフォルト値は false です。

audio_setting

object

表示プロパティ

sample_rate

int

デフォルト:"32000"

範囲【8000，16000，22050，24000，32000，44100】生成音声のサンプリングレート。任意項目です。デフォルトは 32000 です。

bitrate

int

デフォルト:"128000"

範囲【32000，64000，128000，256000】生成音声のビットレート。任意項目です。デフォルト値は 128000 です。このパラメータは mp3 形式の音声にのみ有効です。

format

string

デフォルト:"mp3"

生成される音声形式。デフォルトは mp3、範囲は [mp3,pcm,flac,wav] です。wav は非ストリーミング出力でのみサポートされます。

channel

int

デフォルト:"1"

生成音声のチャンネル数。デフォルトは 1：モノラル。選択可能：1：モノラル2：ステレオ

pronunciation_dict

object

表示プロパティ

tone

list

特別な注記が必要な文字、記号、および対応する読みを置換します。発音の置換（声調の調整/他の文字発音への置換）の形式は以下のとおりです：["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]声調は数字で表します。一声（陰平）は 1、二声（陽平）は 2、三声（上声）は 3、四声（去声）は 4、軽声は 5 です。

timbre_weights

object[]

voice_id との二者択一で必須

表示プロパティ

voice_id

string

リクエストする音色 id。weight パラメータと同時に入力する必要があります。

weight

int

範囲[1,100]ウェイト。voice_id と同時に入力する必要があります。最大 4 種類の音色ミックスをサポートし、値は整数です。単一音色の比率が高いほど、合成音色はその音色に近くなります。

stream

boolean

デフォルト:"false"

ストリーミングかどうか。デフォルトは false、つまりストリーミングを有効にしません。

stream_options

object

表示プロパティ

exclude_aggregated_audio

boolean

デフォルト:"false"

このパラメータを True に設定すると、ストリーミングの最後の chunk に、結合後の完全な音声 hex データは含まれません。デフォルトは False で、最後の chunk に結合後の完全な音声 hex データが含まれます。

language_boost

string

デフォルト:"null"

指定した小言語や方言の認識能力を強化し、設定後は指定した小言語/方言シーンでの音声表現を向上できます。小言語の種類が明確でない場合は、“auto” を選択でき、モデルが小言語の種類を自動判定します。以下の値をサポートします：

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

output_format

string

デフォルト:"hex"

出力結果形式を制御するパラメータ。選択可能な値は url hex です。デフォルト値は hex です。このパラメータは非ストリーミングシーンでのみ有効で、ストリーミングシーンでは hex 形式の返却のみをサポートします。返却される url の有効期限は 24 時間です。

voice_modify

object

音声エフェクター設定。このパラメータがサポートする音声形式：

非ストリーミング：mp3, wav, flac
ストリーミング：mp3

表示プロパティ

pitch

integer

ピッチ調整（低い/明るい）、範囲 [-100,100]。値が -100 に近いほど音声はより低くなり、100 に近いほど音声はより明るくなります

intensity

integer

強度調整（力強さ/柔らかさ）、範囲 [-100,100]。値が -100 に近いほど音声はより力強く、100 に近いほど音声はより柔らかくなります

timbre

integer

音色調整（磁性/澄んだ音）、範囲 [-100,100]。値が -100 に近いほど音声はより厚みがあり、値が 100 に近いほど音声はより澄んだ音になります

sound_effects

string

音響効果設定。1 回につき 1 種類のみ選択できます。選択可能な値：

spacious_echo（広い空間のエコー）
auditorium_echo（講堂放送）
lofi_telephone（電話の歪み）
robotic（電子音）

レスポンス情報

audio

string

合成後の音声片段。hex エンコードを使用し、入力で定義した形式 (audio_setting.format) に従って生成されます（mp3/pcm/flac）。返却形式は output_format の定義に基づいて返却され、stream が true の場合は hex の返却形式のみをサポートします。

status

number

現在の音声ストリーム状態。stream が true の場合のみ返却されます。1 は合成中、2 は合成終了を表します。

MiniMax Speech-2.5-turbo-preview 非同期音声合成

MiniMax Speech-2.6-hd 非同期音声合成

​リクエストヘッダー

​リクエストボディ

​レスポンス情報

リクエストヘッダー

リクエストボディ

レスポンス情報