TTA Speech 02 HD API | MiniMax 高品質音声合成

MiniMax Speech-02-hd 同期音声合成

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-02-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "audio": "<string>",
  "status": 123
}

POST

minimax-speech-02-hd

MiniMax Speech-02-hd 同期音声合成

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-02-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "audio": "<string>",
  "status": 123
}

この API は、テキストから音声への同期生成をサポートし、1 回のテキスト送信は最大 10000 文字です。100 種類以上のシステム音色、クローン音色の任意選択をサポートします。音量、イントネーション、話速、出力形式の調整をサポートします。比率に基づくミキシング機能、固定間隔時間の制御をサポートします。mp3, pcm, flac, wav を含む複数の音声仕様・形式に対応し、ストリーミング出力もサポートします。長文テキストの音声合成リクエストを送信した後、返される url の有効期間は url が返されてから 24 時間である点に注意し、情報のダウンロード時間にご注意ください。

短文生成、音声チャット、オンラインソーシャルなどのシーンに適しています。所要時間は短いですが、テキスト長の制限は 10000 文字未満です。長文の場合は音声合成の非同期呼び出しの使用を推奨します。

リクエストヘッダー

Content-Type

string

必須

列挙値: application/json

Authorization

string

必須

Bearer 認証形式: Bearer {{API Key}}。

リクエストボディ

text

string

必須

合成するテキスト。長さ制限は 10000 文字未満で、段落の切り替えは改行文字で置き換えます。（音声中の間隔時間を制御する必要がある場合は、文字間に <#x#> を追加します。x の単位は秒で、0.01-99.99 をサポートし、小数点以下は最大 2 桁です）。カスタムテキスト同士の音声時間間隔をサポートし、カスタムテキスト音声のポーズ時間を実現できます。なお、テキスト間隔時間は、音声として発音可能な 2 つのテキストの間に設定する必要があり、複数の連続した時間間隔は設定できません。

voice_setting

object

必須

表示 properties

speed

float

デフォルト:"1.0"

範囲[0.5,2]、デフォルト値は 1.0生成音声の話速。任意です。値が大きいほど、話速が速くなります。

vol

float

デフォルト:"1.0"

範囲（0,10]、デフォルト値は 1.0生成音声の音量。任意です。値が大きいほど、音量が大きくなります。

pitch

int

デフォルト:"0"

範囲[-12,12]、デフォルト値は 0生成音声のイントネーション。任意です。（0 は元の音色での出力を表し、値は整数である必要があります）。

voice_id

string

リクエストする音色番号。timbre_weights とどちらか一方が「必須」です。システム音色(id)とクローン音色（id）の 2 種類をサポートします。システム音色（ID）は以下のとおりです：

初々しい青年音色：male-qn-qingse
エリート青年音色：male-qn-jingying
俺様系青年音色：male-qn-badao
青年大学生音色：male-qn-daxuesheng
少女音色：female-shaonv
お姉さん音色：female-yujie
成熟した女性音色：female-chengshu
甘い女性音色：female-tianmei
男性司会者：presenter_male
女性司会者：presenter_female
男性オーディオブック 1：audiobook_male_1
男性オーディオブック 2：audiobook_male_2
女性オーディオブック 1：audiobook_female_1
女性オーディオブック 2：audiobook_female_2
初々しい青年音色-beta：male-qn-qingse-jingpin
エリート青年音色-beta：male-qn-jingying-jingpin
俺様系青年音色-beta：male-qn-badao-jingpin
青年大学生音色-beta：male-qn-daxuesheng-jingpin
少女音色-beta：female-shaonv-jingpin
お姉さん音色-beta：female-yujie-jingpin
成熟した女性音色-beta：female-chengshu-jingpin
甘い女性音色-beta：female-tianmei-jingpin
賢い男の子：clever_boy
かわいい男の子：cute_boy
かわいい女の子：lovely_girl
カートンのブタ・シャオチー：cartoon_pig
ヤンデレ弟：bingjiao_didi
爽やかな彼氏：junlang_nanyou
純真な後輩男子：chunzhen_xuedi
クールな先輩男子：lengdan_xiongzhang
俺様系お坊ちゃま：badao_shaoye
スイートなシャオリン：tianxin_xiaoling
おちゃめな萌え妹：qiaopi_mengmei
妖艶なお姉さん：wumei_yujie
甘えん坊な後輩女子：diadia_xuemei
上品な先輩女子：danya_xuejie
Santa Claus：Santa_Claus
Grinch：Grinch
Rudolph：Rudolph
Arnold：Arnold
Charming Santa：Charming_Santa
Charming Lady：Charming_Lady
Sweet Girl：Sweet_Girl
Cute Elf：Cute_Elf
Attractive Girl：Attractive_Girl
Serene Woman：Serene_Woman

emotion

string

合成音声の感情を制御します；現在 7 種類の感情をサポートしています：喜び、悲しみ、怒り、恐れ、嫌悪、驚き、中立；パラメータ範囲：["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

latex_read

bool

デフォルト:"false"

latex 数式の読み上げをサポートするかどうかを制御します。デフォルトは false です。注意事項：

リクエスト内の数式は、数式の先頭と末尾に $$ を付ける必要があります；
リクエスト内の数式に "" がある場合は、”\” にエスケープする必要があります。

例：導関数の基本公式は $$\\frac{d}{dx}(x^n) = nx^{n-1}$$

text_normalization

bool

デフォルト:"false"

このパラメータは英語テキストの正規化をサポートし、数字読み上げシーンの性能を向上できますが、わずかに遅延が増加します。提供されない場合、デフォルト値は false です。

audio_setting

object

表示 properties

sample_rate

int

デフォルト:"32000"

範囲【8000，16000，22050，24000，32000，44100】生成音声のサンプリングレート。任意で、デフォルトは 32000 です。

bitrate

int

デフォルト:"128000"

範囲【32000，64000，128000，256000】生成音声のビットレート。任意で、デフォルト値は 128000 です。このパラメータは mp3 形式の音声にのみ有効です。

format

string

デフォルト:"mp3"

生成される音声形式。デフォルトは mp3、範囲は [mp3,pcm,flac,wav] です。wav は非ストリーミング出力でのみサポートされます。

channel

int

デフォルト:"1"

生成音声のチャンネル数。デフォルトは 1：モノラル。選択可能：1：モノラル2：ステレオ

pronunciation_dict

object

表示 properties

tone

list

特別な注記が必要な文字、記号、および対応する注音を置き換えます。発音の置き換え（声調の調整/他の文字の発音への置き換え）の形式は以下のとおりです：["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]声調は数字で表します。一声（陰平）は 1、二声（陽平）は 2、三声（上声）は 3、四声（去声）は 4）、軽声は 5 です。

timbre_weights

object[]

voice_id とどちらか一方が必須です

表示 properties

voice_id

string

リクエストする音色 id。weight パラメータと同時に入力する必要があります。

weight

int

範囲[1,100]重み。voice_id と同時に入力する必要があります。最大 4 種類の音色のミックスをサポートし、値は整数です。単一音色の比率が高いほど、合成音色はその音色に近くなります。

stream

boolean

デフォルト:"false"

ストリーミングかどうか。デフォルトは false、つまりストリーミングを有効にしません。

stream_options

object

表示 properties

exclude_aggregated_audio

boolean

デフォルト:"false"

このパラメータを True に設定すると、ストリーミングの最後の chunk に、結合後の完全な音声 hex データは含まれません。デフォルトは False で、つまり最後の chunk に結合後の完全な音声 hex データが含まれます。

language_boost

string

デフォルト:"null"

指定した少数言語および方言の認識能力を強化し、設定後は指定した少数言語/方言シーンでの音声表現を向上できます。少数言語の種類が不明な場合は、“auto” を選択できます。モデルが少数言語の種類を自動で判断します。以下の値をサポートします：

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

output_format

string

デフォルト:"hex"

出力結果の形式を制御するパラメータ。選択可能な値は url hex です。デフォルト値は hex です。このパラメータは非ストリーミングシーンでのみ有効で、ストリーミングシーンでは hex 形式の返却のみをサポートします。返される url の有効期間は 24 時間です。

voice_modify

object

音声エフェクター設定。このパラメータがサポートする音声形式：

非ストリーミング：mp3, wav, flac
ストリーミング：mp3

表示 properties

pitch

integer

ピッチ調整（低い/明るい）、範囲 [-100,100]。数値が -100 に近いほど音声はより低くなり、100 に近いほどより明るくなります

intensity

integer

強度調整（力強さ/柔らかさ）、範囲 [-100,100]。数値が -100 に近いほど音声はより力強くなり、100 に近いほどより柔らかくなります

timbre

integer

音色調整（磁性/澄んだ）、範囲 [-100,100]。数値が -100 に近いほど音声はより重厚になり、数値が 100 に近いほど音声はより澄んだ感じになります

sound_effects

string

音響効果設定。1 回につき 1 種類のみ選択できます。選択可能な値：

spacious_echo（広い空間のエコー）
auditorium_echo（講堂放送）
lofi_telephone（電話歪み）
robotic（電子音）

レスポンス情報

audio

string

合成後の音声セグメント。hex エンコードを使用し、入力で定義された形式 (audio_setting.format) に従って生成されます（mp3/pcm/flac）。返却形式は output_format の定義に従って返され、stream が true の場合は hex の返却形式のみをサポートします。

status

number

現在の音声ストリームの状態。stream が true の場合のみ返されます。1 は合成中、2 は合成終了を示します。

PixVerse V6 画像から動画へ

MiniMax Speech-02-hd 非同期音声合成

​リクエストヘッダー

​リクエストボディ

​レスポンス情報

リクエストヘッダー

リクエストボディ

レスポンス情報