MiniMax Speech-2.5-turbo-preview 同期音声合成

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.5-turbo-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "audio": "<string>",
  "status": 123
}

POST

minimax-speech-2.5-turbo-preview

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.5-turbo-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "audio": "<string>",
  "status": 123
}

この API は、テキストから音声への同期生成をサポートし、1 回のテキスト送信は最大 10000 文字です。100 種類以上のシステムボイス、クローンボイスの自由選択に対応しています。音量、ピッチ、話速、出力形式の調整に対応しています。比率に基づくミキシング機能、固定間隔時間の制御に対応しています。mp3, pcm, flac, wav を含む複数の音声仕様・形式に対応し、ストリーミング出力にも対応しています。長文の音声合成リクエストを送信した後、返却される url の有効期限は url が返却されてから 24 時間である点に注意し、ダウンロード情報の有効時間にご注意ください。

短文生成、音声チャット、オンラインソーシャルなどのシナリオに適しています。処理時間は短いですが、テキスト長の制限は 10000 文字未満です。長文の場合は非同期呼び出し音声合成の使用を推奨します。

リクエストヘッダー

Content-Type

string

必須

列挙値: application/json

Authorization

string

必須

Bearer 認証形式: Bearer {{API Key}}。

リクエストボディ

text

string

必須

合成対象のテキスト。長さは 10000 文字未満に制限され、段落の切り替えは改行文字で代替します。（音声内の間隔時間を制御する必要がある場合は、文字の間に <#x#> を追加します。x の単位は秒で、0.01-99.99 をサポートし、小数点以下は最大 2 桁です）。カスタムテキスト間の音声時間間隔をサポートし、カスタムテキスト音声のポーズ時間を実現できます。なお、テキスト間隔時間は、音声として発音できる 2 つのテキストの間に設定する必要があり、複数の連続した時間間隔は設定できません。

voice_setting

object

必須

表示 properties

speed

float

デフォルト:"1.0"

範囲[0.5,2]、デフォルト値は 1.0生成音声の話速。任意。値が大きいほど話速が速くなります。

vol

float

デフォルト:"1.0"

範囲（0,10]、デフォルト値は 1.0生成音声の音量。任意。値が大きいほど音量が高くなります。

pitch

int

デフォルト:"0"

範囲[-12,12]、デフォルト値は 0生成音声のピッチ。任意。（0 は元のボイスで出力し、値は整数である必要があります）。

voice_id

string

リクエストするボイス番号。timbre_weights とのいずれか一方が「必須」です。システムボイス(id)とクローンボイス（id）の 2 種類をサポートします。このうちシステムボイス（ID）は以下のとおりです：

初々しい青年ボイス：male-qn-qingse
エリート青年ボイス：male-qn-jingying
霸道系青年ボイス：male-qn-badao
男子大学生ボイス：male-qn-daxuesheng
少女ボイス：female-shaonv
大人の女性ボイス：female-yujie
成熟した女性ボイス：female-chengshu
甘い女性ボイス：female-tianmei
男性司会者：presenter_male
女性司会者：presenter_female
男性オーディオブック 1：audiobook_male_1
男性オーディオブック 2：audiobook_male_2
女性オーディオブック 1：audiobook_female_1
初々しい青年ボイス-beta：male-qn-qingse-jingpin
エリート青年ボイス-beta：male-qn-jingying-jingpin
霸道系青年ボイス-beta：male-qn-badao-jingpin
男子大学生ボイス-beta：male-qn-daxuesheng-jingpin
少女ボイス-beta：female-shaonv-jingpin
大人の女性ボイス-beta：female-yujie-jingpin
成熟した女性ボイス-beta：female-chengshu-jingpin
甘い女性ボイス-beta：female-tianmei-jingpin
賢い男の子：clever_boy
かわいい男の子：cute_boy
愛らしい女の子：lovely_girl
カートゥーン豚の小琪：cartoon_pig
ヤンデレ弟：bingjiao_didi
ハンサムな彼氏：junlang_nanyou
無邪気な後輩男子：chunzhen_xuedi
クールな先輩男子：lengdan_xiongzhang
霸道系のお坊ちゃま：badao_shaoye
スイートな小玲：tianxin_xiaoling
いたずら好きな萌え妹：qiaopi_mengmei
妖艶な大人の女性：wumei_yujie
甘え声の後輩女子：diadia_xuemei
上品な先輩女子：danya_xuejie
Santa Claus：Santa_Claus
Grinch：Grinch
Rudolph：Rudolph
Arnold：Arnold
Charming Santa：Charming_Santa
Charming Lady：Charming_Lady
Sweet Girl：Sweet_Girl
Cute Elf：Cute_Elf
Attractive Girl：Attractive_Girl
Serene Woman：Serene_Woman

emotion

string

合成音声の感情を制御します；現在 7 種類の感情をサポートします：喜び、悲しみ、怒り、恐怖、嫌悪、驚き、中立；パラメータ範囲：["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

latex_read

bool

デフォルト:"false"

latex 数式の読み上げをサポートするかどうかを制御します。デフォルトは false です。注意事項：

リクエスト内の数式は、数式の先頭と末尾に$$を追加する必要があります；
リクエスト内の数式に""がある場合は、”\“にエスケープする必要があります。

例：導関数の基本公式は $$\\frac{d}{dx}(x^n) = nx^{n-1}$$

text_normalization

bool

デフォルト:"false"

このパラメータは英語テキストの正規化をサポートし、数字読み上げシナリオの性能を向上できますが、レイテンシがわずかに増加します。指定しない場合、デフォルト値は false です。

audio_setting

object

表示 properties

sample_rate

int

デフォルト:"32000"

範囲【8000，16000，22050，24000，32000，44100】生成音声のサンプリングレート。任意。デフォルトは 32000 です。

bitrate

int

デフォルト:"128000"

範囲【32000，64000，128000，256000】生成音声のビットレート。任意。デフォルト値は 128000 です。このパラメータは mp3 形式の音声にのみ有効です。

format

string

デフォルト:"mp3"

生成される音声形式。デフォルトは mp3、範囲は[mp3,pcm,flac,wav]です。wav は非ストリーミング出力でのみサポートされます。

channel

int

デフォルト:"1"

生成音声のチャンネル数。デフォルトは 1：モノラル。選択可能：1：モノラル2：ステレオ

pronunciation_dict

object

表示 properties

tone

list

特別な注記が必要な文字、記号、および対応する発音表記を置換します。発音の置換（声調の調整/他の文字発音への置換）の形式は以下のとおりです：["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]声調は数字で表します。一声（陰平）は 1、二声（陽平）は 2、三声（上声）は 3、四声（去声）は 4）、軽声は 5 です。

timbre_weights

object[]

voice_id とのいずれか一方が必須です

表示 properties

voice_id

string

リクエストするボイス id。weight パラメータと同時に入力する必要があります。

weight

int

範囲[1,100]重み。voice_id と同時に入力する必要があります。最大 4 種類のボイスのミキシングをサポートします。値は整数で、単一ボイスの値の比率が高いほど、合成ボイスはそのボイスに近くなります。

stream

boolean

デフォルト:"false"

ストリーミングするかどうか。デフォルトは false、つまりストリーミングは有効化されません。

stream_options

object

表示 properties

exclude_aggregated_audio

boolean

デフォルト:"false"

このパラメータを True に設定すると、ストリーミングの最後の chunk に、結合後の完全な音声 hex データは含まれません。デフォルトは False、つまり最後の chunk に結合後の完全な音声 hex データが含まれます。

language_boost

string

デフォルト:"null"

指定したマイナー言語および方言の認識能力を強化します。設定後、指定したマイナー言語/方言のシナリオで音声表現を向上できます。マイナー言語の種類が明確でない場合は、“auto” を選択できます。モデルがマイナー言語の種類を自動判断します。以下の値をサポートします：

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

output_format

string

デフォルト:"hex"

出力結果の形式を制御するパラメータです。選択可能な値は url hex です。デフォルト値は hex です。このパラメータは非ストリーミングシナリオでのみ有効で、ストリーミングシナリオでは hex 形式の返却のみをサポートします。返却される url の有効期限は 24 時間です。

voice_modify

object

ボイスエフェクター設定。このパラメータがサポートする音声形式：

非ストリーミング：mp3, wav, flac
ストリーミング：mp3

表示 properties

pitch

integer

ピッチ調整（低い/明るい）。範囲 [-100,100]。値が -100 に近いほど音声はより低くなり、100 に近いほど音声はより明るくなります

intensity

integer

強度調整（力強さ/柔らかさ）。範囲 [-100,100]。値が -100 に近いほど音声はより力強くなり、100 に近いほど音声はより柔らかくなります

timbre

integer

音色調整（磁性/澄んだ音）。範囲 [-100,100]。値が -100 に近いほど音声はより厚みのある音になり、100 に近いほど音声はより澄んだ音になります

sound_effects

string

サウンドエフェクト設定。一度に 1 種類のみ選択可能です。選択可能な値：

spacious_echo（広々としたエコー）
auditorium_echo（講堂放送）
lofi_telephone（電話の歪み）
robotic（電子音）

レスポンス情報

audio

string

合成後の音声セグメント。hex エンコードを使用し、入力で定義された形式 (audio_setting.format) に従って生成されます（mp3/pcm/flac）。返却形式は output_format の定義に従って返却され、stream が true の場合は hex の返却形式のみをサポートします。

status

number

現在の音声ストリーム状態。stream が true の場合のみ返却されます。1 は合成中、2 は合成終了を表します。

MiniMax Speech-2.5-hd-preview 非同期音声合成

MiniMax Speech-2.5-turbo-preview 非同期音声合成

​リクエストヘッダー

​リクエストボディ

​レスポンス情報

リクエストヘッダー

リクエストボディ

レスポンス情報