MiniMax Speech 2.8 HD 同期音声合成

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}

POST

minimax-speech-2.8-hd

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}

テキストを音声に変換し、複数の音色、感情制御、話速調整などの機能に対応しています。テキスト長の上限は 10000 文字未満です。テキスト長が 3000 文字を超える場合は、ストリーミング出力の使用を推奨します。

リクエストヘッダー

Content-Type

string

必須

列挙値: application/json

Authorization

string

必須

Bearer 認証形式: Bearer {{API Key}}。

リクエストボディ

text

string

必須

音声合成するテキスト。長さは 10000 文字未満に制限されます。テキスト長が 3000 文字を超える場合は、ストリーミング出力の使用を推奨します。段落切り替え（改行文字）、ポーズ制御（<#x#> マーク）、フィラータグ（例: (laughs)、(coughs) など。speech-2.8-hd/turbo のみ対応）をサポートします

stream

boolean

デフォルト:false

ストリーミング出力するかどうかを制御します。デフォルトは false、つまりストリーミングは有効になりません

voice_modify

object

非表示 properties

pitch

integer

ピッチ調整（低い/明るい）。範囲は [-100, 100]。値が -100 に近いほど声はより低く、100 に近いほど声はより明るくなります値の範囲：[-100, 100]

timbre

integer

音色調整（磁性的/クリア）。範囲は [-100, 100]。値が -100 に近いほど声はより厚みがあり、100 に近いほど声はよりクリアになります値の範囲：[-100, 100]

intensity

integer

強度調整（力強さ/柔らかさ）。範囲は [-100, 100]。値が -100 に近いほど声はより力強く、100 に近いほど声はより柔らかくなります値の範囲：[-100, 100]

sound_effects

string

音響効果設定。1 回につき 1 種類のみ選択できます。選択可能な値：spacious_echo（広い空間のエコー）、auditorium_echo（講堂放送）、lofi_telephone（電話の歪み）、robotic（電子音）選択可能な値：spacious_echo, auditorium_echo, lofi_telephone, robotic

audio_setting

object

非表示 properties

format

string

デフォルト:"mp3"

生成される音声の形式。wav は非ストリーミング出力でのみサポートされます選択可能な値：mp3, pcm, flac, wav

bitrate

integer

デフォルト:128000

生成される音声のビットレート。選択可能な範囲は [32000, 64000, 128000, 256000]、デフォルト値は 128000 です。このパラメータは mp3 形式の音声にのみ有効です選択可能な値：32000, 64000, 128000, 256000

channel

integer

デフォルト:1

生成される音声のチャンネル数。選択可能な範囲：[1, 2]。1 はモノラル、2 はステレオで、デフォルト値は 1 です選択可能な値：1, 2

force_cbr

boolean

デフォルト:false

音声の固定ビットレート（cbr）制御用。false、true を選択できます。このパラメータを true に設定すると、固定ビットレート方式で音声エンコードを行います。注意：このパラメータは、音声設定がストリーミング出力で、かつ音声形式が mp3 の場合にのみ有効です

sample_rate

integer

デフォルト:32000

生成される音声のサンプリングレート。選択可能な範囲は [8000, 16000, 22050, 24000, 32000, 44100]、デフォルトは 32000 です選択可能な値：8000, 16000, 22050, 24000, 32000, 44100

output_format

string

デフォルト:"hex"

出力結果の形式を制御するパラメータ。選択可能な値の範囲は url、hex で、デフォルト値は hex です。このパラメータは非ストリーミングのシナリオでのみ有効で、ストリーミングのシナリオでは hex 形式の返却のみサポートされます。返却される url の有効期限は 24 時間です選択可能な値：url, hex

voice_setting

object

非表示 properties

vol

number

デフォルト:1

合成音声の音量。値が大きいほど音量が高くなります。値の範囲は (0, 10]、デフォルト値は 1.0 です値の範囲：[0, 10]

pitch

integer

デフォルト:0

合成音声のイントネーション。値の範囲は [-12, 12]、デフォルト値は 0 で、0 は元の音色での出力を表します値の範囲：[-12, 12]

speed

number

デフォルト:1

合成音声の話速。値が大きいほど話速が速くなります。値の範囲は [0.5, 2]、デフォルト値は 1.0 です値の範囲：[0.5, 2]

emotion

string

合成音声の感情を制御します。パラメータ範囲はそれぞれ 8 種類の感情に対応します：喜び(happy)、悲しみ(sad)、怒り(angry)、恐れ(fearful)、嫌悪(disgusted)、驚き(surprised)、中立(calm)、生き生き(fluent)、ささやき(whisper)。モデルは入力テキストに基づいて適切な感情を自動的にマッチングするため、通常は手動指定の必要はありません選択可能な値：happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper

voice_id

string

必須

合成音声の音色 ID。混合音色を設定する必要がある場合は、timber_weights パラメータを設定し、本パラメータは空値にしてください。システム音色、クローン音色、テキスト生成音色の 3 種類に対応しています

latex_read

boolean

デフォルト:false

latex 公式を読み上げるかどうかを制御します。デフォルトは false です。中国語のみ対応しており、このパラメータを有効にすると、language_boost パラメータは Chinese に設定されます

text_normalization

boolean

デフォルト:false

中国語、英語のテキスト正規化を有効にするかどうか。有効にすると数字読み上げシーンの性能を向上できますが、遅延がわずかに増加します。デフォルト値は false です

aigc_watermark

boolean

デフォルト:false

合成音声の末尾に音声リズム識別子を追加するかどうかを制御します。デフォルト値は false です。このパラメータは非ストリーミング合成でのみ有効です

language_boost

string

指定された少数言語や方言の認識能力を強化するかどうか。デフォルト値は null で、auto に設定するとモデルが自律的に判断します選択可能な値：Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto

stream_options

object

非表示 properties

exclude_aggregated_audio

boolean

デフォルト:false

最後の chunk に結合後の音声 hex データを含めるかどうかを設定します。デフォルト値は false で、つまり最後の chunk には結合後の完全な音声 hex データが含まれます

timber_weights

array

混合音色設定。最大 4 種類の音色混合に対応しています

非表示 properties

weight

integer

必須

合成音声における各音色の重み。voice_id と同時に入力する必要があります。選択可能な値の範囲は [1, 100] で、最大 4 種類の音色混合に対応しています。単一音色の値の割合が高いほど、合成音色はその音色により近くなります値の範囲：[1, 100]

voice_id

string

必須

合成音声の音色 ID。weight パラメータと同時に入力する必要があります。システム音色、クローン音色、テキスト生成音色の 3 種類に対応しています

subtitle_enable

boolean

デフォルト:false

字幕サービスを有効にするかどうかを制御します。デフォルト値は false です。このパラメータは非ストリーミング出力のシナリオでのみ有効で、かつ speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd モデルにのみ有効です

continuous_sound

boolean

デフォルト:false

このパラメータを有効にすると、節のつなぎ目がより自然になります。speech-2.8-hd と speech-2.8-turbo モデルのみ対応しています

pronunciation_dict

object

非表示 properties

tone

array

特別な注記が必要な文字または記号に対応する注音または発音置換ルールを定義します。中国語テキストでは、声調は数字で表します：一声は 1、二声は 2、三声は 3、四声は 4、軽声は 5 です。例：[“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]

レスポンス情報

data

object

返却される合成データオブジェクト。null の可能性があるため、非 null 判定が必要です

trace_id

string

今回のセッションの id。問い合わせ/フィードバック時に問題の特定を支援するために使用します

base_resp

object

今回のリクエストのステータスコードと詳細

extra_info

object

音声の追加情報

MiniMax Speech 2.8 HD 非同期音声合成

MiniMax 音声クイック複製

​リクエストヘッダー

​リクエストボディ

​レスポンス情報

リクエストヘッダー

リクエストボディ

レスポンス情報