この API は、テキストから音声への非同期生成をサポートしています。1 回のテキスト生成リクエストで最大 100 万文字まで対応し、生成された完全な音声結果は非同期方式で取得できます。100 種以上のシステムボイスおよびクローンボイスを任意に選択でき、イントネーション、話速、音量、ビットレート、サンプリングレート、出力形式を自由に調整できます。
長文テキストの音声合成リクエストを送信した後、返却される url の有効期限は url が返却されてから 24 時間である点にご注意ください。ダウンロード情報の期限に注意してください。
書籍全体などの長文テキストの音声生成に適しています。タスクのキュー待ちに時間がかかる場合があります。短文生成、音声チャット、オンラインソーシャルなどのシーンでは、
同期呼び出し音声合成 の使用を推奨します。
リクエストヘッダー
Bearer 認証形式: Bearer {{API Key}}。
リクエストボディ
範囲 [0.5,2]、デフォルト値は 1.0生成される音声の話速。任意。値が大きいほど話速が速くなります。
範囲(0,10]、デフォルト値は 1.0生成される音声の音量。任意。値が大きいほど音量が高くなります。
範囲 [-12,12]、デフォルト値は 0生成される音声のイントネーション。任意。(0 は元の音色で出力、値は整数である必要があります)。
リクエストする音色 ID。システムボイス(id)とクローンボイス(id)の 2 種類をサポートしています。システムボイス(ID)は以下のとおりです:
- 初々しい青年ボイス:
male-qn-qingse
- エリート青年ボイス:
male-qn-jingying
- 霸道な青年ボイス:
male-qn-badao
- 青年大学生ボイス:
male-qn-daxuesheng
- 少女ボイス:
female-shaonv
- 大人の女性ボイス:
female-yujie
- 成熟した女性ボイス:
female-chengshu
- 甘い女性ボイス:
female-tianmei
- 男性司会者:
presenter_male
- 女性司会者:
presenter_female
- 男性オーディオブック 1:
audiobook_male_1
- 男性オーディオブック 2:
audiobook_male_2
- 女性オーディオブック 1:
audiobook_female_1
- 女性オーディオブック 2:
audiobook_female_2
- 初々しい青年ボイス-beta:
male-qn-qingse-jingpin
- エリート青年ボイス-beta:
male-qn-jingying-jingpin
- 霸道な青年ボイス-beta:
male-qn-badao-jingpin
- 青年大学生ボイス-beta:
male-qn-daxuesheng-jingpin
- 少女ボイス-beta:
female-shaonv-jingpin
- 大人の女性ボイス-beta:
female-yujie-jingpin
- 成熟した女性ボイス-beta:
female-chengshu-jingpin
- 甘い女性ボイス-beta:
female-tianmei-jingpin
- 賢い男の子:
clever_boy
- かわいい男の子:
cute_boy
- 愛らしい女の子:
lovely_girl
- カートン豚シャオチー:
cartoon_pig
- ヤンデレ弟:
bingjiao_didi
- ハンサムな彼氏:
junlang_nanyou
- 純真な後輩男子:
chunzhen_xuedi
- クールな先輩男子:
lengdan_xiongzhang
- 霸道なお坊ちゃま:
badao_shaoye
- スイートなシャオリン:
tianxin_xiaoling
- やんちゃで萌え系の妹:
qiaopi_mengmei
- 妖艶な大人の女性:
wumei_yujie
- 甘え声の後輩女子:
diadia_xuemei
- 上品な先輩女子:
danya_xuejie
- Santa Claus:
Santa_Claus
- Grinch:
Grinch
- Rudolph:
Rudolph
- Arnold:
Arnold
- Charming Santa:
Charming_Santa
- Charming Lady:
Charming_Lady
- Sweet Girl:
Sweet_Girl
- Cute Elf:
Cute_Elf
- Attractive Girl:
Attractive_Girl
- Serene Woman:
Serene_Woman
合成音声の感情を制御します;現在 7 種類の感情をサポートしています:happy、sad、angry、fearful、disgusted、surprised、neutral;パラメータ範囲:["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]
このパラメータは英語テキストの正規化をサポートし、数字読み上げシーンでの性能を向上できますが、わずかに遅延が増加します。指定しない場合、デフォルト値は false です。
範囲【8000,16000,22050,24000,32000,44100】生成される音声のサンプリングレート。任意。デフォルトは 32000 です。
範囲【32000,64000,128000,256000】生成される音声のビットレート。任意。デフォルト値は 128000 です。このパラメータは mp3 形式の音声にのみ有効です。
生成される音声形式。デフォルトは mp3。任意:mp3, pcm, flac, wav。wav は非ストリーミング出力でのみサポートされます。
生成音声のチャンネル数。デフォルトは 1:モノラル。任意:1:モノラル2:ステレオ
特別な注記が必要な文字、記号、および対応する発音表記を置換します。発音の置換(声調の調整/他の文字発音への置換)の形式は以下のとおりです:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]声調は数字で表します。一声(陰平)は 1、二声(陽平)は 2、三声(上声)は 3、四声(去声)は 4、軽声は 5 です。
指定した言語や方言の認識能力を強化し、指定した言語/方言シーンでの音声表現を向上できます。言語の種類が不明な場合は “auto” を選択でき、モデルが言語の種類を自動判定します。以下の値をサポートしています:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
音声エフェクター設定。このパラメータがサポートする音声形式:mp3, wav, flac
ピッチ調整(低い/明るい)。範囲 [-100,100]。値が -100 に近いほど音声はより低くなり、100 に近いほどより明るくなります
強度調整(力強さ/柔らかさ)。範囲 [-100,100]。値が -100 に近いほど音声はより力強く、100 に近いほどより柔らかくなります
音色調整(艶のある/澄んだ)。範囲 [-100,100]。値が -100 に近いほど音声はより厚みがあり、100 に近いほどより澄んだ音になります
音響効果の設定。1 回につき 1 種類のみ選択できます。選択可能な値:
spacious_echo(広い空間のエコー)
auditorium_echo(講堂アナウンス)
lofi_telephone(電話風の歪み)
robotic(電子音)
レスポンス情報パラメータ
非同期タスクの task_id。この task_id を使用して タスク結果照会 API にリクエストし、生成結果を取得してください