この API は、テキストから音声への非同期生成に対応しています。1 回のテキスト生成送信で最大 100 万文字をサポートし、生成された完全な音声結果は非同期で取得できます。100 種類以上のシステム音色、クローン音色を自由に選択でき、イントネーション、話速、音量、ビットレート、サンプリングレート、出力形式も自由に調整できます。
長文の音声合成リクエストを送信した後、返される url の有効期限は url が返されてから 24 時間である点に注意し、ダウンロード情報の時間にご注意ください。
書籍全体などの長文テキストの音声生成に適しています。タスクのキュー待ちに時間がかかる場合があります。短文生成、音声チャット、オンラインソーシャルなどのシーンでは、
同期呼び出し音声合成 の利用を推奨します。
リクエストヘッダー
Bearer 認証形式: Bearer {{API Key}}。
リクエストボディ
合成するテキスト。最大 5 万文字に制限されます。
範囲 [0.5,2]、デフォルト値は 1.0生成音声の話速。任意。値が大きいほど話速が速くなります。
範囲(0,10]、デフォルト値は 1.0生成音声の音量。任意。値が大きいほど音量が高くなります。
範囲 [-12,12]、デフォルト値は 0生成音声のイントネーション。任意。(0 は元の音色出力を表し、値は整数である必要があります)。
リクエストする音色番号。システム音色(id)とクローン音色(id)の 2 種類に対応しています。システム音色(ID)は以下のとおりです:
- 初々しい青年の音色:
male-qn-qingse
- エリート青年の音色:
male-qn-jingying
- 霸道な青年の音色:
male-qn-badao
- 青年大学生の音色:
male-qn-daxuesheng
- 少女の音色:
female-shaonv
- 大人の女性の音色:
female-yujie
- 成熟女性の音色:
female-chengshu
- 甘い女性の音色:
female-tianmei
- 男性司会者:
presenter_male
- 女性司会者:
presenter_female
- 男性オーディオブック 1:
audiobook_male_1
- 男性オーディオブック 2:
audiobook_male_2
- 女性オーディオブック 1:
audiobook_female_1
- 女性オーディオブック 2:
audiobook_female_2
- 初々しい青年の音色-beta:
male-qn-qingse-jingpin
- エリート青年の音色-beta:
male-qn-jingying-jingpin
- 霸道な青年の音色-beta:
male-qn-badao-jingpin
- 青年大学生の音色-beta:
male-qn-daxuesheng-jingpin
- 少女の音色-beta:
female-shaonv-jingpin
- 大人の女性の音色-beta:
female-yujie-jingpin
- 成熟女性の音色-beta:
female-chengshu-jingpin
- 甘い女性の音色-beta:
female-tianmei-jingpin
- 賢い男の子:
clever_boy
- 可愛い男の子:
cute_boy
- 萌え系の女の子:
lovely_girl
- カートン豚の小琪:
cartoon_pig
- ヤンデレの弟:
bingjiao_didi
- ハンサムな彼氏:
junlang_nanyou
- 純真な後輩男子:
chunzhen_xuedi
- クールな先輩男子:
lengdan_xiongzhang
- 霸道な坊ちゃん:
badao_shaoye
- スイートな小玲:
tianxin_xiaoling
- お茶目な萌え妹:
qiaopi_mengmei
- 妖艶な大人の女性:
wumei_yujie
- 甘え声の後輩女子:
diadia_xuemei
- 上品な先輩女子:
danya_xuejie
- Santa Claus:
Santa_Claus
- Grinch:
Grinch
- Rudolph:
Rudolph
- Arnold:
Arnold
- Charming Santa:
Charming_Santa
- Charming Lady:
Charming_Lady
- Sweet Girl:
Sweet_Girl
- Cute Elf:
Cute_Elf
- Attractive Girl:
Attractive_Girl
- Serene Woman:
Serene_Woman
合成音声の感情を制御します;現在 7 種類の感情に対応しています:喜び、悲しみ、怒り、恐れ、嫌悪、驚き、中立;パラメータ範囲:["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]
このパラメータは英語テキストの正規化に対応しており、数字読み上げシーンの性能を向上できますが、レイテンシがわずかに増加します。指定しない場合、デフォルト値は false です。
範囲【8000,16000,22050,24000,32000,44100】生成音声のサンプリングレート。任意。デフォルトは 32000 です。
範囲【32000,64000,128000,256000】生成音声のビットレート。任意。デフォルト値は 128000 です。このパラメータは mp3 形式の音声にのみ有効です。
生成される音声形式。デフォルトは mp3。任意:mp3, pcm, flac, wav。wav は非ストリーミング出力でのみサポートされます。
生成音声のチャンネル数。デフォルトは 1:モノラル。任意:1:モノラル2:ステレオ
特別な注記が必要な文字、記号、および対応する発音表記を置換します。発音の置換(声調の調整/他の文字発音への置換)の形式は以下のとおりです:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]声調は数字で表します。一声(陰平)は 1、二声(陽平)は 2、三声(上声)は 3、四声(去声)は 4、軽声は 5 です。
指定した少数言語や方言の認識能力を強化し、設定後は指定した少数言語/方言シーンでの音声表現を向上できます。少数言語の種類が明確でない場合は、“auto” を選択できます。モデルが少数言語の種類を自動で判断します。以下の値をサポートしています:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
音声エフェクター設定。このパラメータがサポートする音声形式:mp3, wav, flac
ピッチ調整(低め/明るめ)、範囲 [-100,100]。値が -100 に近いほど音声はより低くなり、100 に近いほど音声はより明るくなります
強度調整(力強さ/柔らかさ)、範囲 [-100,100]。値が -100 に近いほど音声はより力強くなり、100 に近いほど音声はより柔らかくなります
音色調整(磁性/澄んだ音)、範囲 [-100,100]。値が -100 に近いほど音声はより厚みを持ち、値が 100 に近いほど音声はより澄んだ音になります
音響効果設定。1 回につき 1 種類のみ選択できます。選択可能な値:
spacious_echo(広い空間のエコー)
auditorium_echo(講堂放送)
lofi_telephone(電話の歪み)
robotic(電子音)
レスポンス情報パラメータ
非同期タスクの task_id。この task_id を使用して タスク結果照会 API をリクエストし、生成結果を取得する必要があります