Esta API oferece suporte à geração assíncrona de texto para fala. Uma única transmissão de geração de texto suporta até 1 milhão de caracteres, e o resultado de áudio completo gerado pode ser recuperado de forma assíncrona. Suporta mais de 100 vozes do sistema e vozes clonadas à sua escolha; também permite ajustar tom, velocidade, volume, bitrate, taxa de amostragem e formato de saída.Após enviar uma solicitação de síntese de voz para texto longo, observe que a URL retornada é válida por 24 horas a partir do momento em que a URL é retornada. Fique atento ao prazo para baixar as informações.
Indicado para geração de voz de textos longos, como livros inteiros. O tempo de enfileiramento da tarefa pode ser maior. Para cenários como geração de frases curtas, chat por voz e interação social online, recomenda-se usar a chamada síncrona de síntese de voz.
Controla a emoção da fala sintetizada;Atualmente são suportadas 7 emoções: felicidade, tristeza, raiva, medo, nojo, surpresa e neutro;Intervalo de parâmetros: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]
Este parâmetro oferece suporte à normalização de texto em inglês, podendo melhorar o desempenho em cenários de leitura de números, mas aumenta ligeiramente a latência. Se não for fornecido, o valor padrão é false.
Substitui textos e símbolos que exigem marcação especial, bem como suas respectivas notações fonéticas.Substituição de pronúncia (ajuste de tom/substituição da pronúncia de outros caracteres), no seguinte formato:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Os tons são representados por números: primeiro tom (yinping) como 1, segundo tom (yangping) como 2, terceiro tom (shangsheng) como 3, quarto tom (qusheng) como 4, e tom neutro como 5.
Melhora a capacidade de reconhecimento para idiomas menos comuns e dialetos especificados. Após configurado, pode melhorar o desempenho de voz em cenários do idioma/dialeto especificado. Se o tipo de idioma menos comum não estiver claro, é possível selecionar “auto”, e o modelo determinará autonomamente o tipo de idioma. Suporta os seguintes valores:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Ajuste de altura tonal (grave/brilhante), intervalo [-100,100]. Quanto mais próximo de -100, mais grave a voz; quanto mais próximo de 100, mais brilhante a voz
Ajuste de intensidade (força/suavidade), intervalo [-100,100]. Quanto mais próximo de -100, mais firme a voz; quanto mais próximo de 100, mais suave a voz
Ajuste de timbre (magnético/nítido), intervalo [-100,100]. Quanto mais próximo de -100, mais encorpada a voz; quanto mais próximo de 100, mais nítida a voz