Esta API oferece suporte à geração assíncrona de texto para voz. Uma única transmissão de geração de texto suporta no máximo 1 milhão de caracteres, e o resultado completo do áudio gerado pode ser recuperado de forma assíncrona. Suporta mais de 100 vozes do sistema e seleção independente de vozes clonadas; também permite ajustar de forma independente entonação, velocidade, volume, bitrate, taxa de amostragem e formato de saída.Após enviar uma solicitação de síntese de voz para textos longos, observe que a URL retornada é válida por 24 horas a partir do momento em que a URL é retornada. Fique atento ao prazo para baixar as informações.
Indicado para geração de voz de textos longos, como livros inteiros; o tempo de fila da tarefa pode ser mais longo. Para cenários como geração de frases curtas, chat por voz e socialização online, recomenda-se usar a chamada síncrona de síntese de voz.
Controla a emoção da voz sintetizada;Atualmente, há suporte para 7 emoções: feliz, triste, com raiva, com medo, com nojo, surpreso, neutro;Intervalo de parâmetros: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]
Este parâmetro oferece suporte à normalização de texto em inglês, podendo melhorar o desempenho em cenários de leitura de números, mas aumenta ligeiramente a latência. Se não for fornecido, o valor padrão é false.
Substitui textos, símbolos e respectivas pronúncias que exigem marcação especial.Substituição de pronúncia (ajuste de tom/substituição da pronúncia de outros caracteres), no seguinte formato:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Os tons são representados por números: primeiro tom (yinping) é 1, segundo tom (yangping) é 2, terceiro tom (shangsheng) é 3, quarto tom (qusheng) é 4, e tom neutro é 5.
Melhora a capacidade de reconhecimento de idiomas minoritários e dialetos especificados. Após configurado, pode melhorar o desempenho de voz em cenários com o idioma minoritário/dialeto especificado. Se o tipo de idioma minoritário não estiver claro, você pode escolher “auto”, e o modelo determinará autonomamente o tipo. Valores suportados:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Ajuste de altura tonal (grave/brilhante), intervalo [-100,100]. Quanto mais próximo de -100, mais grave a voz; quanto mais próximo de 100, mais brilhante a voz
Ajuste de intensidade (força/suavidade), intervalo [-100,100]. Quanto mais próximo de -100, mais firme a voz; quanto mais próximo de 100, mais suave a voz
Ajuste de timbre (magnético/cristalino), intervalo [-100,100]. Quanto mais próximo de -100, mais encorpada a voz; quanto mais próximo de 100, mais cristalina a voz