Esta API admite la generación asíncrona de texto a voz. Una sola transmisión de generación de texto admite hasta 1 millón de caracteres, y el resultado de audio completo generado se puede recuperar de forma asíncrona. Admite más de 100 voces del sistema y voces clonadas seleccionables; también permite ajustar de forma independiente la entonación, la velocidad, el volumen, la tasa de bits, la frecuencia de muestreo y el formato de salida.Después de enviar una solicitud de síntesis de voz para texto largo, tenga en cuenta que la URL devuelta tiene una validez de 24 horas a partir del momento en que se devuelve. Preste atención al momento de descarga de la información.
Adecuado para la generación de voz de textos largos, como libros completos; el tiempo de cola de la tarea puede ser prolongado. Para escenarios como generación de frases cortas, chat de voz y redes sociales en línea, se recomienda usar la llamada síncrona de síntesis de voz.
Controla la emoción de la voz sintetizada;Actualmente se admiten 7 emociones: felicidad, tristeza, ira, miedo, asco, sorpresa y neutral;Rango del parámetro: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]
Este parámetro admite la normalización de texto en inglés, lo que puede mejorar el rendimiento en escenarios de lectura de números, aunque aumentará ligeramente la latencia. Si no se proporciona, el valor predeterminado es false.
Rango 【32000,64000,128000,256000】Tasa de bits de la voz generada. Opcional, valor predeterminado 128000. Este parámetro solo es efectivo para audio en formato mp3.
Reemplaza texto, símbolos y sus pronunciaciones correspondientes que requieren anotación especial.Reemplazo de pronunciación (ajustar tono/reemplazar la pronunciación de otros caracteres), con el siguiente formato:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Los tonos se sustituyen por números: primer tono (yinping) es 1, segundo tono (yangping) es 2, tercer tono (shangsheng) es 3, cuarto tono (qusheng) es 4, y tono neutro es 5.
Mejora la capacidad de reconocimiento para idiomas minoritarios y dialectos especificados. Tras configurarlo, puede mejorar el rendimiento de voz en escenarios del idioma minoritario/dialecto especificado. Si no está claro el tipo de idioma minoritario, puede seleccionar “auto” y el modelo determinará de forma autónoma el tipo de idioma minoritario. Se admiten los siguientes valores:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Ajuste de tono (grave/brillante), rango [-100,100]. Cuanto más se acerque el valor a -100, más grave será la voz; cuanto más se acerque a 100, más brillante será.
Ajuste de intensidad (potencia/suavidad), rango [-100,100]. Cuanto más se acerque el valor a -100, más firme será la voz; cuanto más se acerque a 100, más suave será.
Ajuste de timbre (magnético/nítido), rango [-100,100]. Cuanto más se acerque el valor a -100, más profunda será la voz; cuanto más se acerque a 100, más nítida será.