Esta API admite la generación asíncrona de texto a voz. Una sola transmisión de generación de texto admite hasta 1 millón de caracteres, y el resultado de audio completo generado puede recuperarse de forma asíncrona. Admite más de 100 voces del sistema y selección independiente de voces clonadas; también permite ajustar de forma independiente la entonación, velocidad, volumen, tasa de bits, frecuencia de muestreo y formato de salida.Después de enviar una solicitud de síntesis de voz para texto largo, tenga en cuenta que la url devuelta es válida durante 24 horas desde el momento en que se devuelve la url. Preste atención al plazo de descarga de la información.
Es adecuada para la generación de voz de textos largos, como libros completos; el tiempo de cola de la tarea puede ser más prolongado. Para escenarios como generación de frases cortas, chat de voz o interacción social en línea, se recomienda usar la síntesis de voz con llamada síncrona.
Controla la emoción de la voz sintetizada;Actualmente se admiten 7 emociones: felicidad, tristeza, ira, miedo, disgusto, sorpresa y neutralidad;Rango de parámetros: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]
Este parámetro admite la normalización de texto en inglés, lo que puede mejorar el rendimiento en escenarios de lectura de números, aunque aumentará ligeramente la latencia. Si no se proporciona, el valor predeterminado es false.
Rango 【32000,64000,128000,256000】Tasa de bits de la voz generada. Opcional; el valor predeterminado es 128000. Este parámetro solo se aplica al audio en formato mp3.
Reemplaza texto, símbolos y sus pronunciaciones correspondientes que requieren anotación especial.Reemplazo de pronunciación (ajuste de tono/reemplazo de pronunciación por otros caracteres), con el siguiente formato:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Los tonos se representan con números: el primer tono (yinping) es 1, el segundo tono (yangping) es 2, el tercer tono (shangsheng) es 3, el cuarto tono (qusheng) es 4, y el tono neutro es 5.
Mejora la capacidad de reconocimiento para idiomas minoritarios y dialectos especificados. Una vez configurado, puede mejorar el rendimiento de voz en escenarios del idioma minoritario/dialecto especificado. Si no está claro el tipo de idioma minoritario, puede elegir “auto”, y el modelo determinará de forma autónoma el tipo de idioma minoritario. Admite los siguientes valores:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Ajuste de tono (grave/brillante), rango [-100,100]. Cuanto más cercano sea el valor a -100, más grave será la voz; cuanto más cercano a 100, más brillante será la voz.
Ajuste de intensidad (potente/suave), rango [-100,100]. Cuanto más cercano sea el valor a -100, más enérgica será la voz; cuanto más cercano a 100, más suave será la voz.
Ajuste de timbre (magnético/nítido), rango [-100,100]. Cuanto más cercano sea el valor a -100, más profunda será la voz; cuanto más cercano a 100, más nítida será la voz.