Esta API admite la generación asíncrona de texto a voz. La transferencia de texto para una sola generación admite hasta 1 millón de caracteres, y el resultado de audio completo generado se puede recuperar de forma asíncrona. Admite la selección independiente de más de 100 voces del sistema y voces clonadas; también permite ajustar de forma independiente la entonación, la velocidad, el volumen, la tasa de bits, la frecuencia de muestreo y el formato de salida.Después de enviar una solicitud de síntesis de voz para texto largo, tenga en cuenta que la URL devuelta es válida durante 24 horas desde el momento en que se devuelve. Preste atención al tiempo disponible para descargar la información.
Ideal para la generación de voz a partir de textos largos, como libros completos. El tiempo de espera en la cola de tareas puede ser prolongado. Para escenarios como generación de frases cortas, chat de voz y socialización en línea, se recomienda usar la llamada síncrona de síntesis de voz.
Rango [-12,12], valor predeterminado: 0Entonación de la voz generada. Opcional. (0 indica salida con la voz original; el valor debe ser un número entero).
Controla la emoción de la voz sintetizada;Actualmente admite 7 emociones: alegría, tristeza, ira, miedo, asco, sorpresa y neutralidad;Rango de parámetros: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]
Este parámetro admite la normalización de texto en inglés y puede mejorar el rendimiento en escenarios de lectura de números, aunque aumentará ligeramente la latencia. Si no se proporciona, el valor predeterminado es false.
Rango 【32000,64000,128000,256000】Tasa de bits de la voz generada. Opcional; valor predeterminado: 128000. Este parámetro solo tiene efecto en audio con formato mp3.
Reemplaza texto, símbolos y sus pronunciaciones correspondientes que requieren anotaciones especiales.Reemplazo de pronunciación (ajuste de tono/reemplazo de la pronunciación de otros caracteres), con el siguiente formato:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Los tonos se representan con números: primer tono (yinping) es 1, segundo tono (yangping) es 2, tercer tono (shangsheng) es 3, cuarto tono (qusheng) es 4, y el tono neutro es 5.
Mejora la capacidad de reconocimiento para idiomas minoritarios y dialectos especificados. Después de configurarlo, puede mejorar el rendimiento de la voz en escenarios del idioma minoritario/dialecto especificado. Si no está claro el tipo de idioma minoritario, puede seleccionar “auto” y el modelo determinará el tipo de idioma minoritario de forma autónoma. Admite los siguientes valores:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Ajuste de tono (grave/brillante), rango [-100,100]. Cuanto más se acerque el valor a -100, más grave será la voz; cuanto más se acerque a 100, más brillante será la voz
Ajuste de intensidad (fuerza/suavidad), rango [-100,100]. Cuanto más se acerque el valor a -100, más enérgica será la voz; cuanto más se acerque a 100, más suave será
Ajuste de timbre (magnético/nítido), rango [-100,100]. Cuanto más se acerque el valor a -100, más profunda y resonante será la voz; cuanto más se acerque a 100, más nítida será