Esta API admite la generación asíncrona de texto a voz. Una sola generación de texto admite hasta 1 millón de caracteres para la transmisión, y el resultado de audio completo generado se puede recuperar de forma asíncrona. Admite más de 100 voces del sistema y voces clonadas a elección del usuario; también permite ajustar de forma independiente la entonación, velocidad, volumen, tasa de bits, frecuencia de muestreo y formato de salida.Después de enviar una solicitud de síntesis de voz para textos largos, tenga en cuenta que la url devuelta tiene una validez de 24 horas a partir del momento en que se devuelve. Preste atención al momento de descarga de la información.
Aplicable a la generación de voz para textos largos, como libros completos. El tiempo de espera en cola de la tarea puede ser prolongado. Para escenarios como generación de frases cortas, chat de voz y redes sociales en línea, se recomienda usar síntesis de voz mediante llamada síncrona.
Rango [-12,12], valor predeterminado 0Entonación de la voz generada. Opcional (0 corresponde a la salida con la voz original; el valor debe ser un entero).
Controla la emoción de la voz sintetizada;Actualmente admite 7 emociones: alegría, tristeza, ira, miedo, asco, sorpresa y neutral;Rango del parámetro: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]
Este parámetro admite la normalización de texto en inglés y puede mejorar el rendimiento en escenarios de lectura de números, aunque aumentará ligeramente la latencia. Si no se proporciona, el valor predeterminado es false.
Rango 【32000,64000,128000,256000】Tasa de bits de la voz generada. Opcional; el valor predeterminado es 128000. Este parámetro solo tiene efecto para audio en formato mp3.
Sustituye texto, símbolos y sus pronunciaciones correspondientes que requieren anotación especial.Sustitución de pronunciación (ajustar tonos/sustituir la pronunciación de otros caracteres), con el siguiente formato:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Los tonos se representan con números: primer tono (yinping) como 1, segundo tono (yangping) como 2, tercer tono (shangsheng) como 3, cuarto tono (qusheng) como 4, y tono neutro como 5.
Mejora la capacidad de reconocimiento para idiomas minoritarios y dialectos especificados. Una vez configurado, puede mejorar el rendimiento de voz en escenarios del idioma minoritario/dialecto especificado. Si no está claro el tipo de idioma minoritario, puede seleccionar “auto” y el modelo determinará el tipo de idioma de forma autónoma. Admite los siguientes valores:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Ajuste de tono (grave/brillante), rango [-100,100]. Cuanto más se acerque el valor a -100, más grave será la voz; cuanto más se acerque a 100, más brillante será la voz
Ajuste de intensidad (fuerza/suavidad), rango [-100,100]. Cuanto más se acerque el valor a -100, más enérgica será la voz; cuanto más se acerque a 100, más suave será la voz
Ajuste de timbre (magnético/nítido), rango [-100,100]. Cuanto más se acerque el valor a -100, más profunda será la voz; cuanto más se acerque a 100, más nítida será la voz