Esta API admite la generación asíncrona de texto a voz. Una sola generación de texto admite una transmisión máxima de 1 millón de caracteres, y el resultado de audio completo generado puede recuperarse de forma asíncrona. Admite más de 100 voces del sistema y voces clonadas seleccionables libremente; también permite ajustar libremente la entonación, la velocidad, el volumen, la tasa de bits, la frecuencia de muestreo y el formato de salida.Después de enviar una solicitud de síntesis de voz para texto largo, tenga en cuenta que la URL devuelta es válida durante 24 horas a partir del momento en que se devuelve. Preste atención al tiempo disponible para descargar la información.
Aplicable a la generación de voz para textos largos, como libros completos; el tiempo de espera en cola de la tarea puede ser prolongado. Para escenarios como generación de frases cortas, chat de voz y socialización en línea, se recomienda usar la llamada síncrona de síntesis de voz.
Rango [0.5,2], valor predeterminado 1.0Velocidad del habla de la voz generada. Opcional; cuanto mayor sea el valor, más rápida será la velocidad del habla.
Rango [-12,12], valor predeterminado 0Entonación de la voz generada. Opcional (0 corresponde a la salida de la voz original; el valor debe ser un entero).
Controla la emoción de la voz sintetizada;Actualmente admite 7 emociones: alegría, tristeza, ira, miedo, asco, sorpresa y neutral;Rango del parámetro: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]
Este parámetro admite la normalización de texto en inglés y puede mejorar el rendimiento en escenarios de lectura de números, aunque aumentará ligeramente la latencia. Si no se proporciona, el valor predeterminado es false.
Rango 【32000,64000,128000,256000】Tasa de bits de la voz generada. Opcional; el valor predeterminado es 128000. Este parámetro solo tiene efecto para audio en formato mp3.
Reemplaza texto, símbolos y sus anotaciones fonéticas correspondientes que requieren marcado especial.Reemplazo de pronunciación (ajustar tonos/reemplazar la pronunciación de otros caracteres), con el siguiente formato:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Los tonos se representan con números: primer tono (yīnpíng) es 1, segundo tono (yángpíng) es 2, tercer tono (shǎngshēng) es 3, cuarto tono (qùshēng) es 4, y tono ligero es 5.
Mejora la capacidad de reconocimiento de idiomas minoritarios y dialectos especificados. Tras configurarlo, puede mejorar el rendimiento de voz en escenarios del idioma minoritario/dialecto especificado. Si no se conoce claramente el tipo de idioma minoritario, se puede seleccionar “auto”, y el modelo determinará de forma autónoma el tipo de idioma minoritario. Admite los siguientes valores:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Ajuste de tono (profundo/brillante), rango [-100,100]. Cuanto más se acerque el valor a -100, más profunda será la voz; cuanto más se acerque a 100, más brillante será.
Ajuste de intensidad (potencia/suavidad), rango [-100,100]. Cuanto más se acerque el valor a -100, más firme será la voz; cuanto más se acerque a 100, más suave será.
Ajuste de timbre (magnético/nítido), rango [-100,100]. Cuanto más se acerque el valor a -100, más plena será la voz; cuanto más se acerque a 100, más nítida será.