Esta API admite la generación asíncrona de texto a voz. La transmisión de generación de texto en una sola vez admite hasta 1 millón de caracteres, y el resultado de audio completo generado se puede recuperar de forma asíncrona. Admite más de 100 voces del sistema y voces clonadas seleccionables libremente; también permite ajustar de forma independiente la entonación, la velocidad, el volumen, la tasa de bits, la frecuencia de muestreo y el formato de salida.Después de enviar una solicitud de síntesis de voz para texto largo, tenga en cuenta que la URL devuelta tiene una validez de 24 horas desde el momento en que se devuelve la URL. Preste atención al tiempo disponible para descargar la información.
Es adecuado para la generación de voz de textos largos, como libros completos; el tiempo de espera en cola de la tarea puede ser prolongado. Para escenarios como generación de frases cortas, chat de voz y socialización en línea, se recomienda usar la síntesis de voz mediante llamada síncrona.
Rango [-12,12], valor predeterminado 0Entonación de la voz generada. Opcional (0 corresponde a la salida con el timbre original; el valor debe ser un entero).
Controla la emoción de la voz sintetizada;Actualmente admite 7 emociones: alegría, tristeza, ira, miedo, asco, sorpresa y neutralidad;Rango de parámetros: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]
Este parámetro admite la normalización de texto en inglés y puede mejorar el rendimiento en escenarios de lectura de números, aunque aumentará ligeramente la latencia. Si no se proporciona, el valor predeterminado es false.
Rango 【32000,64000,128000,256000】Tasa de bits de la voz generada. Opcional; el valor predeterminado es 128000. Este parámetro solo tiene efecto para audio en formato mp3.
Reemplaza texto, símbolos y sus pronunciaciones correspondientes que necesitan anotación especial.Sustitución de pronunciación (ajustar tono/sustituir la pronunciación de otros caracteres), con el siguiente formato:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Los tonos se sustituyen con números: el primer tono (yinping) es 1, el segundo tono (yangping) es 2, el tercer tono (shangsheng) es 3, el cuarto tono (qusheng) es 4, y el tono ligero es 5.
Mejora la capacidad de reconocimiento de idiomas minoritarios y dialectos especificados. Una vez configurado, puede mejorar el rendimiento de voz en escenarios del idioma minoritario/dialecto especificado. Si no está claro el tipo de idioma minoritario, se puede seleccionar “auto” y el modelo determinará de forma autónoma el tipo de idioma minoritario. Admite los siguientes valores:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Ajuste de tono (grave/brillante), rango [-100,100]. Cuanto más cerca esté el valor de -100, más grave será la voz; cuanto más cerca de 100, más brillante será la voz.
Ajuste de intensidad (fuerza/suavidad), rango [-100,100]. Cuanto más cerca esté el valor de -100, más firme será la voz; cuanto más cerca de 100, más suave será.
Ajuste de timbre (magnético/nítido), rango [-100,100]. Cuanto más cerca esté el valor de -100, más profunda y resonante será la voz; cuanto más cerca de 100, más nítida será.