Esta API admite la generación síncrona de texto a voz, con un máximo de 10000 caracteres por transmisión de texto. Admite más de 100 voces del sistema y la selección independiente de voces clonadas; permite ajustar volumen, tono, velocidad de habla y formato de salida; admite mezcla de voces por proporción y control de intervalos fijos; admite diversas especificaciones y formatos de audio, incluidos: mp3, pcm, flac, wav, y admite salida en streaming.Después de enviar una solicitud de síntesis de voz de texto largo, ten en cuenta que la URL devuelta tiene una validez de 24 horas desde el momento en que se devuelve. Presta atención al tiempo disponible para descargar la información.
Ideal para escenarios como generación de frases cortas, chat de voz y socialización en línea. Tiene baja latencia, pero la longitud del texto está limitada a menos de 10000 caracteres. Para textos largos, se recomienda usar síntesis de voz mediante llamada asíncrona.
Texto que se va a sintetizar. La longitud debe ser inferior a 10000 caracteres; los cambios de párrafo deben reemplazarse por saltos de línea. (Si necesitas controlar los intervalos dentro de la voz, agrega <#x#> entre caracteres; la unidad de x son segundos, admite 0.01-99.99, con un máximo de dos decimales). Admite intervalos de tiempo de voz personalizados entre textos para lograr pausas personalizadas en la voz. Ten en cuenta que el intervalo de tiempo entre textos debe establecerse entre dos textos que puedan pronunciarse, y no se pueden establecer varios intervalos de tiempo consecutivos.
Rango [0.5,2], valor predeterminado 1.0Velocidad de habla de la voz generada. Opcional; cuanto mayor sea el valor, más rápida será la velocidad de habla.
ID de la voz solicitada. Debe completarse obligatoriamente uno de estos dos: voice_id o timbre_weights.Admite dos tipos: voces del sistema (id) y voces clonadas (id). Las voces del sistema (ID) son las siguientes:
Voz de joven inexperto: male-qn-qingse
Voz de joven de élite: male-qn-jingying
Voz de joven dominante: male-qn-badao
Voz de joven universitario: male-qn-daxuesheng
Voz de chica joven: female-shaonv
Voz de mujer madura y elegante: female-yujie
Voz de mujer adulta: female-chengshu
Voz de mujer dulce: female-tianmei
Presentador masculino: presenter_male
Presentadora femenina: presenter_female
Audiolibro masculino 1: audiobook_male_1
Audiolibro masculino 2: audiobook_male_2
Audiolibro femenino 1: audiobook_female_1
Audiolibro femenino 2: audiobook_female_2
Voz de joven inexperto-beta: male-qn-qingse-jingpin
Voz de joven de élite-beta: male-qn-jingying-jingpin
Voz de joven dominante-beta: male-qn-badao-jingpin
Voz de joven universitario-beta: male-qn-daxuesheng-jingpin
Voz de chica joven-beta: female-shaonv-jingpin
Voz de mujer madura y elegante-beta: female-yujie-jingpin
Controla la emoción de la voz sintetizada;Actualmente admite 7 emociones: alegría, tristeza, enojo, miedo, disgusto, sorpresa y neutral;Rango de parámetros: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]
Este parámetro admite la normalización de texto en inglés, lo que puede mejorar el rendimiento en escenarios de lectura de números, pero aumentará ligeramente la latencia. Si no se proporciona, el valor predeterminado es false.
Rango 【32000,64000,128000,256000】Tasa de bits de la voz generada. Opcional; el valor predeterminado es 128000. Este parámetro solo tiene efecto para audio en formato mp3.
Reemplaza textos, símbolos y sus anotaciones fonéticas correspondientes que requieren una marcación especial.Reemplazo de pronunciación (ajustar tono/reemplazar la pronunciación de otros caracteres), con el siguiente formato:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Los tonos se representan con números: el primer tono (yinping) es 1, el segundo tono (yangping) es 2, el tercer tono (shangsheng) es 3, el cuarto tono (qusheng) es 4, y el tono neutro es 5.
Rango [1,100]Peso. Debe completarse junto con voice_id. Admite mezclar hasta 4 voces; el valor debe ser un entero. Cuanto mayor sea la proporción de una voz individual, más se parecerá la voz sintetizada a esa voz.
Cuando este parámetro se establece en True, el último chunk del streaming no incluirá los datos hex de la voz completa concatenada. El valor predeterminado es False, es decir, el último chunk incluye los datos hex de la voz completa concatenada.
Mejora la capacidad de reconocimiento para idiomas minoritarios y dialectos especificados. Una vez configurado, puede mejorar el rendimiento de voz en escenarios del idioma minoritario/dialecto especificado. Si no se conoce con claridad el tipo de idioma minoritario, se puede seleccionar “auto”, y el modelo determinará el tipo de idioma minoritario de forma autónoma. Admite los siguientes valores:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Parámetro que controla la forma del resultado de salida. Los valores opcionales son urlhex. El valor predeterminado es hex. Este parámetro solo tiene efecto en escenarios no streaming; en escenarios de streaming solo se admite devolver el resultado en formato hex. La URL devuelta es válida durante 24 horas.
Ajuste de altura tonal (grave/brillante), rango [-100,100]. Cuanto más se acerque el valor a -100, más grave será la voz; cuanto más se acerque a 100, más brillante será la voz.
Ajuste de intensidad (potencia/suavidad), rango [-100,100]. Cuanto más se acerque el valor a -100, más firme será la voz; cuanto más se acerque a 100, más suave será la voz.
Ajuste de timbre (magnético/nítido), rango [-100,100]. Cuanto más se acerque el valor a -100, más profunda será la voz; cuanto más se acerque a 100, más nítida será la voz.
Fragmento de audio sintetizado, codificado en hex, generado según el formato definido en la entrada (audio_setting.format) (mp3/pcm/flac). La forma de retorno se determina según la definición de output_format; cuando stream es true, solo se admite el retorno en formato hex.
Estado actual del flujo de audio; solo se devuelve cuando stream es true. 1 indica que la síntesis está en curso, 2 indica que la síntesis ha finalizado.