Convierte texto en voz, compatible con múltiples voces, control de emociones, ajuste de velocidad y otras funciones. El límite de longitud del texto es inferior a 10000 caracteres; si la longitud del texto supera los 3000 caracteres, se recomienda usar salida en streaming.
Texto que se debe sintetizar como voz. El límite de longitud es inferior a 10000 caracteres; si la longitud del texto supera los 3000 caracteres, se recomienda usar salida en streaming. Admite cambios de párrafo (saltos de línea), control de pausas (marca <#x#>) y etiquetas de muletillas o sonidos vocales (como (laughs), (coughs), etc.; solo compatibles con speech-2.8-hd/turbo)
Ajuste de tono (grave/brillante), rango [-100, 100]. Cuanto más se acerque el valor a -100, más grave será la voz; cuanto más se acerque a 100, más brillante seráRango de valores: [-100, 100]
Ajuste de timbre (magnético/nítido), rango [-100, 100]. Cuanto más se acerque el valor a -100, más profunda será la voz; cuanto más se acerque a 100, más nítida seráRango de valores: [-100, 100]
Ajuste de intensidad (sensación de fuerza/suavidad), rango [-100, 100]. Cuanto más se acerque el valor a -100, más enérgica será la voz; cuanto más se acerque a 100, más suave seráRango de valores: [-100, 100]
Configuración de efectos de sonido. Solo se puede seleccionar uno por vez. Valores disponibles: spacious_echo (eco en espacio abierto), auditorium_echo (difusión de auditorio), lofi_telephone (distorsión telefónica), robotic (sonido electrónico)Valores disponibles: spacious_echo, auditorium_echo, lofi_telephone, robotic
Tasa de bits del audio generado. Rango disponible [32000, 64000, 128000, 256000], valor predeterminado 128000. Este parámetro solo tiene efecto para audio en formato mp3Valores disponibles: 32000, 64000, 128000, 256000
Control de tasa de bits constante (cbr) para audio; valores disponibles: false, true. Cuando este parámetro se establece en true, el audio se codifica con tasa de bits constante. Nota: este parámetro solo tiene efecto cuando el audio se configura como salida en streaming y el formato de audio es mp3
Parámetro que controla la forma del resultado de salida. El rango de valores disponible es url, hex, con valor predeterminado hex. Este parámetro solo tiene efecto en escenarios sin streaming; en escenarios con streaming solo se admite devolver el formato hex. La url devuelta tiene una validez de 24 horasValores disponibles: url, hex
Volumen del audio sintetizado; cuanto mayor sea el valor, mayor será el volumen. Rango de valores (0, 10], valor predeterminado 1.0Rango de valores: [0, 10]
Entonación del audio sintetizado. Rango de valores [-12, 12], valor predeterminado 0, donde 0 corresponde a la salida con la voz originalRango de valores: [-12, 12]
Velocidad del audio sintetizado; cuanto mayor sea el valor, más rápida será la velocidad. Rango de valores [0.5, 2], valor predeterminado 1.0Rango de valores: [0.5, 2]
Controla la emoción de la voz sintetizada. El rango del parámetro corresponde a 8 emociones: alegría (happy), tristeza (sad), ira (angry), miedo (fearful), asco (disgusted), sorpresa (surprised), neutralidad (calm), vivacidad (fluent), susurro (whisper). El modelo emparejará automáticamente una emoción adecuada según el texto de entrada; por lo general, no es necesario especificarla manualmenteValores disponibles: happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper
Identificador de la voz del audio sintetizado. Si necesitas configurar una mezcla de voces, establece el parámetro timber_weights y deja este parámetro como valor vacío. Admite tres tipos: voces del sistema, voces clonadas y voces generadas a partir de texto
Controla si se leen fórmulas latex; el valor predeterminado es false. Solo es compatible con chino. Después de habilitar este parámetro, el parámetro language_boost se establecerá en Chinese
Indica si se habilita la normalización de texto en chino e inglés. Al habilitarla, puede mejorar el rendimiento en escenarios de lectura de números, pero aumentará ligeramente la latencia. El valor predeterminado es false
Controla si se añade una marca de ritmo de audio al final del audio sintetizado; el valor predeterminado es false. Este parámetro solo tiene efecto para síntesis sin streaming
Indica si se mejora la capacidad de reconocimiento para el idioma minoritario o dialecto especificado. El valor predeterminado es null; se puede establecer en auto para que el modelo lo determine de forma autónomaValores disponibles: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
Configura si el último chunk contiene los datos de voz hex concatenados. El valor predeterminado es false, es decir, el último chunk contiene los datos hex completos de la voz concatenada
Peso que ocupa cada voz en el audio sintetizado; debe completarse de forma sincronizada con voice_id. El rango de valores disponible es [1, 100]. Admite como máximo la mezcla de 4 voces; cuanto mayor sea la proporción de una sola voz, mayor será la similitud de la voz sintetizada con esa vozRango de valores: [1, 100]
Identificador de la voz del audio sintetizado; debe completarse junto con el parámetro weight. Admite tres tipos: voces del sistema, voces clonadas y voces generadas a partir de texto
Controla si se habilita el servicio de subtítulos; el valor predeterminado es false. Este parámetro solo es válido en escenarios de salida sin streaming y solo es efectivo para los modelos speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd
Define las reglas de sustitución de pronunciación o lectura correspondientes a textos o símbolos que requieren anotación especial. En texto chino, los tonos se representan con números: el primer tono es 1, el segundo tono es 2, el tercer tono es 3, el cuarto tono es 4 y el tono neutro es 5. Ejemplo: [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]