Convierte texto en voz, con soporte para múltiples voces, control de emociones, ajuste de velocidad de habla y otras funciones. La longitud del texto debe ser inferior a 10000 caracteres. Si la longitud del texto supera los 3000 caracteres, se recomienda usar salida en streaming.
Texto que se debe sintetizar en voz. La longitud debe ser inferior a 10000 caracteres. Si la longitud del texto supera los 3000 caracteres, se recomienda usar salida en streaming. Admite cambios de párrafo (saltos de línea), control de pausas (marcador <#x#>) y etiquetas de muletillas/expresiones vocales (como (laughs), (coughs), etc.; solo compatibles con speech-2.8-hd/turbo)
Ajuste de tono (grave/brillante), rango [-100, 100]. Cuanto más cerca esté el valor de -100, más grave será la voz; cuanto más cerca esté de 100, más brillante seráRango de valores: [-100, 100]
Ajuste de timbre (magnético/cristalino), rango [-100, 100]. Cuanto más cerca esté el valor de -100, más densa será la voz; cuanto más cerca esté de 100, más cristalina seráRango de valores: [-100, 100]
Ajuste de intensidad (potente/suave), rango [-100, 100]. Cuanto más cerca esté el valor de -100, más enérgica será la voz; cuanto más cerca esté de 100, más suave seráRango de valores: [-100, 100]
Configuración de efectos de sonido. Solo se puede seleccionar uno por vez. Valores disponibles: spacious_echo (eco en espacio abierto), auditorium_echo (megafonía de auditorio), lofi_telephone (distorsión telefónica), robotic (sonido electrónico)Valores permitidos: spacious_echo, auditorium_echo, lofi_telephone, robotic
Tasa de bits del audio generado. Rango disponible [32000, 64000, 128000, 256000], valor predeterminado 128000. Este parámetro solo tiene efecto para audio en formato mp3Valores permitidos: 32000, 64000, 128000, 256000
Control de tasa de bits constante (cbr) para el audio. Valores disponibles: false, true. Cuando este parámetro se establece en true, el audio se codifica con tasa de bits constante. Nota: este parámetro solo tiene efecto cuando el audio está configurado como salida en streaming y el formato de audio es mp3
Parámetro que controla el formato del resultado de salida. Los valores disponibles son url y hex; el valor predeterminado es hex. Este parámetro solo tiene efecto en escenarios no streaming; en escenarios de streaming solo se admite devolver el formato hex. La url devuelta tiene una validez de 24 horasValores permitidos: url, hex
Volumen del audio sintetizado. Cuanto mayor sea el valor, mayor será el volumen. Rango de valores (0, 10], valor predeterminado 1.0Rango de valores: [0, 10]
Entonación del audio sintetizado. Rango de valores [-12, 12], valor predeterminado 0, donde 0 corresponde a la salida con la voz originalRango de valores: [-12, 12]
Velocidad de habla del audio sintetizado. Cuanto mayor sea el valor, más rápida será la velocidad. Rango de valores [0.5, 2], valor predeterminado 1.0Rango de valores: [0.5, 2]
Controla la emoción de la voz sintetizada. El rango de parámetros corresponde a 8 emociones: alegría (happy), tristeza (sad), ira (angry), miedo (fearful), asco (disgusted), sorpresa (surprised), neutralidad (calm), expresividad (fluent), susurro (whisper). El modelo suele emparejar automáticamente la emoción adecuada según el texto de entrada, por lo que normalmente no es necesario especificarla manualmenteValores permitidos: happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper
Identificador de la voz para el audio sintetizado. Si necesita configurar una voz mixta, establezca el parámetro timber_weights y deje este parámetro en blanco. Admite tres tipos: voces del sistema, voces clonadas y voces generadas a partir de texto
Controla si se leen fórmulas latex. El valor predeterminado es false. Solo es compatible con chino; al habilitar este parámetro, el parámetro language_boost se establecerá en Chinese
Indica si se habilita la normalización de texto en chino e inglés. Al habilitarla, puede mejorar el rendimiento en escenarios de lectura de números, pero aumentará ligeramente la latencia. El valor predeterminado es false
Controla si se agrega un identificador de ritmo de audio al final del audio sintetizado. El valor predeterminado es false. Este parámetro solo tiene efecto para síntesis no streaming
Indica si se mejora la capacidad de reconocimiento para el idioma minoritario o dialecto especificado. El valor predeterminado es null; puede establecerse en auto para que el modelo lo determine automáticamenteValores permitidos: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
Configura si el último chunk contiene los datos hex de la voz concatenada. El valor predeterminado es false, es decir, el último chunk contiene los datos hex completos de la voz concatenada
Peso correspondiente a cada voz en el audio sintetizado; debe completarse junto con voice_id. El rango de valores disponible es [1, 100]. Admite la mezcla de hasta 4 voces. Cuanto mayor sea el peso de una sola voz, mayor será la similitud de la voz sintetizada con esa vozRango de valores: [1, 100]
Identificador de la voz para el audio sintetizado; debe completarse junto con el parámetro weight. Admite tres tipos: voces del sistema, voces clonadas y voces generadas a partir de texto
Controla si se habilita el servicio de subtítulos. El valor predeterminado es false. Este parámetro solo es válido en escenarios de salida no streaming y solo para los modelos speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd
Habilite este parámetro para que las transiciones entre cláusulas sean más naturales. Solo es compatible con los modelos speech-2.8-hd y speech-2.8-turbo
Define reglas de sustitución de anotación fonética o pronunciación para texto o símbolos que requieren una marca especial. En textos chinos, los tonos se representan con números: el primer tono es 1, el segundo tono es 2, el tercer tono es 3, el cuarto tono es 4 y el tono neutro es 5. Ejemplo: [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]