Texto a voz de Fish Audio S2 Pro
Audio
Texto a voz de Fish Audio S2 Pro
POST
Texto a voz de Fish Audio S2 Pro
El modelo de texto a voz Fish Audio S2 Pro convierte texto en voz natural y admite timbres de referencia, control de muestreo, segmentación, formatos de audio y control de prosodia.
Encabezados de solicitud
Valores enumerados:
application/jsonFormato de autenticación Bearer: Bearer {{API Key}}.
Cuerpo de la solicitud
Texto que debe convertirse en voz. El texto multihablante de S2-Pro puede usar las etiquetas <|speaker:0|>Hola<|speaker:1|>Hola.
Control de diversidad de muestreo por núcleo.Rango de valores: [0, 1]
Formato de audio de salida.Valores opcionales:
wav, pcm, mp3, opusNivel de latencia.Valores opcionales:
low, normal, balancedControl de prosodia.
Normaliza texto en chino e inglés.
Muestras de audio de referencia para clonación de voz zero-shot.
Tasa de bits de MP3, en kbps.Valores opcionales:
64, 128, 192Frecuencia de muestreo de salida en Hz. Si está vacío, se usa el valor predeterminado del formato; opus es 48000 Hz y los demás suelen ser 44100 Hz.
Control de expresividad.Rango de valores: [0, 1]
Tamaño de segmentación del texto.Rango de valores: [100, 300]
Tasa de bits de Opus, en bps; -1000 indica automático.Valores opcionales:
-1000, 24000, 32000, 48000, 64000ID del modelo de timbre; en escenarios multihablante se puede pasar un arreglo que coincida con los índices de speaker.
Número máximo de tokens de audio por cada segmento.
Número mínimo de caracteres antes de segmentar.Rango de valores: [0, 100]
Coeficiente de penalización para reducir la repetición de patrones de audio.
Umbral de detención anticipada.Rango de valores: [0, 1]
Usa segmentos de audio anteriores como contexto.
Información de respuesta
Audio generado. Formato:binary