Saltar al contenido principal
POST
/
v3
/
fish-audio-s2-pro-text-to-speech
Texto a voz de Fish Audio S2 Pro
curl --request POST \
  --url https://api.highwayapi.ai/v3/fish-audio-s2-pro-text-to-speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "top_p": 123,
  "format": "<string>",
  "latency": "<string>",
  "prosody": {
    "speed": 123,
    "volume": 123,
    "normalize_loudness": true
  },
  "normalize": true,
  "references": [
    {
      "text": "<string>",
      "audio": "<string>"
    }
  ],
  "mp3_bitrate": 123,
  "sample_rate": 123,
  "temperature": 123,
  "chunk_length": 123,
  "opus_bitrate": 123,
  "reference_id": "<string>",
  "max_new_tokens": 123,
  "min_chunk_length": 123,
  "repetition_penalty": 123,
  "early_stop_threshold": 123,
  "condition_on_previous_chunks": true
}
'
El modelo de texto a voz Fish Audio S2 Pro convierte texto en voz natural y admite timbres de referencia, control de muestreo, segmentación, formatos de audio y control de prosodia.

Encabezados de solicitud

Content-Type
string
requerido
Valores enumerados: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text
string
requerido
Texto que debe convertirse en voz. El texto multihablante de S2-Pro puede usar las etiquetas <|speaker:0|>Hola<|speaker:1|>Hola.
top_p
number
Control de diversidad de muestreo por núcleo.Rango de valores: [0, 1]
format
string
predeterminado:"mp3"
Formato de audio de salida.Valores opcionales: wav, pcm, mp3, opus
latency
string
predeterminado:"normal"
Nivel de latencia.Valores opcionales: low, normal, balanced
prosody
object
Control de prosodia.
normalize
boolean
predeterminado:true
Normaliza texto en chino e inglés.
references
array
Muestras de audio de referencia para clonación de voz zero-shot.
mp3_bitrate
integer
predeterminado:128
Tasa de bits de MP3, en kbps.Valores opcionales: 64, 128, 192
sample_rate
integer
Frecuencia de muestreo de salida en Hz. Si está vacío, se usa el valor predeterminado del formato; opus es 48000 Hz y los demás suelen ser 44100 Hz.
temperature
number
Control de expresividad.Rango de valores: [0, 1]
chunk_length
integer
predeterminado:300
Tamaño de segmentación del texto.Rango de valores: [100, 300]
opus_bitrate
integer
Tasa de bits de Opus, en bps; -1000 indica automático.Valores opcionales: -1000, 24000, 32000, 48000, 64000
reference_id
string
ID del modelo de timbre; en escenarios multihablante se puede pasar un arreglo que coincida con los índices de speaker.
max_new_tokens
integer
predeterminado:1024
Número máximo de tokens de audio por cada segmento.
min_chunk_length
integer
predeterminado:50
Número mínimo de caracteres antes de segmentar.Rango de valores: [0, 100]
repetition_penalty
number
Coeficiente de penalización para reducir la repetición de patrones de audio.
early_stop_threshold
number
predeterminado:1
Umbral de detención anticipada.Rango de valores: [0, 1]
condition_on_previous_chunks
boolean
predeterminado:true
Usa segmentos de audio anteriores como contexto.

Información de respuesta

Audio generado. Formato: binary