Saltar al contenido principal
POST
/
v4beta
/
txt2speech
Síntesis de voz de Fish Audio
curl --request POST \
  --url https://api.highwayapi.ai/v4beta/txt2speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "temperature": 123,
  "top_p": 123,
  "references": {
    "text": "<string>"
  },
  "reference_id": {},
  "prosody": {
    "speed": 123,
    "volume": 123
  },
  "chunk_length": 123,
  "normalize": true,
  "format": {},
  "sample_rate": {},
  "mp3_bitrate": {},
  "opus_bitrate": {},
  "latency": {}
}
'
Para obtener los mejores resultados, se recomienda usar clonación de voz para subir audio de referencia antes de utilizar esta API. Esto mejorará la calidad de la voz y reducirá la latencia.
Fish Audio convierte texto en voz. Formatos de audio compatibles:
  • WAV / PCM
    • Frecuencia de muestreo: 8kHz, 16kHz, 24kHz, 32kHz, 44.1kHz
    • Frecuencia de muestreo predeterminada: 44.1kHz
    • 16-bit, mono
  • MP3
    • Frecuencia de muestreo: 32kHz, 44.1kHz
    • Frecuencia de muestreo predeterminada: 44.1kHz
    • Mono
    • Tasa de bits: 64kbps, 128kbps (predeterminada), 192kbps
  • Opus
    • Frecuencia de muestreo: 48kHz
    • Frecuencia de muestreo predeterminada: 48kHz
    • Mono
    • Tasa de bits: -1000 (automática), 24kbps, 32kbps (predeterminada), 48kbps, 64kbps

Encabezados de solicitud

Content-Type
string
requerido
Valores enumerados: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

text
string
requerido
Texto que se convertirá en voz.
temperature
number
Controla la aleatoriedad de la generación de voz. Los valores más altos (por ejemplo, 1.0) hacen que la salida sea más aleatoria, mientras que los valores más bajos (por ejemplo, 0.1) la hacen más determinista. Recomendamos usar 0.9 para el modelo s1.Rango requerido: 0 <= x <= 1
top_p
number
Controla la diversidad mediante muestreo de núcleo. Los valores más bajos (por ejemplo, 0.1) hacen que la salida esté más enfocada, mientras que los valores más altos (por ejemplo, 1.0) permiten mayor diversidad. Recomendamos usar 0.9 para el modelo s1.Rango requerido: 0 <= x <= 1
references
ReferenceAudio · object[] | null
Audio de referencia para la voz; esto requiere serialización MessagePack y sobrescribirá reference_voices y reference_texts.
reference_id
string | null
ID del modelo de referencia utilizado para la voz.
prosody
ProsodyControl · object
Control de prosodia utilizado para la voz.
chunk_length
integer
predeterminado:200
Longitud de fragmentación utilizada para la voz.Rango requerido: 100 <= x <= 300
normalize
boolean
predeterminado:true
Indica si se debe normalizar la voz; esto reducirá la latencia, pero puede disminuir el rendimiento al procesar números y fechas.
format
enum<string>
predeterminado:"mp3"
Formato utilizado para la voz.Valores opcionales: wav, pcm, mp3, opus
sample_rate
integer | null
Frecuencia de muestreo utilizada para la voz.
mp3_bitrate
enum<integer>
predeterminado:128
Tasa de bits MP3 utilizada para la voz.Valores opcionales: 64, 128, 192
opus_bitrate
enum<integer>
predeterminado:32
Tasa de bits Opus utilizada para la voz.Valores opcionales: -1000, 24, 32, 48, 64
latency
enum<string>
predeterminado:"normal"
Configuración de latencia utilizada para la voz; balanced reducirá la latencia, pero puede provocar una disminución del rendimiento.Valores opcionales: normal, balanced

Información de respuesta

La API devolverá directamente un flujo de audio en el formato especificado por el parámetro format (predeterminado: mp3).