API de synthèse vocale

Synthèse vocale Fish Audio

curl --request POST \
  --url https://api.highwayapi.ai/v4beta/txt2speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "temperature": 123,
  "top_p": 123,
  "references": {
    "text": "<string>"
  },
  "reference_id": {},
  "prosody": {
    "speed": 123,
    "volume": 123
  },
  "chunk_length": 123,
  "normalize": true,
  "format": {},
  "sample_rate": {},
  "mp3_bitrate": {},
  "opus_bitrate": {},
  "latency": {}
}
'

import requests

url = "https://api.highwayapi.ai/v4beta/txt2speech"

payload = {
    "text": "<string>",
    "temperature": 123,
    "top_p": 123,
    "references": { "text": "<string>" },
    "reference_id": {},
    "prosody": {
        "speed": 123,
        "volume": 123
    },
    "chunk_length": 123,
    "normalize": True,
    "format": {},
    "sample_rate": {},
    "mp3_bitrate": {},
    "opus_bitrate": {},
    "latency": {}
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    text: '<string>',
    temperature: 123,
    top_p: 123,
    references: {text: '<string>'},
    reference_id: {},
    prosody: {speed: 123, volume: 123},
    chunk_length: 123,
    normalize: true,
    format: {},
    sample_rate: {},
    mp3_bitrate: {},
    opus_bitrate: {},
    latency: {}
  })
};

fetch('https://api.highwayapi.ai/v4beta/txt2speech', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v4beta/txt2speech",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'text' => '<string>',
    'temperature' => 123,
    'top_p' => 123,
    'references' => [
        'text' => '<string>'
    ],
    'reference_id' => [
        
    ],
    'prosody' => [
        'speed' => 123,
        'volume' => 123
    ],
    'chunk_length' => 123,
    'normalize' => true,
    'format' => [
        
    ],
    'sample_rate' => [
        
    ],
    'mp3_bitrate' => [
        
    ],
    'opus_bitrate' => [
        
    ],
    'latency' => [
        
    ]
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v4beta/txt2speech"

	payload := strings.NewReader("{\n  \"text\": \"<string>\",\n  \"temperature\": 123,\n  \"top_p\": 123,\n  \"references\": {\n    \"text\": \"<string>\"\n  },\n  \"reference_id\": {},\n  \"prosody\": {\n    \"speed\": 123,\n    \"volume\": 123\n  },\n  \"chunk_length\": 123,\n  \"normalize\": true,\n  \"format\": {},\n  \"sample_rate\": {},\n  \"mp3_bitrate\": {},\n  \"opus_bitrate\": {},\n  \"latency\": {}\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v4beta/txt2speech")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"text\": \"<string>\",\n  \"temperature\": 123,\n  \"top_p\": 123,\n  \"references\": {\n    \"text\": \"<string>\"\n  },\n  \"reference_id\": {},\n  \"prosody\": {\n    \"speed\": 123,\n    \"volume\": 123\n  },\n  \"chunk_length\": 123,\n  \"normalize\": true,\n  \"format\": {},\n  \"sample_rate\": {},\n  \"mp3_bitrate\": {},\n  \"opus_bitrate\": {},\n  \"latency\": {}\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v4beta/txt2speech")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"text\": \"<string>\",\n  \"temperature\": 123,\n  \"top_p\": 123,\n  \"references\": {\n    \"text\": \"<string>\"\n  },\n  \"reference_id\": {},\n  \"prosody\": {\n    \"speed\": 123,\n    \"volume\": 123\n  },\n  \"chunk_length\": 123,\n  \"normalize\": true,\n  \"format\": {},\n  \"sample_rate\": {},\n  \"mp3_bitrate\": {},\n  \"opus_bitrate\": {},\n  \"latency\": {}\n}"

response = http.request(request)
puts response.read_body

POST

v4beta

txt2speech

Synthèse vocale Fish Audio

curl --request POST \
  --url https://api.highwayapi.ai/v4beta/txt2speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "temperature": 123,
  "top_p": 123,
  "references": {
    "text": "<string>"
  },
  "reference_id": {},
  "prosody": {
    "speed": 123,
    "volume": 123
  },
  "chunk_length": 123,
  "normalize": true,
  "format": {},
  "sample_rate": {},
  "mp3_bitrate": {},
  "opus_bitrate": {},
  "latency": {}
}
'

import requests

url = "https://api.highwayapi.ai/v4beta/txt2speech"

payload = {
    "text": "<string>",
    "temperature": 123,
    "top_p": 123,
    "references": { "text": "<string>" },
    "reference_id": {},
    "prosody": {
        "speed": 123,
        "volume": 123
    },
    "chunk_length": 123,
    "normalize": True,
    "format": {},
    "sample_rate": {},
    "mp3_bitrate": {},
    "opus_bitrate": {},
    "latency": {}
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    text: '<string>',
    temperature: 123,
    top_p: 123,
    references: {text: '<string>'},
    reference_id: {},
    prosody: {speed: 123, volume: 123},
    chunk_length: 123,
    normalize: true,
    format: {},
    sample_rate: {},
    mp3_bitrate: {},
    opus_bitrate: {},
    latency: {}
  })
};

fetch('https://api.highwayapi.ai/v4beta/txt2speech', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v4beta/txt2speech",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'text' => '<string>',
    'temperature' => 123,
    'top_p' => 123,
    'references' => [
        'text' => '<string>'
    ],
    'reference_id' => [
        
    ],
    'prosody' => [
        'speed' => 123,
        'volume' => 123
    ],
    'chunk_length' => 123,
    'normalize' => true,
    'format' => [
        
    ],
    'sample_rate' => [
        
    ],
    'mp3_bitrate' => [
        
    ],
    'opus_bitrate' => [
        
    ],
    'latency' => [
        
    ]
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v4beta/txt2speech"

	payload := strings.NewReader("{\n  \"text\": \"<string>\",\n  \"temperature\": 123,\n  \"top_p\": 123,\n  \"references\": {\n    \"text\": \"<string>\"\n  },\n  \"reference_id\": {},\n  \"prosody\": {\n    \"speed\": 123,\n    \"volume\": 123\n  },\n  \"chunk_length\": 123,\n  \"normalize\": true,\n  \"format\": {},\n  \"sample_rate\": {},\n  \"mp3_bitrate\": {},\n  \"opus_bitrate\": {},\n  \"latency\": {}\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v4beta/txt2speech")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"text\": \"<string>\",\n  \"temperature\": 123,\n  \"top_p\": 123,\n  \"references\": {\n    \"text\": \"<string>\"\n  },\n  \"reference_id\": {},\n  \"prosody\": {\n    \"speed\": 123,\n    \"volume\": 123\n  },\n  \"chunk_length\": 123,\n  \"normalize\": true,\n  \"format\": {},\n  \"sample_rate\": {},\n  \"mp3_bitrate\": {},\n  \"opus_bitrate\": {},\n  \"latency\": {}\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v4beta/txt2speech")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"text\": \"<string>\",\n  \"temperature\": 123,\n  \"top_p\": 123,\n  \"references\": {\n    \"text\": \"<string>\"\n  },\n  \"reference_id\": {},\n  \"prosody\": {\n    \"speed\": 123,\n    \"volume\": 123\n  },\n  \"chunk_length\": 123,\n  \"normalize\": true,\n  \"format\": {},\n  \"sample_rate\": {},\n  \"mp3_bitrate\": {},\n  \"opus_bitrate\": {},\n  \"latency\": {}\n}"

response = http.request(request)
puts response.read_body

Pour obtenir les meilleurs résultats, il est recommandé d’utiliser d’abord le clonage audio pour téléverser un audio de référence avant d’utiliser cette API. Cela améliorera la qualité vocale et réduira la latence.

Fish Audio convertit du texte en parole. Formats audio pris en charge :

WAV / PCM
- Fréquence d’échantillonnage : 8kHz, 16kHz, 24kHz, 32kHz, 44.1kHz
- Fréquence d’échantillonnage par défaut : 44.1kHz
- 16-bit, mono
MP3
- Fréquence d’échantillonnage : 32kHz, 44.1kHz
- Fréquence d’échantillonnage par défaut : 44.1kHz
- Mono
- Débit binaire : 64kbps, 128kbps (par défaut), 192kbps
Opus
- Fréquence d’échantillonnage : 48kHz
- Fréquence d’échantillonnage par défaut : 48kHz
- Mono
- Débit binaire : -1000 (automatique), 24kbps, 32kbps (par défaut), 48kbps, 64kbps

En-têtes de requête

string

requis

Valeur énumérée : application/json

string

requis

Format d’authentification Bearer : Bearer {{clé API}}.

Corps de la requête

string

requis

Texte à convertir en parole.

number

Contrôle le caractère aléatoire de la génération vocale. Des valeurs plus élevées (par exemple 1.0) rendent la sortie plus aléatoire, tandis que des valeurs plus faibles (par exemple 0.1) la rendent plus déterministe. Nous recommandons d’utiliser 0.9 pour le modèle s1.Plage requise : 0 <= x <= 1

number

Contrôle la diversité via l’échantillonnage par noyau. Des valeurs plus faibles (par exemple 0.1) rendent la sortie plus concentrée, tandis que des valeurs plus élevées (par exemple 1.0) permettent davantage de diversité. Nous recommandons d’utiliser 0.9 pour le modèle s1.Plage requise : 0 <= x <= 1

ReferenceAudio · object[] | null

Audio de référence à utiliser pour la voix ; cela nécessite une sérialisation MessagePack et remplacera reference_voices et reference_texts.

Afficher propriétés

file

requis

Fichier audio de référence.

string

requis

Texte de référence correspondant à l’audio.

string | null

ID du modèle de référence à utiliser pour la voix.

ProsodyControl · object

Contrôle de la prosodie à utiliser pour la voix.

Afficher propriétés

number

défaut:1

Contrôle de la vitesse de la parole.

number

défaut:0

Contrôle du volume de la parole.

integer

défaut:200

Longueur des blocs à utiliser pour la voix.Plage requise : 100 <= x <= 300

boolean

défaut:true

Indique s’il faut normaliser la voix, ce qui réduira la latence, mais peut dégrader les performances de traitement des nombres et des dates.

enum<string>

défaut:"mp3"

Format à utiliser pour la voix.Valeurs possibles : wav, pcm, mp3, opus

integer | null

Fréquence d’échantillonnage à utiliser pour la voix.

enum<integer>

défaut:128

Débit binaire MP3 à utiliser pour la voix.Valeurs possibles : 64, 128, 192

enum<integer>

défaut:32

Débit binaire Opus à utiliser pour la voix.Valeurs possibles : -1000, 24, 32, 48, 64

enum<string>

défaut:"normal"

Paramètre de latence à utiliser pour la voix ; balanced réduira la latence, mais peut entraîner une baisse des performances.Valeurs possibles : normal, balanced

Informations de réponse

L’API renverra directement un flux audio au format spécifié par le paramètre format (par défaut : mp3).

Synthèse vocale Fish Audio S2 Pro

Clonage audio Fish Audio

Bases de l'API

Grands modèles de langage

Images

Vidéo

Audio

Synthèse vocale Fish Audio

En-têtes de requête

Corps de la requête

Informations de réponse

​En-têtes de requête

​Corps de la requête

​Informations de réponse

En-têtes de requête

Corps de la requête

Informations de réponse