API TTA Speech 2.6 Turbo | Synthèse vocale haute qualité MiniMax

Synthèse vocale synchrone MiniMax Speech-2.6-turbo

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

import requests

url = "https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo"

payload = {
    "text": "<string>",
    "voice_setting": {
        "speed": 123,
        "vol": 123,
        "pitch": 123,
        "voice_id": "<string>",
        "emotion": "<string>",
        "latex_read": True,
        "text_normalization": True
    },
    "audio_setting": {
        "sample_rate": 123,
        "bitrate": 123,
        "format": "<string>",
        "channel": 123
    },
    "pronunciation_dict": { "tone": [{}] },
    "timbre_weights": [
        {
            "voice_id": "<string>",
            "weight": 123
        }
    ],
    "stream": True,
    "stream_options": { "exclude_aggregated_audio": True },
    "language_boost": "<string>",
    "output_format": "<string>",
    "voice_modify": {
        "pitch": 123,
        "intensity": 123,
        "timbre": 123,
        "sound_effects": "<string>"
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    text: '<string>',
    voice_setting: {
      speed: 123,
      vol: 123,
      pitch: 123,
      voice_id: '<string>',
      emotion: '<string>',
      latex_read: true,
      text_normalization: true
    },
    audio_setting: {sample_rate: 123, bitrate: 123, format: '<string>', channel: 123},
    pronunciation_dict: {tone: [{}]},
    timbre_weights: [{voice_id: '<string>', weight: 123}],
    stream: true,
    stream_options: {exclude_aggregated_audio: true},
    language_boost: '<string>',
    output_format: '<string>',
    voice_modify: {pitch: 123, intensity: 123, timbre: 123, sound_effects: '<string>'}
  })
};

fetch('https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'text' => '<string>',
    'voice_setting' => [
        'speed' => 123,
        'vol' => 123,
        'pitch' => 123,
        'voice_id' => '<string>',
        'emotion' => '<string>',
        'latex_read' => true,
        'text_normalization' => true
    ],
    'audio_setting' => [
        'sample_rate' => 123,
        'bitrate' => 123,
        'format' => '<string>',
        'channel' => 123
    ],
    'pronunciation_dict' => [
        'tone' => [
                [
                                
                ]
        ]
    ],
    'timbre_weights' => [
        [
                'voice_id' => '<string>',
                'weight' => 123
        ]
    ],
    'stream' => true,
    'stream_options' => [
        'exclude_aggregated_audio' => true
    ],
    'language_boost' => '<string>',
    'output_format' => '<string>',
    'voice_modify' => [
        'pitch' => 123,
        'intensity' => 123,
        'timbre' => 123,
        'sound_effects' => '<string>'
    ]
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo"

	payload := strings.NewReader("{\n  \"text\": \"<string>\",\n  \"voice_setting\": {\n    \"speed\": 123,\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"voice_id\": \"<string>\",\n    \"emotion\": \"<string>\",\n    \"latex_read\": true,\n    \"text_normalization\": true\n  },\n  \"audio_setting\": {\n    \"sample_rate\": 123,\n    \"bitrate\": 123,\n    \"format\": \"<string>\",\n    \"channel\": 123\n  },\n  \"pronunciation_dict\": {\n    \"tone\": [\n      {}\n    ]\n  },\n  \"timbre_weights\": [\n    {\n      \"voice_id\": \"<string>\",\n      \"weight\": 123\n    }\n  ],\n  \"stream\": true,\n  \"stream_options\": {\n    \"exclude_aggregated_audio\": true\n  },\n  \"language_boost\": \"<string>\",\n  \"output_format\": \"<string>\",\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"intensity\": 123,\n    \"timbre\": 123,\n    \"sound_effects\": \"<string>\"\n  }\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"text\": \"<string>\",\n  \"voice_setting\": {\n    \"speed\": 123,\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"voice_id\": \"<string>\",\n    \"emotion\": \"<string>\",\n    \"latex_read\": true,\n    \"text_normalization\": true\n  },\n  \"audio_setting\": {\n    \"sample_rate\": 123,\n    \"bitrate\": 123,\n    \"format\": \"<string>\",\n    \"channel\": 123\n  },\n  \"pronunciation_dict\": {\n    \"tone\": [\n      {}\n    ]\n  },\n  \"timbre_weights\": [\n    {\n      \"voice_id\": \"<string>\",\n      \"weight\": 123\n    }\n  ],\n  \"stream\": true,\n  \"stream_options\": {\n    \"exclude_aggregated_audio\": true\n  },\n  \"language_boost\": \"<string>\",\n  \"output_format\": \"<string>\",\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"intensity\": 123,\n    \"timbre\": 123,\n    \"sound_effects\": \"<string>\"\n  }\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"text\": \"<string>\",\n  \"voice_setting\": {\n    \"speed\": 123,\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"voice_id\": \"<string>\",\n    \"emotion\": \"<string>\",\n    \"latex_read\": true,\n    \"text_normalization\": true\n  },\n  \"audio_setting\": {\n    \"sample_rate\": 123,\n    \"bitrate\": 123,\n    \"format\": \"<string>\",\n    \"channel\": 123\n  },\n  \"pronunciation_dict\": {\n    \"tone\": [\n      {}\n    ]\n  },\n  \"timbre_weights\": [\n    {\n      \"voice_id\": \"<string>\",\n      \"weight\": 123\n    }\n  ],\n  \"stream\": true,\n  \"stream_options\": {\n    \"exclude_aggregated_audio\": true\n  },\n  \"language_boost\": \"<string>\",\n  \"output_format\": \"<string>\",\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"intensity\": 123,\n    \"timbre\": 123,\n    \"sound_effects\": \"<string>\"\n  }\n}"

response = http.request(request)
puts response.read_body

{
  "audio": "<string>",
  "status": 123
}

POST

minimax-speech-2.6-turbo

Synthèse vocale synchrone MiniMax Speech-2.6-turbo

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

import requests

url = "https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo"

payload = {
    "text": "<string>",
    "voice_setting": {
        "speed": 123,
        "vol": 123,
        "pitch": 123,
        "voice_id": "<string>",
        "emotion": "<string>",
        "latex_read": True,
        "text_normalization": True
    },
    "audio_setting": {
        "sample_rate": 123,
        "bitrate": 123,
        "format": "<string>",
        "channel": 123
    },
    "pronunciation_dict": { "tone": [{}] },
    "timbre_weights": [
        {
            "voice_id": "<string>",
            "weight": 123
        }
    ],
    "stream": True,
    "stream_options": { "exclude_aggregated_audio": True },
    "language_boost": "<string>",
    "output_format": "<string>",
    "voice_modify": {
        "pitch": 123,
        "intensity": 123,
        "timbre": 123,
        "sound_effects": "<string>"
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    text: '<string>',
    voice_setting: {
      speed: 123,
      vol: 123,
      pitch: 123,
      voice_id: '<string>',
      emotion: '<string>',
      latex_read: true,
      text_normalization: true
    },
    audio_setting: {sample_rate: 123, bitrate: 123, format: '<string>', channel: 123},
    pronunciation_dict: {tone: [{}]},
    timbre_weights: [{voice_id: '<string>', weight: 123}],
    stream: true,
    stream_options: {exclude_aggregated_audio: true},
    language_boost: '<string>',
    output_format: '<string>',
    voice_modify: {pitch: 123, intensity: 123, timbre: 123, sound_effects: '<string>'}
  })
};

fetch('https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'text' => '<string>',
    'voice_setting' => [
        'speed' => 123,
        'vol' => 123,
        'pitch' => 123,
        'voice_id' => '<string>',
        'emotion' => '<string>',
        'latex_read' => true,
        'text_normalization' => true
    ],
    'audio_setting' => [
        'sample_rate' => 123,
        'bitrate' => 123,
        'format' => '<string>',
        'channel' => 123
    ],
    'pronunciation_dict' => [
        'tone' => [
                [
                                
                ]
        ]
    ],
    'timbre_weights' => [
        [
                'voice_id' => '<string>',
                'weight' => 123
        ]
    ],
    'stream' => true,
    'stream_options' => [
        'exclude_aggregated_audio' => true
    ],
    'language_boost' => '<string>',
    'output_format' => '<string>',
    'voice_modify' => [
        'pitch' => 123,
        'intensity' => 123,
        'timbre' => 123,
        'sound_effects' => '<string>'
    ]
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo"

	payload := strings.NewReader("{\n  \"text\": \"<string>\",\n  \"voice_setting\": {\n    \"speed\": 123,\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"voice_id\": \"<string>\",\n    \"emotion\": \"<string>\",\n    \"latex_read\": true,\n    \"text_normalization\": true\n  },\n  \"audio_setting\": {\n    \"sample_rate\": 123,\n    \"bitrate\": 123,\n    \"format\": \"<string>\",\n    \"channel\": 123\n  },\n  \"pronunciation_dict\": {\n    \"tone\": [\n      {}\n    ]\n  },\n  \"timbre_weights\": [\n    {\n      \"voice_id\": \"<string>\",\n      \"weight\": 123\n    }\n  ],\n  \"stream\": true,\n  \"stream_options\": {\n    \"exclude_aggregated_audio\": true\n  },\n  \"language_boost\": \"<string>\",\n  \"output_format\": \"<string>\",\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"intensity\": 123,\n    \"timbre\": 123,\n    \"sound_effects\": \"<string>\"\n  }\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"text\": \"<string>\",\n  \"voice_setting\": {\n    \"speed\": 123,\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"voice_id\": \"<string>\",\n    \"emotion\": \"<string>\",\n    \"latex_read\": true,\n    \"text_normalization\": true\n  },\n  \"audio_setting\": {\n    \"sample_rate\": 123,\n    \"bitrate\": 123,\n    \"format\": \"<string>\",\n    \"channel\": 123\n  },\n  \"pronunciation_dict\": {\n    \"tone\": [\n      {}\n    ]\n  },\n  \"timbre_weights\": [\n    {\n      \"voice_id\": \"<string>\",\n      \"weight\": 123\n    }\n  ],\n  \"stream\": true,\n  \"stream_options\": {\n    \"exclude_aggregated_audio\": true\n  },\n  \"language_boost\": \"<string>\",\n  \"output_format\": \"<string>\",\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"intensity\": 123,\n    \"timbre\": 123,\n    \"sound_effects\": \"<string>\"\n  }\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"text\": \"<string>\",\n  \"voice_setting\": {\n    \"speed\": 123,\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"voice_id\": \"<string>\",\n    \"emotion\": \"<string>\",\n    \"latex_read\": true,\n    \"text_normalization\": true\n  },\n  \"audio_setting\": {\n    \"sample_rate\": 123,\n    \"bitrate\": 123,\n    \"format\": \"<string>\",\n    \"channel\": 123\n  },\n  \"pronunciation_dict\": {\n    \"tone\": [\n      {}\n    ]\n  },\n  \"timbre_weights\": [\n    {\n      \"voice_id\": \"<string>\",\n      \"weight\": 123\n    }\n  ],\n  \"stream\": true,\n  \"stream_options\": {\n    \"exclude_aggregated_audio\": true\n  },\n  \"language_boost\": \"<string>\",\n  \"output_format\": \"<string>\",\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"intensity\": 123,\n    \"timbre\": 123,\n    \"sound_effects\": \"<string>\"\n  }\n}"

response = http.request(request)
puts response.read_body

{
  "audio": "<string>",
  "status": 123
}

Cette API prend en charge la génération synchrone de texte en parole, avec un maximum de 10000 caractères par transmission de texte. Elle prend en charge plus de 100 timbres système et la sélection autonome de timbres clonés ; le réglage du volume, de l’intonation, de la vitesse et du format de sortie ; le mixage proportionnel, le contrôle d’intervalles fixes ; ainsi que plusieurs spécifications et formats audio, notamment : mp3, pcm, flac, wav, avec prise en charge de la sortie en streaming. Après avoir soumis une demande de synthèse vocale de texte long, veuillez noter que l’URL renvoyée est valide pendant 24 heures à partir de son retour. Veillez à télécharger les informations dans les délais.

Convient aux scénarios tels que la génération de phrases courtes, le chat vocal et les réseaux sociaux en ligne. Le temps de traitement est court, mais la limite de longueur du texte est inférieure à 10000 caractères. Pour les textes longs, il est recommandé d’utiliser l’appel asynchrone de synthèse vocale.

En-têtes de requête

string

requis

Valeur énumérée : application/json

string

requis

Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

string

requis

Texte à synthétiser, longueur limitée à moins de 10000 caractères ; les changements de paragraphe doivent être remplacés par des retours à la ligne. (Si vous devez contrôler l’intervalle dans la voix, ajoutez <#x#> entre les caractères, où x est en secondes, avec une plage prise en charge de 0.01 à 99.99 et jusqu’à deux décimales). Prend en charge la personnalisation de l’intervalle vocal entre les textes, afin d’obtenir un effet de pause vocale personnalisé. Notez que l’intervalle entre les textes doit être défini entre deux textes pouvant être prononcés, et qu’il n’est pas possible de définir plusieurs intervalles consécutifs.

object

requis

Afficher properties

float

défaut:"1.0"

Plage [0.5,2], valeur par défaut : 1.0Vitesse de parole de la voix générée. Facultatif. Plus la valeur est élevée, plus la vitesse de parole est rapide.

float

défaut:"1.0"

Plage（0,10], valeur par défaut : 1.0Volume de la voix générée. Facultatif. Plus la valeur est élevée, plus le volume est haut.

int

défaut:"0"

Plage [-12,12], valeur par défaut : 0Intonation de la voix générée. Facultatif. (0 correspond à la sortie du timbre original ; la valeur doit être un entier).

string

Identifiant du timbre demandé. Obligatoire, au choix avec timbre_weights.Prend en charge deux types : les timbres système (id) et les timbres clonés (id). Les timbres système (ID) sont les suivants :

Timbre jeune homme timide : male-qn-qingse
Timbre jeune homme élite : male-qn-jingying
Timbre jeune homme autoritaire : male-qn-badao
Timbre jeune étudiant universitaire : male-qn-daxuesheng
Timbre jeune fille : female-shaonv
Timbre femme affirmée : female-yujie
Timbre femme mature : female-chengshu
Timbre femme douce : female-tianmei
Présentateur masculin : presenter_male
Présentatrice féminine : presenter_female
Livre audio masculin 1 : audiobook_male_1
Livre audio masculin 2 : audiobook_male_2
Livre audio féminin 1 : audiobook_female_1
Livre audio féminin 2 : audiobook_female_2
Timbre jeune homme timide-beta : male-qn-qingse-jingpin
Timbre jeune homme élite-beta : male-qn-jingying-jingpin
Timbre jeune homme autoritaire-beta : male-qn-badao-jingpin
Timbre jeune étudiant universitaire-beta : male-qn-daxuesheng-jingpin
Timbre jeune fille-beta : female-shaonv-jingpin
Timbre femme affirmée-beta : female-yujie-jingpin
Timbre femme mature-beta : female-chengshu-jingpin
Timbre femme douce-beta : female-tianmei-jingpin
Garçon intelligent : clever_boy
Garçon mignon : cute_boy
Petite fille adorable : lovely_girl
Cochon de dessin animé Xiaoqi : cartoon_pig
Petit frère yandere : bingjiao_didi
Petit ami séduisant : junlang_nanyou
Cadet innocent : chunzhen_xuedi
Aîné distant : lengdan_xiongzhang
Jeune maître autoritaire : badao_shaoye
Petite Ling chérie : tianxin_xiaoling
Petite sœur espiègle et mignonne : qiaopi_mengmei
Femme affirmée séduisante : wumei_yujie
Cadette minaudière : diadia_xuemei
Aînée élégante : danya_xuejie
Santa Claus : Santa_Claus
Grinch : Grinch
Rudolph : Rudolph
Arnold : Arnold
Charming Santa : Charming_Santa
Charming Lady : Charming_Lady
Sweet Girl : Sweet_Girl
Cute Elf : Cute_Elf
Attractive Girl : Attractive_Girl
Serene Woman : Serene_Woman

string

Contrôle l’émotion de la voix synthétisée ;7 émotions sont actuellement prises en charge : joie, tristesse, colère, peur, dégoût, surprise, neutralité ;Plage du paramètre : ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

bool

défaut:"false"

Contrôle la prise en charge de la lecture des formules latex. Valeur par défaut : false.À noter :

Les formules dans la requête doivent être encadrées par $$ au début et à la fin ;
Si une formule dans la requête contient "", il faut l’échapper en ”\”.

Exemple : la formule de base de la dérivée est $$\\frac{d}{dx}(x^n) = nx^{n-1}$$

bool

défaut:"false"

Ce paramètre prend en charge la normalisation du texte anglais, ce qui peut améliorer les performances dans les scénarios de lecture de nombres, mais augmente légèrement la latence. S’il n’est pas fourni, la valeur par défaut est false.

object

Afficher properties

int

défaut:"32000"

Plage 【8000，16000，22050，24000，32000，44100】Taux d’échantillonnage de la voix générée. Facultatif, valeur par défaut : 32000.

int

défaut:"128000"

Plage 【32000，64000，128000，256000】Débit binaire de la voix générée. Facultatif, valeur par défaut : 128000. Ce paramètre ne s’applique qu’à l’audio au format mp3.

string

défaut:"mp3"

Format audio généré. Par défaut : mp3, plage [mp3,pcm,flac,wav]. wav n’est pris en charge qu’en sortie non streaming.

int

défaut:"1"

Nombre de canaux de l’audio généré. Par défaut 1 : mono, options :1 : mono2 : stéréo

object

Afficher properties

list

Remplace les textes, symboles et transcriptions phonétiques correspondantes nécessitant une annotation spéciale.Remplacement de prononciation (ajustement du ton/remplacement de la prononciation d’autres caractères), au format suivant :["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]Les tons sont indiqués par des chiffres : le premier ton（阴平）est 1, le deuxième ton（阳平）est 2, le troisième ton（上声）est 3, le quatrième ton（去声）est 4, et le ton neutre est 5.

object[]

Obligatoire au choix avec voice_id

Afficher properties

string

ID du timbre demandé. Doit être renseigné en même temps que le paramètre weight.

int

Plage [1,100]Poids, à renseigner en même temps que voice_id. Prend en charge le mélange de jusqu’à 4 timbres. La valeur doit être un entier ; plus la proportion d’un timbre unique est élevée, plus le timbre synthétisé lui ressemble.

boolean

défaut:"false"

Indique s’il s’agit d’un streaming. Valeur par défaut : false, c’est-à-dire que le streaming n’est pas activé.

object

Afficher properties

boolean

défaut:"false"

Lorsque ce paramètre est défini sur True, le dernier chunk du streaming ne contiendra pas les données hex de la voix complète concaténée. Par défaut : False, c’est-à-dire que le dernier chunk contient les données hex de la voix complète concaténée.

string

défaut:"null"

Renforce la capacité de reconnaissance pour les langues minoritaires et dialectes spécifiés. Une fois défini, ce paramètre peut améliorer les performances vocales dans les scénarios de langues minoritaires/dialectes spécifiés. Si le type de langue minoritaire n’est pas clair, vous pouvez sélectionner “auto” ; le modèle déterminera alors automatiquement le type de langue minoritaire. Les valeurs suivantes sont prises en charge :

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

string

défaut:"hex"

Paramètre contrôlant la forme du résultat de sortie. Valeurs possibles : url hex. Valeur par défaut : hex. Ce paramètre ne prend effet que dans les scénarios non streaming ; les scénarios streaming ne prennent en charge que le retour au format hex. L’URL renvoyée est valide pendant 24 heures.

object

Paramètres d’effets vocaux. Formats audio pris en charge par ce paramètre :

Non streaming : mp3, wav, flac
Streaming : mp3

Afficher properties

integer

Ajustement de la hauteur (grave/brillant), plage [-100,100]. Plus la valeur est proche de -100, plus la voix est grave ; plus elle est proche de 100, plus la voix est brillante.

integer

Ajustement de l’intensité (puissance/douceur), plage [-100,100]. Plus la valeur est proche de -100, plus la voix est ferme ; plus elle est proche de 100, plus la voix est douce.

integer

Ajustement du timbre (magnétique/clair), plage [-100,100]. Plus la valeur est proche de -100, plus la voix est profonde ; plus elle est proche de 100, plus la voix est claire.

string

Paramètres d’effet sonore. Une seule option peut être sélectionnée par requête. Valeurs possibles :

spacious_echo（écho dans un grand espace）
auditorium_echo（diffusion de salle）
lofi_telephone（distorsion téléphonique）
robotic（voix électronique）

Informations de réponse

string

Segment audio synthétisé, encodé en hex, généré selon le format défini en entrée (audio_setting.format) (mp3/pcm/flac). La forme renvoyée dépend de la définition de output_format ; lorsque stream vaut true, seule la forme de retour hex est prise en charge.

number

État actuel du flux audio, renvoyé uniquement lorsque stream vaut true. 1 indique que la synthèse est en cours, 2 indique que la synthèse est terminée.

Synthèse vocale asynchrone MiniMax Speech-2.6-hd

Synthèse vocale asynchrone MiniMax Speech-2.6-turbo

Bases de l'API

Grands modèles de langage

Images

Vidéo

Audio

Synthèse vocale synchrone MiniMax Speech-2.6-turbo

En-têtes de requête

Corps de la requête

Informations de réponse

​En-têtes de requête

​Corps de la requête

​Informations de réponse

En-têtes de requête

Corps de la requête

Informations de réponse