Synthèse vocale synchrone MiniMax Speech 2.8 HD

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}

POST

minimax-speech-2.8-hd

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}

Convertit du texte en parole, avec prise en charge de plusieurs voix, du contrôle des émotions, du réglage de la vitesse d’élocution, etc. La longueur du texte doit être inférieure à 10000 caractères. Si le texte dépasse 3000 caractères, il est recommandé d’utiliser une sortie en streaming.

En-têtes de requête

Content-Type

string

requis

Valeur énumérée : application/json

Authorization

string

requis

Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

text

string

requis

Texte à synthétiser en parole. La longueur doit être inférieure à 10000 caractères. Si le texte dépasse 3000 caractères, il est recommandé d’utiliser une sortie en streaming. Prend en charge les changements de paragraphe (sauts de ligne), le contrôle des pauses (marqueur <#x#>) et les balises d’interjections (comme (laughs), (coughs), etc., uniquement prises en charge par speech-2.8-hd/turbo)

stream

boolean

défaut:false

Contrôle si la sortie est en streaming. Par défaut : false, c’est-à-dire sans streaming

voice_modify

object

Masquer propriétés

pitch

integer

Ajustement de la hauteur (grave/brillant), plage [-100, 100]. Plus la valeur est proche de -100, plus la voix est grave ; plus elle est proche de 100, plus la voix est brillantePlage de valeurs : [-100, 100]

timbre

integer

Ajustement du timbre (magnétique/cristallin), plage [-100, 100]. Plus la valeur est proche de -100, plus la voix est épaisse ; plus elle est proche de 100, plus la voix est cristallinePlage de valeurs : [-100, 100]

intensity

integer

Ajustement de l’intensité (puissant/doux), plage [-100, 100]. Plus la valeur est proche de -100, plus la voix est ferme ; plus elle est proche de 100, plus la voix est doucePlage de valeurs : [-100, 100]

sound_effects

string

Paramètre d’effet sonore. Un seul effet peut être sélectionné à la fois. Valeurs disponibles : spacious_echo (écho d’espace ouvert), auditorium_echo (diffusion en auditorium), lofi_telephone (distorsion téléphonique), robotic (voix électronique)Valeurs disponibles : spacious_echo, auditorium_echo, lofi_telephone, robotic

audio_setting

object

Masquer propriétés

format

string

défaut:"mp3"

Format de l’audio généré. wav est uniquement pris en charge en sortie non streamingValeurs disponibles : mp3, pcm, flac, wav

bitrate

integer

défaut:128000

Débit binaire de l’audio généré. Plage disponible : [32000, 64000, 128000, 256000], valeur par défaut : 128000. Ce paramètre ne s’applique qu’à l’audio au format mp3Valeurs disponibles : 32000, 64000, 128000, 256000

channel

integer

défaut:1

Nombre de canaux de l’audio généré. Plage disponible : [1, 2], où 1 correspond au mono et 2 au stéréo. Valeur par défaut : 1Valeurs disponibles : 1, 2

force_cbr

boolean

défaut:false

Contrôle du débit binaire constant (cbr) de l’audio. Valeurs disponibles : false, true. Lorsque ce paramètre est défini sur true, l’audio est encodé avec un débit binaire constant. Remarque : ce paramètre ne prend effet que lorsque l’audio est configuré en sortie streaming et que le format audio est mp3

sample_rate

integer

défaut:32000

Taux d’échantillonnage de l’audio généré. Plage disponible : [8000, 16000, 22050, 24000, 32000, 44100], valeur par défaut : 32000Valeurs disponibles : 8000, 16000, 22050, 24000, 32000, 44100

output_format

string

défaut:"hex"

Paramètre contrôlant le format du résultat de sortie. Valeurs disponibles : url, hex ; valeur par défaut : hex. Ce paramètre ne prend effet que dans les scénarios non streaming. Les scénarios streaming ne prennent en charge que le retour au format hex. L’url retournée est valide pendant 24 heuresValeurs disponibles : url, hex

voice_setting

object

Masquer propriétés

vol

number

défaut:1

Volume de l’audio synthétisé. Plus la valeur est élevée, plus le volume est fort. Plage de valeurs : (0, 10], valeur par défaut : 1.0Plage de valeurs : [0, 10]

pitch

integer

défaut:0

Tonalité de l’audio synthétisé. Plage de valeurs : [-12, 12], valeur par défaut : 0, où 0 correspond à la sortie avec la voix d’originePlage de valeurs : [-12, 12]

speed

number

défaut:1

Vitesse d’élocution de l’audio synthétisé. Plus la valeur est élevée, plus la vitesse est rapide. Plage de valeurs : [0.5, 2], valeur par défaut : 1.0Plage de valeurs : [0.5, 2]

emotion

string

Contrôle l’émotion de la voix synthétisée. La plage du paramètre correspond aux 8 émotions suivantes : joie (happy), tristesse (sad), colère (angry), peur (fearful), dégoût (disgusted), surprise (surprised), neutre (calm), vivant (fluent), chuchotement (whisper). Le modèle associe automatiquement une émotion adaptée au texte d’entrée ; en général, il n’est pas nécessaire de la spécifier manuellementValeurs disponibles : happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper

voice_id

string

requis

Identifiant de la voix de l’audio synthétisé. Si vous devez définir une voix mixte, renseignez le paramètre timber_weights et laissez ce paramètre vide. Prend en charge trois types de voix : voix système, voix clonées et voix générées à partir de texte

latex_read

boolean

défaut:false

Contrôle si les formules latex sont lues à voix haute. Par défaut : false. Ne prend en charge que le chinois. Une fois ce paramètre activé, le paramètre language_boost sera défini sur Chinese

text_normalization

boolean

défaut:false

Indique s’il faut activer la normalisation des textes chinois et anglais. Une fois activée, elle peut améliorer les performances dans les scénarios de lecture de nombres, mais augmente légèrement la latence. Valeur par défaut : false

aigc_watermark

boolean

défaut:false

Contrôle l’ajout d’un identifiant rythmique audio à la fin de l’audio synthétisé. Valeur par défaut : false. Ce paramètre ne prend effet que pour la synthèse non streaming

language_boost

string

Indique s’il faut renforcer la capacité de reconnaissance des langues moins répandues et des dialectes spécifiés. Valeur par défaut : null ; peut être défini sur auto pour laisser le modèle déterminer automatiquementValeurs disponibles : Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto

stream_options

object

Masquer propriétés

exclude_aggregated_audio

boolean

défaut:false

Définit si le dernier chunk contient les données audio hex concaténées. Valeur par défaut : false, ce qui signifie que le dernier chunk contient les données hex complètes de l’audio concaténé

timber_weights

array

Paramètres de voix mixte, avec un maximum de 4 voix mélangées

Masquer propriétés

weight

integer

requis

Poids occupé par chaque voix dans l’audio synthétisé ; doit être renseigné en même temps que voice_id. La plage de valeurs disponible est [1, 100]. Jusqu’à 4 voix peuvent être mélangées. Plus la proportion d’une voix unique est élevée, plus la voix synthétisée sera similaire à cette voixPlage de valeurs : [1, 100]

voice_id

string

requis

Identifiant de la voix de l’audio synthétisé ; doit être renseigné en même temps que le paramètre weight. Prend en charge trois types de voix : voix système, voix clonées et voix générées à partir de texte

subtitle_enable

boolean

défaut:false

Contrôle l’activation du service de sous-titres. Valeur par défaut : false. Ce paramètre n’est valide que dans les scénarios de sortie non streaming et uniquement pour les modèles speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd

continuous_sound

boolean

défaut:false

Activez ce paramètre pour rendre les transitions entre propositions plus naturelles. Ne prend en charge que les modèles speech-2.8-hd et speech-2.8-turbo

pronunciation_dict

object

Masquer propriétés

tone

array

Définit les règles de remplacement de la transcription phonétique ou de la prononciation correspondant aux caractères ou symboles nécessitant une annotation spéciale. Dans les textes chinois, les tons sont indiqués par des chiffres : le premier ton par 1, le deuxième par 2, le troisième par 3, le quatrième par 4 et le ton neutre par 5. Exemple : [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]

Informations de réponse

data

object

Objet de données de synthèse retourné, pouvant être null ; une vérification non nulle est requise

trace_id

string

id de cette session, utilisé pour aider à localiser le problème lors d’une demande d’assistance ou d’un retour

base_resp

object

Code d’état et détails de cette requête

extra_info

object

Informations supplémentaires de l’audio

Synthèse vocale asynchrone MiniMax Speech 2.8 HD

Clonage audio rapide MiniMax

​En-têtes de requête

​Corps de la requête

​Informations de réponse

En-têtes de requête

Corps de la requête

Informations de réponse