API TTA Speech 02 Turbo | Synthèse vocale haute qualité MiniMax

Synthèse vocale synchrone MiniMax Speech-02-turbo

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-02-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "audio": "<string>",
  "status": 123
}

POST

minimax-speech-02-turbo

Synthèse vocale synchrone MiniMax Speech-02-turbo

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-02-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "audio": "<string>",
  "status": 123
}

Cette API prend en charge la génération synchrone de voix à partir de texte, avec un maximum de 10000 caractères par transmission de texte. Elle prend en charge plus de 100 voix système ainsi que la sélection autonome de voix clonées ; le réglage du volume, de l’intonation, de la vitesse et du format de sortie ; le mixage proportionnel de plusieurs timbres et le contrôle d’intervalles fixes ; plusieurs spécifications et formats audio, notamment : mp3, pcm, flac, wav, ainsi que la sortie en streaming. Après l’envoi d’une requête de synthèse vocale de texte long, veuillez noter que l’URL retournée est valide pendant 24 heures à compter de son retour. Veuillez tenir compte de ce délai pour télécharger les informations.

Convient aux scénarios tels que la génération de phrases courtes, le chat vocal et les interactions sociales en ligne. Le temps de traitement est court, mais la longueur du texte est limitée à moins de 10000 caractères. Pour les textes longs, il est recommandé d’utiliser l’appel asynchrone de synthèse vocale.

En-têtes de requête

Content-Type

string

requis

Valeur énumérée : application/json

Authorization

string

requis

Format d’authentification Bearer : Bearer {{clé API}}.

Corps de la requête

text

string

requis

Texte à synthétiser, avec une longueur limitée à moins de 10000 caractères. Les changements de paragraphe doivent être remplacés par des retours à la ligne. (Si vous devez contrôler les intervalles dans la voix, ajoutez <#x#> entre les caractères ; x est exprimé en secondes, avec une plage prise en charge de 0.01 à 99.99 et au maximum deux décimales). Les intervalles vocaux personnalisés entre textes sont pris en charge afin de créer des pauses personnalisées dans la synthèse vocale. Notez que l’intervalle entre textes doit être défini entre deux segments de texte pouvant être prononcés, et que plusieurs intervalles consécutifs ne peuvent pas être définis.

voice_setting

object

requis

Afficher propriétés

speed

float

défaut:"1.0"

Plage [0.5,2], valeur par défaut : 1.0Vitesse de parole de la voix générée. Facultatif. Plus la valeur est élevée, plus la vitesse de parole est rapide.

vol

float

défaut:"1.0"

Plage (0,10], valeur par défaut : 1.0Volume de la voix générée. Facultatif. Plus la valeur est élevée, plus le volume est fort.

pitch

int

défaut:"0"

Plage [-12,12], valeur par défaut : 0Intonation de la voix générée. Facultatif. (0 correspond à la sortie du timbre original ; la valeur doit être un entier).

voice_id

string

Identifiant du timbre vocal demandé. L’un des deux champs voice_id ou timbre_weights est “obligatoire”.Deux types sont pris en charge : les timbres système (id) et les timbres clonés (id). Les timbres système (ID) sont les suivants :

Voix de jeune homme ingénu : male-qn-qingse
Voix de jeune homme élite : male-qn-jingying
Voix de jeune homme dominateur : male-qn-badao
Voix de jeune étudiant universitaire : male-qn-daxuesheng
Voix de jeune fille : female-shaonv
Voix de femme mature et assurée : female-yujie
Voix de femme adulte : female-chengshu
Voix de femme douce : female-tianmei
Présentateur masculin : presenter_male
Présentatrice féminine : presenter_female
Livre audio masculin 1 : audiobook_male_1
Livre audio masculin 2 : audiobook_male_2
Livre audio féminin 1 : audiobook_female_1
Livre audio féminin 2 : audiobook_female_2
Voix de jeune homme ingénu-beta : male-qn-qingse-jingpin
Voix de jeune homme élite-beta : male-qn-jingying-jingpin
Voix de jeune homme dominateur-beta : male-qn-badao-jingpin
Voix de jeune étudiant universitaire-beta : male-qn-daxuesheng-jingpin
Voix de jeune fille-beta : female-shaonv-jingpin
Voix de femme mature et assurée-beta : female-yujie-jingpin
Voix de femme adulte-beta : female-chengshu-jingpin
Voix de femme douce-beta : female-tianmei-jingpin
Petit garçon intelligent : clever_boy
Petit garçon mignon : cute_boy
Petite fille adorable : lovely_girl
Cochon de dessin animé Xiaoqi : cartoon_pig
Petit frère yandere : bingjiao_didi
Petit ami séduisant : junlang_nanyou
Jeune camarade ingénu : chunzhen_xuedi
Aîné distant : lengdan_xiongzhang
Jeune maître dominateur : badao_shaoye
Sweetheart Xiaoling : tianxin_xiaoling
Jeune fille espiègle et mignonne : qiaopi_mengmei
Femme séduisante et assurée : wumei_yujie
Jeune camarade au ton affecté : diadia_xuemei
Aînée élégante : danya_xuejie
Santa Claus : Santa_Claus
Grinch : Grinch
Rudolph : Rudolph
Arnold : Arnold
Charming Santa : Charming_Santa
Charming Lady : Charming_Lady
Sweet Girl : Sweet_Girl
Cute Elf : Cute_Elf
Attractive Girl : Attractive_Girl
Serene Woman : Serene_Woman

emotion

string

Contrôle l’émotion de la voix synthétisée ;7 émotions sont actuellement prises en charge : joie, tristesse, colère, peur, dégoût, surprise, neutre ;Plage du paramètre : ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

latex_read

bool

défaut:"false"

Contrôle la prise en charge de la lecture des formules latex. La valeur par défaut est false.À noter :

Les formules de la requête doivent être entourées de $$ au début et à la fin ;
Si une formule dans la requête contient "", il doit être échappé en ”\”.

Exemple : la formule de base d’une dérivée est $$\\frac{d}{dx}(x^n) = nx^{n-1}$$

text_normalization

bool

défaut:"false"

Ce paramètre prend en charge la normalisation des textes en anglais, ce qui peut améliorer les performances dans les scénarios de lecture de nombres, mais augmente légèrement la latence. S’il n’est pas fourni, la valeur par défaut est false.

audio_setting

object

Afficher propriétés

sample_rate

int

défaut:"32000"

Plage 【8000，16000，22050，24000，32000，44100】Taux d’échantillonnage de la voix générée. Facultatif, valeur par défaut : 32000.

bitrate

int

défaut:"128000"

Plage 【32000，64000，128000，256000】Débit binaire de la voix générée. Facultatif, valeur par défaut : 128000. Ce paramètre ne s’applique qu’aux fichiers audio au format mp3.

format

string

défaut:"mp3"

Format de l’audio généré. Par défaut : mp3, plage [mp3,pcm,flac,wav]. wav n’est pris en charge qu’en sortie non streaming.

channel

int

défaut:"1"

Nombre de canaux de l’audio généré. Par défaut 1 : mono. Valeurs possibles :1 : mono2 : stéréo

pronunciation_dict

object

Afficher propriétés

tone

list

Remplace les caractères, symboles et prononciations correspondantes nécessitant une annotation spéciale.Remplacement de la prononciation (ajustement du ton/remplacement de la prononciation d’autres caractères), au format suivant :["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]Les tons sont représentés par des chiffres : le premier ton (yinping) vaut 1, le deuxième ton (yangping) vaut 2, le troisième ton (shangsheng) vaut 3, le quatrième ton (qusheng) vaut 4, et le ton neutre vaut 5.

timbre_weights

object[]

L’un des deux champs timbre_weights ou voice_id est obligatoire

Afficher propriétés

voice_id

string

ID du timbre vocal demandé. Doit être renseigné conjointement avec le paramètre weight.

weight

int

Plage [1,100]Poids. Doit être renseigné conjointement avec voice_id. Jusqu’à 4 timbres vocaux peuvent être mélangés. La valeur doit être un entier ; plus la proportion d’un timbre unique est élevée, plus la voix synthétisée lui ressemble.

stream

boolean

défaut:"false"

Indique si le streaming est activé. Par défaut : false, c’est-à-dire que le streaming n’est pas activé.

stream_options

object

Afficher propriétés

exclude_aggregated_audio

boolean

défaut:"false"

Lorsque ce paramètre est défini sur True, le dernier chunk du flux ne contiendra pas les données hex complètes de la voix concaténée. Par défaut : False, c’est-à-dire que le dernier chunk contient les données hex complètes de la voix concaténée.

language_boost

string

défaut:"null"

Améliore la capacité de reconnaissance pour les langues minoritaires et dialectes spécifiés. Une fois configuré, ce paramètre peut améliorer les performances vocales dans les scénarios correspondant à la langue minoritaire/au dialecte spécifié. Si le type de langue minoritaire n’est pas clairement identifié, vous pouvez sélectionner “auto” ; le modèle déterminera automatiquement le type de langue minoritaire. Les valeurs suivantes sont prises en charge :

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

output_format

string

défaut:"hex"

Paramètre contrôlant la forme du résultat de sortie. Les valeurs possibles sont url et hex. La valeur par défaut est hex. Ce paramètre ne s’applique qu’aux scénarios non streaming ; les scénarios streaming ne prennent en charge que le retour au format hex. L’URL retournée est valide pendant 24 heures.

voice_modify

object

Paramètres des effets vocaux. Ce paramètre prend en charge les formats audio suivants :

Non streaming : mp3, wav, flac
Streaming : mp3

Afficher propriétés

pitch

integer

Ajustement de la hauteur (grave/clair), plage [-100,100]. Plus la valeur est proche de -100, plus la voix est grave ; plus elle est proche de 100, plus la voix est claire

intensity

integer

Ajustement de l’intensité (puissant/doux), plage [-100,100]. Plus la valeur est proche de -100, plus la voix est énergique ; plus elle est proche de 100, plus la voix est douce

timbre

integer

Ajustement du timbre (magnétique/cristallin), plage [-100,100]. Plus la valeur est proche de -100, plus la voix est profonde ; plus elle est proche de 100, plus la voix est cristalline

sound_effects

string

Paramètre d’effet sonore. Un seul effet peut être sélectionné à la fois. Valeurs possibles :

spacious_echo（écho spacieux）
auditorium_echo（diffusion en auditorium）
lofi_telephone（distorsion téléphonique）
robotic（voix électronique）

Informations de réponse

audio

string

Segment audio synthétisé, encodé en hex, généré selon le format défini en entrée (audio_setting.format) (mp3/pcm/flac). La forme de retour dépend de la définition de output_format. Lorsque stream vaut true, seul le retour au format hex est pris en charge.

status

number

État actuel du flux audio, retourné uniquement lorsque stream vaut true. 1 indique que la synthèse est en cours ; 2 indique que la synthèse est terminée.

Synthèse vocale asynchrone MiniMax Speech-02-hd

Synthèse vocale asynchrone MiniMax Speech-02-turbo

​En-têtes de requête

​Corps de la requête

​Informations de réponse

En-têtes de requête

Corps de la requête

Informations de réponse