API TTA Speech 02 HD ASYNC | Synthèse vocale haute qualité MiniMax

Synthèse vocale asynchrone MiniMax Speech-02-hd

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-02-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

POST

async

minimax-speech-02-hd

Synthèse vocale asynchrone MiniMax Speech-02-hd

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-02-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

Cette API prend en charge la génération asynchrone de texte en parole. Une seule transmission de génération de texte prend en charge jusqu’à 1 million de caractères, et le résultat audio complet généré peut être récupéré de manière asynchrone. Elle prend en charge plus de 100 voix système ainsi que le choix de voix clonées ; elle permet également d’ajuster librement l’intonation, la vitesse, le volume, le débit binaire, le taux d’échantillonnage et le format de sortie. Après avoir soumis une demande de synthèse vocale de texte long, veuillez noter que l’url retournée est valide pendant 24 heures à compter du moment où elle est retournée. Veuillez faire attention au délai de téléchargement des informations.

Adapté à la génération vocale de textes longs, tels que des livres entiers ; le temps d’attente en file de tâche peut être relativement long. Pour les scénarios tels que la génération de phrases courtes, le chat vocal et les interactions sociales en ligne, il est recommandé d’utiliser la synthèse vocale par appel synchrone.

En-têtes de requête

Content-Type

string

requis

Valeur d’énumération : application/json

Authorization

string

requis

Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

text

string

requis

Texte à synthétiser, limité à un maximum de 50 000 caractères.

voice_setting

object

requis

Afficher properties

speed

number

Plage [0.5,2], valeur par défaut : 1.0Vitesse de la voix générée. Optionnel ; plus la valeur est élevée, plus la vitesse est rapide.

vol

number

Plage （0,10], valeur par défaut : 1.0Volume de la voix générée. Optionnel ; plus la valeur est élevée, plus le volume est élevé.

pitch

number

défaut:0

Plage [-12,12], valeur par défaut : 0Intonation de la voix générée. Optionnel ; (0 correspond à la sortie de la voix d’origine, la valeur doit être un entier).

voice_id

string

Identifiant de la voix demandée.Prend en charge deux types : les voix système (id) et les voix clonées (id). Les voix système (ID) sont les suivantes :

Voix de jeune homme encore juvénile : male-qn-qingse
Voix de jeune homme élite : male-qn-jingying
Voix de jeune homme autoritaire : male-qn-badao
Voix d’étudiant universitaire : male-qn-daxuesheng
Voix de jeune fille : female-shaonv
Voix de femme mature et assurée : female-yujie
Voix de femme mûre : female-chengshu
Voix féminine douce : female-tianmei
Présentateur masculin : presenter_male
Présentatrice féminine : presenter_female
Livre audio masculin 1 : audiobook_male_1
Livre audio masculin 2 : audiobook_male_2
Livre audio féminin 1 : audiobook_female_1
Livre audio féminin 2 : audiobook_female_2
Voix de jeune homme encore juvénile-beta : male-qn-qingse-jingpin
Voix de jeune homme élite-beta : male-qn-jingying-jingpin
Voix de jeune homme autoritaire-beta : male-qn-badao-jingpin
Voix d’étudiant universitaire-beta : male-qn-daxuesheng-jingpin
Voix de jeune fille-beta : female-shaonv-jingpin
Voix de femme mature et assurée-beta : female-yujie-jingpin
Voix de femme mûre-beta : female-chengshu-jingpin
Voix féminine douce-beta : female-tianmei-jingpin
Garçon intelligent : clever_boy
Garçon mignon : cute_boy
Fillette adorable : lovely_girl
Cochon cartoon Xiaoqi : cartoon_pig
Petit frère yandere : bingjiao_didi
Petit ami séduisant : junlang_nanyou
Jeune camarade candide : chunzhen_xuedi
Aîné froid : lengdan_xiongzhang
Jeune maître autoritaire : badao_shaoye
Petit cœur Xiaoling : tianxin_xiaoling
Fille espiègle et mignonne : qiaopi_mengmei
Femme mature et séduisante : wumei_yujie
Petite camarade mignonne : diadia_xuemei
Aînée élégante : danya_xuejie
Santa Claus : Santa_Claus
Grinch : Grinch
Rudolph : Rudolph
Arnold : Arnold
Charming Santa : Charming_Santa
Charming Lady : Charming_Lady
Sweet Girl : Sweet_Girl
Cute Elf : Cute_Elf
Attractive Girl : Attractive_Girl
Serene Woman : Serene_Woman

emotion

string

Contrôle l’émotion de la voix synthétisée ;7 émotions sont actuellement prises en charge : joie, tristesse, colère, peur, dégoût, surprise, neutre ;Plage du paramètre : ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

text_normalization

bool

défaut:"false"

Ce paramètre prend en charge la normalisation du texte anglais, ce qui peut améliorer les performances dans les scénarios de lecture de nombres, mais augmente légèrement la latence. S’il n’est pas fourni, la valeur par défaut est false.

audio_setting

object

Afficher properties

sample_rate

number

défaut:32000

Plage 【8000，16000，22050，24000，32000，44100】Taux d’échantillonnage de la voix générée. Optionnel, valeur par défaut : 32000.

bitrate

number

défaut:128000

Plage 【32000，64000，128000，256000】Débit binaire de la voix générée. Optionnel, valeur par défaut : 128000. Ce paramètre ne s’applique qu’aux audios au format mp3.

format

string

défaut:"mp3"

Format audio généré. Par défaut : mp3. Options : mp3, pcm, flac, wav. wav n’est pris en charge qu’en sortie non streaming.

channel

number

défaut:1

Nombre de canaux de l’audio généré. Par défaut 1 : mono. Options :1 : mono2 : stéréo

pronunciation_dict

object

Afficher properties

tone

list

Remplace le texte, les symboles et les prononciations correspondantes nécessitant une annotation spéciale.Remplacement de la prononciation (ajustement du ton/remplacement de la prononciation d’autres caractères), au format suivant :["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]Les tons sont remplacés par des chiffres : premier ton (yinping) = 1, deuxième ton (yangping) = 2, troisième ton (shangsheng) = 3, quatrième ton (qusheng) = 4, ton léger = 5.

language_boost

string

défaut:"null"

Renforce la capacité de reconnaissance des langues minoritaires et dialectes spécifiés. Une fois défini, ce paramètre peut améliorer les performances vocales dans les scénarios de langue minoritaire/dialecte spécifiés. Si le type de langue minoritaire n’est pas clair, vous pouvez choisir “auto” ; le modèle déterminera automatiquement le type de langue minoritaire. Les valeurs suivantes sont prises en charge :

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

voice_modify

object

Paramètres d’effets vocaux ; formats audio pris en charge par ce paramètre : mp3, wav, flac

Afficher properties

pitch

integer

Ajustement de la hauteur (grave/clair), plage [-100,100] ; plus la valeur est proche de -100, plus la voix est grave ; plus elle est proche de 100, plus la voix est claire

intensity

integer

Ajustement de l’intensité (puissance/douceur), plage [-100,100] ; plus la valeur est proche de -100, plus la voix est ferme ; plus elle est proche de 100, plus la voix est douce

timbre

integer

Ajustement du timbre (magnétique/cristallin), plage [-100,100] ; plus la valeur est proche de -100, plus la voix est ample ; plus elle est proche de 100, plus la voix est cristalline

sound_effects

string

Paramètres d’effets sonores ; un seul peut être choisi à la fois. Valeurs possibles :

spacious_echo（écho spacieux）
auditorium_echo（diffusion de salle）
lofi_telephone（distorsion téléphonique）
robotic（voix électronique）

Paramètres des informations de réponse

task_id

string

requis

task_id de la tâche asynchrone. Vous devez utiliser ce task_id pour demander l’API de requête du résultat de tâche afin d’obtenir le résultat généré

Synthèse vocale synchrone MiniMax Speech-02-hd

Synthèse vocale synchrone MiniMax Speech-02-turbo

​En-têtes de requête

​Corps de la requête

​Paramètres des informations de réponse

En-têtes de requête

Corps de la requête

Paramètres des informations de réponse