TTA Speech 02 Turbo ASYNC API | MiniMax hochwertige Sprachsynthese

MiniMax Speech-02-turbo asynchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-02-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

POST

async

minimax-speech-02-turbo

MiniMax Speech-02-turbo asynchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-02-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

Diese API unterstützt die asynchrone Generierung von Text-zu-Sprache. Pro Textgenerierungsübertragung werden maximal 1 Million Zeichen unterstützt; das vollständig generierte Audioergebnis kann asynchron abgerufen werden. Unterstützt 100+ Systemstimmen sowie frei wählbare geklonte Stimmen; Intonation, Sprechgeschwindigkeit, Lautstärke, Bitrate, Abtastrate und Ausgabeformat können individuell angepasst werden. Nach dem Einreichen einer Anfrage zur Sprachsynthese langer Texte ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Achten Sie daher auf den Zeitpunkt des Herunterladens der Informationen.

Geeignet für die Sprachgenerierung langer Texte wie kompletter Bücher. Die Wartezeit in der Aufgabenwarteschlange kann länger sein. Für Szenarien wie Kurzsatzgenerierung, Sprachchat und Online-Socializing wird die Verwendung der synchronen Sprachsynthese empfohlen.

Request-Header

Content-Type

string

erforderlich

Enumerationswert: application/json

Authorization

string

erforderlich

Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Request-Body

text

string

erforderlich

Der zu synthetisierende Text; maximale Länge 50.000 Zeichen.

voice_setting

object

erforderlich

Anzeigen properties

speed

number

Bereich [0.5,2], Standardwert 1.0Die Sprechgeschwindigkeit der generierten Stimme. Optional; je größer der Wert, desto schneller die Sprechgeschwindigkeit.

vol

number

Bereich (0,10], Standardwert 1.0Die Lautstärke der generierten Stimme. Optional; je größer der Wert, desto höher die Lautstärke.

pitch

number

Standard:0

Bereich [-12,12], Standardwert 0Die Intonation der generierten Stimme. Optional; 0 steht für die Ausgabe der ursprünglichen Stimme, der Wert muss eine Ganzzahl sein.

voice_id

string

Die angeforderte Stimmen-ID.Unterstützt werden zwei Arten: Systemstimmen (id) und geklonte Stimmen (id). Die Systemstimmen (ID) sind:

Junge, unerfahrene männliche Stimme: male-qn-qingse
Elite-Jugendstimme: male-qn-jingying
Dominante junge männliche Stimme: male-qn-badao
Männliche Studentenstimme: male-qn-daxuesheng
Mädchenstimme: female-shaonv
Reife weibliche Stimme: female-yujie
Erwachsene weibliche Stimme: female-chengshu
Süße weibliche Stimme: female-tianmei
Männlicher Moderator: presenter_male
Weibliche Moderatorin: presenter_female
Männliches Hörbuch 1: audiobook_male_1
Männliches Hörbuch 2: audiobook_male_2
Weibliches Hörbuch 1: audiobook_female_1
Weibliches Hörbuch 2: audiobook_female_2
Junge, unerfahrene männliche Stimme-beta: male-qn-qingse-jingpin
Elite-Jugendstimme-beta: male-qn-jingying-jingpin
Dominante junge männliche Stimme-beta: male-qn-badao-jingpin
Männliche Studentenstimme-beta: male-qn-daxuesheng-jingpin
Mädchenstimme-beta: female-shaonv-jingpin
Reife weibliche Stimme-beta: female-yujie-jingpin
Erwachsene weibliche Stimme-beta: female-chengshu-jingpin
Schlauer Junge: clever_boy
Süßer Junge: cute_boy
Liebenswertes Mädchen: lovely_girl
Cartoon-Schwein Xiaoqi: cartoon_pig
Yandere jüngerer Bruder: bingjiao_didi
Gutaussehender Freund: junlang_nanyou
Unschuldiger jüngerer Mitschüler: chunzhen_xuedi
Distanziert älterer Mitschüler: lengdan_xiongzhang
Dominanter junger Herr: badao_shaoye
Sweetheart Xiaoling: tianxin_xiaoling
Verspieltes süßes Mädchen: qiaopi_mengmei
Verführerische reife Frau: wumei_yujie
Kokette jüngere Mitschülerin: diadia_xuemei
Elegante ältere Mitschülerin: danya_xuejie
Santa Claus: Santa_Claus
Grinch: Grinch
Rudolph: Rudolph
Arnold: Arnold
Charming Santa: Charming_Santa
Charming Lady: Charming_Lady
Sweet Girl: Sweet_Girl
Cute Elf: Cute_Elf
Attractive Girl: Attractive_Girl
Serene Woman: Serene_Woman

emotion

string

Steuert die Emotion der synthetisierten Sprache;Derzeit werden 7 Emotionen unterstützt: glücklich, traurig, wütend, ängstlich, angewidert, überrascht, neutral;Parameterbereich: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

text_normalization

bool

Standard:"false"

Dieser Parameter unterstützt die Normalisierung englischer Texte und kann die Leistung in Szenarien zum Vorlesen von Zahlen verbessern, erhöht jedoch geringfügig die Latenz. Wenn nicht angegeben, ist der Standardwert false.

audio_setting

object

Anzeigen properties

sample_rate

number

Standard:32000

Bereich 【8000，16000，22050，24000，32000，44100】Die Abtastrate der generierten Stimme. Optional, standardmäßig 32000.

bitrate

number

Standard:128000

Bereich 【32000，64000，128000，256000】Die Bitrate der generierten Stimme. Optional, Standardwert 128000. Dieser Parameter wirkt sich nur auf Audio im mp3-Format aus.

format

string

Standard:"mp3"

Das generierte Audioformat. Standardmäßig mp3. Optional: mp3, pcm, flac, wav. wav wird nur bei nicht-streamender Ausgabe unterstützt.

channel

number

Standard:1

Die Anzahl der Kanäle des generierten Audios. Standardmäßig 1: Mono, optional:1: Mono2: Stereo

pronunciation_dict

object

Anzeigen properties

tone

list

Ersetzt Wörter, Symbole und entsprechende Lautschriften, die eine spezielle Markierung benötigen.Ersetzen der Aussprache (Anpassen des Tons/Ersetzen der Aussprache anderer Zeichen), Format:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]Töne werden durch Zahlen ersetzt: erster Ton (Yinping) ist 1, zweiter Ton (Yangping) ist 2, dritter Ton (Shangsheng) ist 3, vierter Ton (Qusheng) ist 4, neutraler Ton ist 5.

language_boost

string

Standard:"null"

Verbessert die Erkennungsfähigkeit für angegebene weniger verbreitete Sprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit der angegebenen weniger verbreiteten Sprache/dem Dialekt verbessert werden. Wenn der Typ der weniger verbreiteten Sprache nicht eindeutig ist, kann “auto” gewählt werden; das Modell bestimmt dann selbstständig den Typ der weniger verbreiteten Sprache. Unterstützte Werte:

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

voice_modify

object

Einstellungen für Stimmeffekte; von diesem Parameter unterstützte Audioformate: mp3, wav, flac

Anzeigen properties

pitch

integer

Tonhöhenanpassung (tief/hell), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto tiefer klingt die Stimme; je näher an 100, desto heller klingt die Stimme.

intensity

integer

Intensitätsanpassung (kraftvoll/weich), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto kräftiger klingt die Stimme; je näher an 100, desto weicher klingt die Stimme.

timbre

integer

Klangfarbenanpassung (magnetisch/klar), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto voller klingt die Stimme; je näher der Wert an 100 liegt, desto klarer klingt die Stimme.

sound_effects

string

Soundeffekt-Einstellung; pro Anfrage kann nur eine Option ausgewählt werden. Mögliche Werte:

spacious_echo（weiter Hall）
auditorium_echo（Auditorium-Übertragung）
lofi_telephone（Telefonverzerrung）
robotic（elektronische Stimme）

Parameter der Antwortinformationen

task_id

string

erforderlich

Die task_id der asynchronen Aufgabe. Sie sollten diese task_id verwenden, um die API zum Abfragen des Aufgabenergebnisses anzufordern und das generierte Ergebnis zu erhalten.

MiniMax Speech-02-turbo synchrone Sprachsynthese

Zurück

MiniMax Speech-2.5-hd-preview Synchrone Sprachsynthese

Weiter

​Request-Header

​Request-Body

​Parameter der Antwortinformationen

Request-Header

Request-Body

Parameter der Antwortinformationen