TTA Speech 02 HD ASYNC API | MiniMax hochwertige Sprachsynthese

MiniMax Speech-02-hd asynchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-02-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

POST

async

minimax-speech-02-hd

MiniMax Speech-02-hd asynchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-02-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

Diese API unterstützt die asynchrone Generierung von Text-to-Speech. Pro Textgenerierungsübertragung werden maximal 1 Million Zeichen unterstützt; das vollständig generierte Audioergebnis kann asynchron abgerufen werden. Es werden über 100 Systemstimmen sowie frei auswählbare geklonte Stimmen unterstützt; außerdem können Intonation, Sprechgeschwindigkeit, Lautstärke, Bitrate, Abtastrate und Ausgabeformat individuell angepasst werden. Nach dem Einreichen einer Sprachsyntheseanfrage für lange Texte ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Bitte achten Sie darauf, die Informationen rechtzeitig herunterzuladen.

Geeignet für die Sprachgenerierung langer Texte wie ganzer Bücher. Die Wartezeit in der Aufgabenwarteschlange kann länger sein. Für Szenarien wie die Generierung kurzer Sätze, Sprachchats oder Online-Social-Anwendungen wird die Verwendung der synchronen Sprachsynthese empfohlen.

Anfrage-Header

Content-Type

string

erforderlich

Enumerationswert: application/json

Authorization

string

erforderlich

Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragekörper

text

string

erforderlich

Der zu synthetisierende Text, begrenzt auf maximal 50.000 Zeichen.

voice_setting

object

erforderlich

Anzeigen Eigenschaften

speed

number

Bereich [0.5,2], Standardwert ist 1.0Die Sprechgeschwindigkeit der generierten Stimme. Optional; je größer der Wert, desto schneller die Sprechgeschwindigkeit.

vol

number

Bereich (0,10], Standardwert ist 1.0Die Lautstärke der generierten Stimme. Optional; je größer der Wert, desto höher die Lautstärke.

pitch

number

Standard:0

Bereich [-12,12], Standardwert ist 0Die Intonation der generierten Stimme. Optional (0 gibt die ursprüngliche Stimme aus; der Wert muss eine Ganzzahl sein).

voice_id

string

Die angeforderte Stimmen-ID.Es werden zwei Typen unterstützt: Systemstimmen (id) und geklonte Stimmen (id). Die Systemstimmen (ID) sind wie folgt:

Junge, unreife männliche Stimme: male-qn-qingse
Elite-Jugendstimme: male-qn-jingying
Dominante junge männliche Stimme: male-qn-badao
Stimme eines jungen Studenten: male-qn-daxuesheng
Mädchenstimme: female-shaonv
Reife „große Schwester“-Stimme: female-yujie
Reife Frauenstimme: female-chengshu
Süße Frauenstimme: female-tianmei
Männlicher Moderator: presenter_male
Weibliche Moderatorin: presenter_female
Männliches Hörbuch 1: audiobook_male_1
Männliches Hörbuch 2: audiobook_male_2
Weibliches Hörbuch 1: audiobook_female_1
Weibliches Hörbuch 2: audiobook_female_2
Junge, unreife männliche Stimme-beta: male-qn-qingse-jingpin
Elite-Jugendstimme-beta: male-qn-jingying-jingpin
Dominante junge männliche Stimme-beta: male-qn-badao-jingpin
Stimme eines jungen Studenten-beta: male-qn-daxuesheng-jingpin
Mädchenstimme-beta: female-shaonv-jingpin
Reife „große Schwester“-Stimme-beta: female-yujie-jingpin
Reife Frauenstimme-beta: female-chengshu-jingpin
Süße Frauenstimme-beta: female-tianmei-jingpin
Kluger Junge: clever_boy
Niedlicher Junge: cute_boy
Liebenswertes Mädchen: lovely_girl
Cartoon-Schwein Xiaoqi: cartoon_pig
Krankhaft anhänglicher jüngerer Bruder: bingjiao_didi
Attraktiver Freund: junlang_nanyou
Unschuldiger jüngerer Kommilitone: chunzhen_xuedi
Distanzer älterer Kommilitone: lengdan_xiongzhang
Dominanter junger Herr: badao_shaoye
Sweetheart Xiaoling: tianxin_xiaoling
Verspieltes süßes Mädchen: qiaopi_mengmei
Verführerische „große Schwester“: wumei_yujie
Kokette jüngere Kommilitonin: diadia_xuemei
Elegante ältere Kommilitonin: danya_xuejie
Santa Claus: Santa_Claus
Grinch: Grinch
Rudolph: Rudolph
Arnold: Arnold
Charming Santa: Charming_Santa
Charming Lady: Charming_Lady
Sweet Girl: Sweet_Girl
Cute Elf: Cute_Elf
Attractive Girl: Attractive_Girl
Serene Woman: Serene_Woman

emotion

string

Steuert die Emotion der synthetisierten Sprache;Derzeit werden 7 Emotionen unterstützt: glücklich, traurig, wütend, ängstlich, angewidert, überrascht, neutral;Parameterbereich: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

text_normalization

bool

Standard:"false"

Dieser Parameter unterstützt die Normalisierung englischer Texte und kann die Leistung in Szenarien zum Vorlesen von Zahlen verbessern, erhöht jedoch geringfügig die Latenz. Wenn nicht angegeben, ist der Standardwert false.

audio_setting

object

Anzeigen Eigenschaften

sample_rate

number

Standard:32000

Bereich 【8000，16000，22050，24000，32000，44100】Die Abtastrate der generierten Stimme. Optional, standardmäßig 32000.

bitrate

number

Standard:128000

Bereich 【32000，64000，128000，256000】Die Bitrate der generierten Stimme. Optional, Standardwert ist 128000. Dieser Parameter wirkt sich nur auf Audio im mp3-Format aus.

format

string

Standard:"mp3"

Das Format der generierten Audiodatei. Standard ist mp3. Optional: mp3, pcm, flac, wav. wav wird nur bei nicht-streamender Ausgabe unterstützt.

channel

number

Standard:1

Die Anzahl der Audiokanäle des generierten Audios. Standard 1: Mono, optional:1: Mono2: Stereo

pronunciation_dict

object

Anzeigen Eigenschaften

tone

list

Ersetzt Text, Symbole und die zugehörige Lautschrift, die speziell markiert werden müssen.Aussprache ersetzen (Ton anpassen/andere Zeichenaussprache ersetzen), Format wie folgt:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]Töne werden durch Zahlen ersetzt: erster Ton (Yinping) ist 1, zweiter Ton (Yangping) ist 2, dritter Ton (Shangsheng) ist 3, vierter Ton (Qusheng) ist 4, neutraler Ton ist 5.

language_boost

string

Standard:"null"

Verbessert die Erkennungsfähigkeit für angegebene weniger verbreitete Sprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit der angegebenen weniger verbreiteten Sprache/dem angegebenen Dialekt verbessert werden. Wenn der Typ der weniger verbreiteten Sprache nicht eindeutig ist, kann “auto” ausgewählt werden; das Modell bestimmt dann selbstständig den Sprachtyp. Unterstützte Werte:

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

voice_modify

object

Einstellungen für Stimmeffekte. Von diesem Parameter unterstützte Audioformate: mp3, wav, flac

Anzeigen Eigenschaften

pitch

integer

Tonhöhenanpassung (tief/hell), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto tiefer ist die Stimme; je näher an 100, desto heller ist die Stimme.

intensity

integer

Intensitätsanpassung (kraftvoll/sanft), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto kräftiger ist die Stimme; je näher an 100, desto weicher ist die Stimme.

timbre

integer

Klangfarbenanpassung (magnetisch/klar), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto voller ist die Stimme; je näher der Wert an 100 liegt, desto klarer ist die Stimme.

sound_effects

string

Soundeffekt-Einstellung. Pro Anfrage kann nur eine Option ausgewählt werden. Mögliche Werte:

spacious_echo（weiter Hall）
auditorium_echo（Aula-Beschallung）
lofi_telephone（Telefonverzerrung）
robotic（elektronische Stimme）

Parameter der Antwortinformationen

task_id

string

erforderlich

Die task_id der asynchronen Aufgabe. Sie sollten diese task_id verwenden, um die API zum Abfragen des Aufgabenergebnisses aufzurufen und das generierte Ergebnis abzurufen.

MiniMax Speech-02-hd synchrone Sprachsynthese

Zurück

MiniMax Speech-02-turbo synchrone Sprachsynthese

Weiter

​Anfrage-Header

​Anfragekörper

​Parameter der Antwortinformationen

Anfrage-Header

Anfragekörper

Parameter der Antwortinformationen