TTA Speech 02 HD API | MiniMax hochwertige Sprachsynthese

MiniMax Speech-02-hd synchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-02-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "audio": "<string>",
  "status": 123
}

POST

minimax-speech-02-hd

MiniMax Speech-02-hd synchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-02-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "audio": "<string>",
  "status": 123
}

Diese API unterstützt die synchrone Generierung von Text-to-Speech; pro Textübertragung sind maximal 10000 Zeichen möglich. Sie unterstützt über 100 Systemstimmen sowie die freie Auswahl geklonter Stimmen; Anpassungen von Lautstärke, Tonhöhe, Sprechgeschwindigkeit und Ausgabeformat; proportionales Mischen von Stimmen sowie die Steuerung fester Zeitintervalle; außerdem verschiedene Audiospezifikationen und -formate, darunter mp3, pcm, flac und wav, sowie Streaming-Ausgabe. Nach dem Absenden einer Anfrage zur Sprachsynthese langer Texte ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Bitte achten Sie darauf, die Informationen rechtzeitig herunterzuladen.

Geeignet für Szenarien wie die Generierung kurzer Sätze, Sprachchat und Online-Social-Anwendungen. Die Verarbeitung ist schnell, jedoch ist die Textlänge auf weniger als 10000 Zeichen begrenzt. Für lange Texte wird die asynchrone Sprachsynthese empfohlen.

Anfrage-Header

Content-Type

string

erforderlich

Enumerationswert: application/json

Authorization

string

erforderlich

Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragebody

text

string

erforderlich

Der zu synthetisierende Text. Die Länge muss weniger als 10000 Zeichen betragen; Absatzwechsel werden durch Zeilenumbrüche ersetzt. (Wenn Sie Pausen in der Sprache steuern möchten, fügen Sie zwischen Zeichen <#x#> ein; x ist in Sekunden angegeben, unterstützt 0.01-99.99 mit maximal zwei Dezimalstellen.) Benutzerdefinierte zeitliche Abstände zwischen Textabschnitten werden unterstützt, um individuelle Pausenzeiten in der Sprachausgabe zu erzielen. Zu beachten ist, dass die Textintervallzeit zwischen zwei sprechbaren Textteilen gesetzt werden muss und nicht mehrere aufeinanderfolgende Zeitintervalle gesetzt werden dürfen.

voice_setting

object

erforderlich

Anzeigen Eigenschaften

speed

float

Standard:"1.0"

Bereich [0.5,2], Standardwert 1.0Die Sprechgeschwindigkeit der generierten Stimme. Optional; je größer der Wert, desto schneller die Sprechgeschwindigkeit.

vol

float

Standard:"1.0"

Bereich (0,10], Standardwert 1.0Die Lautstärke der generierten Stimme. Optional; je größer der Wert, desto höher die Lautstärke.

pitch

int

Standard:"0"

Bereich [-12,12], Standardwert 0Die Tonhöhe der generierten Stimme. Optional; (0 entspricht der Ausgabe der Originalstimme, der Wert muss eine Ganzzahl sein).

voice_id

string

Die angeforderte Stimmen-ID. Entweder voice_id oder timbre_weights ist „erforderlich“.Unterstützt werden zwei Typen: Systemstimmen (id) und geklonte Stimmen (id). Die Systemstimmen (ID) sind:

Junge, unerfahrene Männerstimme: male-qn-qingse
Elite-Jugend-Männerstimme: male-qn-jingying
Dominante junge Männerstimme: male-qn-badao
Stimme eines jungen Studenten: male-qn-daxuesheng
Mädchenstimme: female-shaonv
Reife ältere Frauenstimme: female-yujie
Reife Frauenstimme: female-chengshu
Süße Frauenstimme: female-tianmei
Männlicher Moderator: presenter_male
Weibliche Moderatorin: presenter_female
Männliches Hörbuch 1: audiobook_male_1
Männliches Hörbuch 2: audiobook_male_2
Weibliches Hörbuch 1: audiobook_female_1
Weibliches Hörbuch 2: audiobook_female_2
Junge, unerfahrene Männerstimme-beta: male-qn-qingse-jingpin
Elite-Jugend-Männerstimme-beta: male-qn-jingying-jingpin
Dominante junge Männerstimme-beta: male-qn-badao-jingpin
Stimme eines jungen Studenten-beta: male-qn-daxuesheng-jingpin
Mädchenstimme-beta: female-shaonv-jingpin
Reife ältere Frauenstimme-beta: female-yujie-jingpin
Reife Frauenstimme-beta: female-chengshu-jingpin
Süße Frauenstimme-beta: female-tianmei-jingpin
Kluger Junge: clever_boy
Süßer Junge: cute_boy
Niedliches Mädchen: lovely_girl
Cartoon-Schwein Xiaoqi: cartoon_pig
Yandere-jüngerer Bruder: bingjiao_didi
Attraktiver Freund: junlang_nanyou
Unschuldiger jüngerer Mitschüler: chunzhen_xuedi
Kühler älterer Mitschüler: lengdan_xiongzhang
Dominanter junger Herr: badao_shaoye
Sweetheart Xiaoling: tianxin_xiaoling
Verspieltes süßes Mädchen: qiaopi_mengmei
Verführerische reife Frauenstimme: wumei_yujie
Kokette jüngere Mitschülerin: diadia_xuemei
Elegante ältere Mitschülerin: danya_xuejie
Santa Claus: Santa_Claus
Grinch: Grinch
Rudolph: Rudolph
Arnold: Arnold
Charming Santa: Charming_Santa
Charming Lady: Charming_Lady
Sweet Girl: Sweet_Girl
Cute Elf: Cute_Elf
Attractive Girl: Attractive_Girl
Serene Woman: Serene_Woman

emotion

string

Steuert die Emotion der synthetisierten Sprache;Derzeit werden 7 Emotionen unterstützt: glücklich, traurig, wütend, ängstlich, angewidert, überrascht, neutral;Parameterbereich: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

latex_read

bool

Standard:"false"

Steuert, ob das Vorlesen von latex-Formeln unterstützt wird; Standardwert ist false.Hinweise:

Formeln in der Anfrage müssen am Anfang und Ende der Formel mit $$ versehen werden;
Wenn eine Formel in der Anfrage "" enthält, muss dies zu ”\” escaped werden.

Beispiel: Die Grundformel der Ableitung lautet $$\\frac{d}{dx}(x^n) = nx^{n-1}$$

text_normalization

bool

Standard:"false"

Dieser Parameter unterstützt die Normalisierung englischer Texte und kann die Leistung in Szenarien zum Vorlesen von Zahlen verbessern, erhöht jedoch geringfügig die Latenz. Wenn er nicht angegeben wird, ist der Standardwert false.

audio_setting

object

Anzeigen Eigenschaften

sample_rate

int

Standard:"32000"

Bereich 【8000，16000，22050，24000，32000，44100】Die Abtastrate der generierten Stimme. Optional, standardmäßig 32000.

bitrate

int

Standard:"128000"

Bereich 【32000，64000，128000，256000】Die Bitrate der generierten Stimme. Optional, Standardwert 128000. Dieser Parameter gilt nur für Audio im mp3-Format.

format

string

Standard:"mp3"

Das generierte Audioformat. Standardmäßig mp3, Bereich [mp3,pcm,flac,wav]. wav wird nur bei Nicht-Streaming-Ausgabe unterstützt.

channel

int

Standard:"1"

Die Anzahl der Kanäle des generierten Audios. Standardwert 1: Mono, optional:1: Mono2: Stereo

pronunciation_dict

object

Anzeigen Eigenschaften

tone

list

Ersetzt Wörter, Symbole und die entsprechende Aussprache, die speziell gekennzeichnet werden müssen.Aussprache ersetzen (Ton anpassen/Aussprache anderer Zeichen ersetzen), Format:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]Töne werden durch Zahlen ersetzt: erster Ton (Yinping) ist 1, zweiter Ton (Yangping) ist 2, dritter Ton (Shangsheng) ist 3, vierter Ton (Qusheng) ist 4, neutraler Ton ist 5.

timbre_weights

object[]

Entweder timbre_weights oder voice_id ist erforderlich

Anzeigen Eigenschaften

voice_id

string

Die angeforderte Stimmen-id. Muss zusammen mit dem Parameter weight ausgefüllt werden.

weight

int

Bereich [1,100]Gewichtung; muss zusammen mit voice_id ausgefüllt werden. Es werden maximal 4 gemischte Stimmen unterstützt. Der Wert muss eine Ganzzahl sein; je höher der Anteil einer einzelnen Stimme, desto ähnlicher ist die synthetisierte Stimme dieser Stimme.

stream

boolean

Standard:"false"

Gibt an, ob Streaming verwendet wird. Standardwert false, d. h. Streaming ist nicht aktiviert.

stream_options

object

Anzeigen Eigenschaften

exclude_aggregated_audio

boolean

Standard:"false"

Wenn dieser Parameter auf True gesetzt ist, enthält der letzte chunk im Streaming nicht die vollständigen, zusammengefügten Sprach-hex-Daten. Standardwert ist False, d. h. der letzte chunk enthält die vollständigen, zusammengefügten Sprach-hex-Daten.

language_boost

string

Standard:"null"

Verbessert die Erkennungsfähigkeit für angegebene Minderheitensprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit der angegebenen Minderheitensprache/dem angegebenen Dialekt verbessert werden. Wenn der Typ der Minderheitensprache nicht klar ist, kann “auto” gewählt werden; das Modell erkennt den Typ der Minderheitensprache dann selbstständig. Unterstützte Werte:

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

output_format

string

Standard:"hex"

Parameter zur Steuerung der Form des Ausgabeergebnisses. Mögliche Werte sind url hex. Standardwert ist hex. Dieser Parameter ist nur in Nicht-Streaming-Szenarien wirksam; in Streaming-Szenarien wird nur die Rückgabe in hex-Form unterstützt. Die zurückgegebene url ist 24 Stunden gültig.

voice_modify

object

Einstellungen für Stimmeffekte. Dieser Parameter unterstützt die folgenden Audioformate:

Nicht-Streaming: mp3, wav, flac
Streaming: mp3

Anzeigen Eigenschaften

pitch

integer

Tonhöhenanpassung (tief/hell), Bereich [-100,100]. Werte nahe -100 machen die Stimme tiefer; Werte nahe 100 machen die Stimme heller.

intensity

integer

Intensitätsanpassung (kraftvoll/sanft), Bereich [-100,100]. Werte nahe -100 machen die Stimme kräftiger; Werte nahe 100 machen die Stimme weicher.

timbre

integer

Klangfarbenanpassung (magnetisch/klar), Bereich [-100,100]. Werte nahe -100 machen die Stimme voller; Werte nahe 100 machen die Stimme klarer.

sound_effects

string

Soundeffekt-Einstellung; pro Anfrage kann nur eine Option gewählt werden. Mögliche Werte:

spacious_echo（weiter Hall）
auditorium_echo（Auditorium-Übertragung）
lofi_telephone（Telefonverzerrung）
robotic（elektronische Stimme）

Antwortinformationen

audio

string

Das synthetisierte Audiosegment, hex-codiert, generiert gemäß dem im Eingabewert definierten Format (audio_setting.format) (mp3/pcm/flac). Die Rückgabeform richtet sich nach der Definition von output_format; wenn stream true ist, wird nur die Rückgabeform hex unterstützt.

status

number

Der aktuelle Status des Audiostreams, wird nur zurückgegeben, wenn stream true ist. 1 bedeutet Synthese läuft, 2 bedeutet Synthese abgeschlossen.

PixVerse V6 Bild-zu-Video

Zurück

MiniMax Speech-02-hd asynchrone Sprachsynthese

Weiter

​Anfrage-Header

​Anfragebody

​Antwortinformationen

Anfrage-Header

Anfragebody

Antwortinformationen