MiniMax Speech-2.5-hd-preview Asynchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.5-hd-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

POST

async

minimax-speech-2.5-hd-preview

MiniMax Speech-2.5-hd-preview Asynchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.5-hd-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

Diese API unterstützt die asynchrone Generierung von Text-zu-Sprache. Pro Textgenerierungsübertragung werden maximal 1 Million Zeichen unterstützt; das vollständig generierte Audioergebnis kann asynchron abgerufen werden. Unterstützt werden 100+ Systemstimmen sowie frei wählbare geklonte Stimmen; außerdem können Intonation, Sprechgeschwindigkeit, Lautstärke, Bitrate, Abtastrate und Ausgabeformat flexibel angepasst werden. Nach dem Einreichen einer Anfrage zur Sprachsynthese für lange Texte ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Bitte achten Sie auf den Zeitpunkt des Downloads.

Geeignet für die Sprachgenerierung langer Texte wie ganzer Bücher; die Wartezeit in der Aufgabenwarteschlange kann relativ lang sein. Für Szenarien wie die Generierung kurzer Sätze, Sprachchats oder Online-Social-Anwendungen wird die synchrone Sprachsynthese empfohlen.

Anfrageheader

Content-Type

string

erforderlich

Enumerationswert: application/json

Authorization

string

erforderlich

Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragetext

text

string

erforderlich

Der zu synthetisierende Text, maximal 50.000 Zeichen.

voice_setting

object

erforderlich

Anzeigen properties

speed

number

Bereich [0.5,2], Standardwert ist 1.0Die Sprechgeschwindigkeit der generierten Stimme. Optional; je größer der Wert, desto schneller die Sprechgeschwindigkeit.

vol

number

Bereich (0,10], Standardwert ist 1.0Die Lautstärke der generierten Stimme. Optional; je größer der Wert, desto höher die Lautstärke.

pitch

number

Standard:0

Bereich [-12,12], Standardwert ist 0Die Tonhöhe/Intonation der generierten Stimme. Optional; (0 entspricht der Ausgabe der Originalstimme, der Wert muss eine Ganzzahl sein).

voice_id

string

Die angeforderte Stimmen-ID.Unterstützt werden zwei Arten: Systemstimmen (id) und geklonte Stimmen (id). Die Systemstimmen (ID) sind:

Unreife junge Männerstimme: male-qn-qingse
Elite-Jugendstimme: male-qn-jingying
Dominante junge Männerstimme: male-qn-badao
Stimme eines jungen Studenten: male-qn-daxuesheng
Mädchenstimme: female-shaonv
Reife Frauenstimme: female-yujie
Erwachsene Frauenstimme: female-chengshu
Süße Frauenstimme: female-tianmei
Männlicher Moderator: presenter_male
Weibliche Moderatorin: presenter_female
Männliches Hörbuch 1: audiobook_male_1
Männliches Hörbuch 2: audiobook_male_2
Weibliches Hörbuch 1: audiobook_female_1
Weibliches Hörbuch 2: audiobook_female_2
Unreife junge Männerstimme-beta: male-qn-qingse-jingpin
Elite-Jugendstimme-beta: male-qn-jingying-jingpin
Dominante junge Männerstimme-beta: male-qn-badao-jingpin
Stimme eines jungen Studenten-beta: male-qn-daxuesheng-jingpin
Mädchenstimme-beta: female-shaonv-jingpin
Reife Frauenstimme-beta: female-yujie-jingpin
Erwachsene Frauenstimme-beta: female-chengshu-jingpin
Süße Frauenstimme-beta: female-tianmei-jingpin
Kluger Junge: clever_boy
Niedlicher Junge: cute_boy
Liebenswertes Mädchen: lovely_girl
Cartoon-Schwein Xiaoqi: cartoon_pig
Yandere kleiner Bruder: bingjiao_didi
Gutaussehender Freund: junlang_nanyou
Unschuldiger jüngerer Mitschüler: chunzhen_xuedi
Distanzierten älteren Mitschüler: lengdan_xiongzhang
Dominanter junger Herr: badao_shaoye
Sweetheart Xiaoling: tianxin_xiaoling
Verspieltes süßes Mädchen: qiaopi_mengmei
Verführerische reife Frauenstimme: wumei_yujie
Niedliche jüngere Mitschülerin: diadia_xuemei
Elegante ältere Mitschülerin: danya_xuejie
Santa Claus: Santa_Claus
Grinch: Grinch
Rudolph: Rudolph
Arnold: Arnold
Charming Santa: Charming_Santa
Charming Lady: Charming_Lady
Sweet Girl: Sweet_Girl
Cute Elf: Cute_Elf
Attractive Girl: Attractive_Girl
Serene Woman: Serene_Woman

emotion

string

Steuert die Emotion der synthetisierten Sprache;Derzeit werden 7 Emotionen unterstützt: glücklich, traurig, wütend, ängstlich, angewidert, überrascht, neutral;Parameterbereich: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

text_normalization

bool

Standard:"false"

Dieser Parameter unterstützt die Normalisierung englischer Texte und kann die Performance in Szenarien zum Vorlesen von Zahlen verbessern, erhöht jedoch geringfügig die Latenz. Wenn nicht angegeben, ist der Standardwert false.

audio_setting

object

Anzeigen properties

sample_rate

number

Standard:32000

Bereich 【8000，16000，22050，24000，32000，44100】Die Abtastrate der generierten Stimme. Optional, Standardwert ist 32000.

bitrate

number

Standard:128000

Bereich 【32000，64000，128000，256000】Die Bitrate der generierten Stimme. Optional, Standardwert ist 128000. Dieser Parameter gilt nur für Audio im mp3-Format.

format

string

Standard:"mp3"

Das generierte Audioformat. Standard ist mp3. Optional: mp3, pcm, flac, wav. wav wird nur bei nicht-streamender Ausgabe unterstützt.

channel

number

Standard:1

Die Anzahl der Kanäle des generierten Audios. Standard 1: Mono, optional:1: Mono2: Stereo

pronunciation_dict

object

Anzeigen properties

tone

list

Ersetzt Texte, Symbole und die entsprechenden Aussprachen, die speziell markiert werden müssen.Aussprache ersetzen (Ton anpassen/Aussprache anderer Zeichen ersetzen), Format wie folgt:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]Töne werden durch Zahlen ersetzt: erster Ton (Yinping) ist 1, zweiter Ton (Yangping) ist 2, dritter Ton (Shangsheng) ist 3, vierter Ton (Qusheng) ist 4, der neutrale Ton ist 5.

language_boost

string

Standard:"null"

Verbessert die Erkennung für angegebene weniger verbreitete Sprachen und Dialekte. Nach der Einstellung kann dies die Sprachleistung in Szenarien mit der angegebenen Sprache/dem angegebenen Dialekt verbessern. Wenn der Typ der weniger verbreiteten Sprache nicht eindeutig ist, kann “auto” gewählt werden; das Modell bestimmt dann selbstständig den Sprachtyp. Unterstützte Werte:

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

voice_modify

object

Einstellungen für Stimmeffekte. Dieser Parameter unterstützt die Audioformate: mp3, wav, flac

Anzeigen properties

pitch

integer

Tonhöhenanpassung (tief/hell), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto tiefer klingt die Stimme; je näher an 100, desto heller klingt die Stimme.

intensity

integer

Intensitätsanpassung (kraftvoll/weich), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto kräftiger klingt die Stimme; je näher an 100, desto sanfter klingt die Stimme.

timbre

integer

Klangfarbenanpassung (magnetisch/klar), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto voller klingt die Stimme; je näher der Wert an 100 liegt, desto klarer klingt die Stimme.

sound_effects

string

Einstellung für Audioeffekte; pro Anfrage kann nur eine Option ausgewählt werden. Mögliche Werte:

spacious_echo（weiter Hall）
auditorium_echo（Auditorium-/Saalansage）
lofi_telephone（Telefonverzerrung）
robotic（elektronische Stimme）

Antwortparameter

task_id

string

erforderlich

Die task_id der asynchronen Aufgabe. Sie sollten diese task_id verwenden, um die API zum Abfragen des Aufgabenergebnisses aufzurufen und das Generierungsergebnis zu erhalten.

MiniMax Speech-2.5-hd-preview Synchrone Sprachsynthese

Zurück

MiniMax Speech-2.5-turbo-preview synchrone Sprachsynthese

Weiter

​Anfrageheader

​Anfragetext

​Antwortparameter

Anfrageheader

Anfragetext

Antwortparameter