Asynchrone Sprachsynthese mit MiniMax Speech-2.5-turbo-preview

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.5-turbo-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

POST

async

minimax-speech-2.5-turbo-preview

Asynchrone Sprachsynthese mit MiniMax Speech-2.5-turbo-preview

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.5-turbo-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "task_id": "<string>"
}

Diese API unterstützt die asynchrone Generierung von Text-to-Speech. Pro Textgenerierungsübertragung werden maximal 1 Million Zeichen unterstützt; das vollständig generierte Audioergebnis kann asynchron abgerufen werden. Unterstützt werden über 100 Systemstimmen sowie individuell auswählbare geklonte Stimmen; Intonation, Sprechgeschwindigkeit, Lautstärke, Bitrate, Abtastrate und Ausgabeformat können frei angepasst werden. Nach dem Einreichen einer Sprachsyntheseanforderung für langen Text ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Achten Sie darauf, die Informationen rechtzeitig herunterzuladen.

Geeignet für die Sprachgenerierung langer Texte wie ganzer Bücher; die Aufgabenwarteschlange kann längere Zeit in Anspruch nehmen. Für Szenarien wie die Generierung kurzer Sätze, Sprachchat oder Online-Social-Anwendungen wird empfohlen, den synchronen Aufruf der Sprachsynthese zu verwenden.

Anforderungsheader

Content-Type

string

erforderlich

Enumerationswert: application/json

Authorization

string

erforderlich

Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anforderungstext

text

string

erforderlich

Der zu synthetisierende Text, maximal 50.000 Zeichen.

voice_setting

object

erforderlich

Anzeigen properties

speed

number

Bereich [0.5,2], Standardwert ist 1.0Die Sprechgeschwindigkeit der generierten Stimme. Optional; je größer der Wert, desto schneller die Sprechgeschwindigkeit.

vol

number

Bereich (0,10], Standardwert ist 1.0Die Lautstärke der generierten Stimme. Optional; je größer der Wert, desto höher die Lautstärke.

pitch

number

Standard:0

Bereich [-12,12], Standardwert ist 0Die Intonation der generierten Stimme. Optional; (0 gibt die Originalstimme aus, der Wert muss eine Ganzzahl sein).

voice_id

string

Die angeforderte Stimmen-ID.Es werden zwei Typen unterstützt: Systemstimmen (id) und geklonte Stimmen (id). Die Systemstimmen (ID) sind wie folgt:

Junge, unerfahrene männliche Stimme: male-qn-qingse
Junge Elite-Männerstimme: male-qn-jingying
Dominante junge Männerstimme: male-qn-badao
Stimme eines jungen Studenten: male-qn-daxuesheng
Mädchenstimme: female-shaonv
Reife, selbstbewusste Frauenstimme: female-yujie
Reife Frauenstimme: female-chengshu
Süße Frauenstimme: female-tianmei
Männlicher Moderator: presenter_male
Weibliche Moderatorin: presenter_female
Männliches Hörbuch 1: audiobook_male_1
Männliches Hörbuch 2: audiobook_male_2
Weibliches Hörbuch 1: audiobook_female_1
Junge, unerfahrene männliche Stimme-beta: male-qn-qingse-jingpin
Junge Elite-Männerstimme-beta: male-qn-jingying-jingpin
Dominante junge Männerstimme-beta: male-qn-badao-jingpin
Stimme eines jungen Studenten-beta: male-qn-daxuesheng-jingpin
Mädchenstimme-beta: female-shaonv-jingpin
Reife, selbstbewusste Frauenstimme-beta: female-yujie-jingpin
Reife Frauenstimme-beta: female-chengshu-jingpin
Süße Frauenstimme-beta: female-tianmei-jingpin
Kluger Junge: clever_boy
Niedlicher Junge: cute_boy
Liebenswertes Mädchen: lovely_girl
Cartoon-Schwein Xiaoqi: cartoon_pig
Kränklich-obsessiver jüngerer Bruder: bingjiao_didi
Gutaussehender Freund: junlang_nanyou
Unschuldiger jüngerer Kommilitone: chunzhen_xuedi
Distanter älterer Kommilitone: lengdan_xiongzhang
Dominanter junger Herr: badao_shaoye
Sweetheart Xiaoling: tianxin_xiaoling
Verspieltes, süßes Mädchen: qiaopi_mengmei
Verführerische reife Frauenstimme: wumei_yujie
Süßliche jüngere Kommilitonin: diadia_xuemei
Elegante ältere Kommilitonin: danya_xuejie
Santa Claus: Santa_Claus
Grinch: Grinch
Rudolph: Rudolph
Arnold: Arnold
Charming Santa: Charming_Santa
Charming Lady: Charming_Lady
Sweet Girl: Sweet_Girl
Cute Elf: Cute_Elf
Attractive Girl: Attractive_Girl
Serene Woman: Serene_Woman

emotion

string

Steuert die Emotion der synthetisierten Sprache;Derzeit werden 7 Emotionen unterstützt: glücklich, traurig, wütend, ängstlich, angewidert, überrascht, neutral;Parameterbereich: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

text_normalization

bool

Standard:"false"

Dieser Parameter unterstützt die Normalisierung englischer Texte und kann die Leistung in Szenarien zum Vorlesen von Zahlen verbessern, erhöht jedoch geringfügig die Latenz. Wenn nicht angegeben, ist der Standardwert false.

audio_setting

object

Anzeigen properties

sample_rate

number

Standard:32000

Bereich【8000，16000，22050，24000，32000，44100】Die Abtastrate der generierten Stimme. Optional, Standardwert ist 32000.

bitrate

number

Standard:128000

Bereich【32000，64000，128000，256000】Die Bitrate der generierten Stimme. Optional, Standardwert ist 128000. Dieser Parameter gilt nur für Audio im mp3-Format.

format

string

Standard:"mp3"

Das Format des generierten Audios. Standard ist mp3. Optional: mp3, pcm, flac, wav. wav wird nur bei nicht-streamender Ausgabe unterstützt.

channel

number

Standard:1

Die Anzahl der Kanäle des generierten Audios. Standard 1: Mono, optional:1: Mono2: Stereo

pronunciation_dict

object

Anzeigen properties

tone

list

Ersetzen von Text, Symbolen und zugehörigen Lautschriften, die speziell markiert werden müssen.Aussprache ersetzen (Ton anpassen/Aussprache durch andere Zeichen ersetzen), Format wie folgt:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]Töne werden durch Zahlen ersetzt: erster Ton (Yinping) ist 1, zweiter Ton (Yangping) ist 2, dritter Ton (fallend-steigend) ist 3, vierter Ton (fallend) ist 4, der neutrale Ton ist 5.

language_boost

string

Standard:"null"

Verbessert die Erkennungsfähigkeit für angegebene weniger verbreitete Sprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit der angegebenen weniger verbreiteten Sprache/dem angegebenen Dialekt verbessert werden. Wenn der Typ der weniger verbreiteten Sprache nicht eindeutig ist, kann “auto” gewählt werden; das Modell bestimmt den Typ der weniger verbreiteten Sprache dann selbstständig. Unterstützte Werte:

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

voice_modify

object

Einstellungen für Stimmeffekte. Dieser Parameter unterstützt die Audioformate: mp3, wav, flac

Anzeigen properties

pitch

integer

Tonhöhenanpassung (tief/hell), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto tiefer klingt die Stimme; je näher an 100, desto heller klingt die Stimme.

intensity

integer

Intensitätsanpassung (kraftvoll/sanft), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto kraftvoller klingt die Stimme; je näher an 100, desto sanfter klingt die Stimme.

timbre

integer

Klangfarbenanpassung (magnetisch/klar), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto voller klingt die Stimme; je näher der Wert an 100 liegt, desto klarer klingt die Stimme.

sound_effects

string

Soundeffekt-Einstellung; pro Aufruf kann nur eine Option ausgewählt werden. Mögliche Werte:

spacious_echo（weiter Hall）
auditorium_echo（Aula-Durchsage）
lofi_telephone（Telefonverzerrung）
robotic（elektronische Stimme）

Parameter der Antwortinformationen

task_id

string

erforderlich

Die task_id der asynchronen Aufgabe. Sie sollten diese task_id verwenden, um die API zum Abfragen des Aufgabenergebnisses aufzurufen und das Generierungsergebnis abzurufen.

MiniMax Speech-2.5-turbo-preview synchrone Sprachsynthese

Zurück

MiniMax Speech-2.6-hd synchrone Sprachsynthese

Weiter

​Anforderungsheader

​Anforderungstext

​Parameter der Antwortinformationen

Anforderungsheader

Anforderungstext

Parameter der Antwortinformationen