MiniMax Speech-2.5-turbo-preview synchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.5-turbo-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "audio": "<string>",
  "status": 123
}

POST

minimax-speech-2.5-turbo-preview

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.5-turbo-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

{
  "audio": "<string>",
  "status": 123
}

Diese API unterstützt die synchrone Generierung von Text-zu-Sprache; pro Textübertragung sind maximal 10000 Zeichen möglich. Sie unterstützt über 100 Systemstimmen sowie frei wählbare geklonte Stimmen; Anpassungen von Lautstärke, Tonlage, Sprechgeschwindigkeit und Ausgabeformat; proportionale Stimm-Mischung und Steuerung fester Zeitintervalle; außerdem mehrere Audiospezifikationen und -formate, darunter: mp3, pcm, flac, wav, sowie Streaming-Ausgabe. Nach dem Einreichen einer Anfrage zur Sprachsynthese für lange Texte ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Bitte achten Sie darauf, die Informationen rechtzeitig herunterzuladen.

Geeignet für Szenarien wie die Generierung kurzer Sätze, Sprachchats und Online-Social-Anwendungen. Die Verarbeitung ist schnell, die Textlänge ist jedoch auf weniger als 10000 Zeichen begrenzt. Für lange Texte wird die asynchrone Sprachsynthese empfohlen.

Anfrageheader

Content-Type

string

erforderlich

Enumerationswert: application/json

Authorization

string

erforderlich

Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragetext

text

string

erforderlich

Der zu synthetisierende Text. Die Länge muss unter 10000 Zeichen liegen; Absatzwechsel werden durch Zeilenumbrüche ersetzt. (Wenn Sie die Pausenzeit in der Sprache steuern möchten, fügen Sie zwischen Zeichen <#x#> ein; die Einheit von x ist Sekunden, unterstützt werden 0.01-99.99 mit maximal zwei Dezimalstellen.) Unterstützt benutzerdefinierte Sprach-Zeitintervalle zwischen Texten, um benutzerdefinierte Pausen im gesprochenen Text zu realisieren. Zu beachten ist, dass das Textintervall zwischen zwei sprechbaren Textabschnitten gesetzt werden muss und nicht mehrere aufeinanderfolgende Zeitintervalle gesetzt werden dürfen.

voice_setting

object

erforderlich

Anzeigen properties

speed

float

Standard:"1.0"

Bereich [0.5,2], Standardwert ist 1.0Sprechgeschwindigkeit der generierten Stimme. Optional; je größer der Wert, desto schneller die Sprechgeschwindigkeit.

vol

float

Standard:"1.0"

Bereich (0,10], Standardwert ist 1.0Lautstärke der generierten Stimme. Optional; je größer der Wert, desto höher die Lautstärke.

pitch

int

Standard:"0"

Bereich [-12,12], Standardwert ist 0Tonlage der generierten Stimme. Optional; (0 steht für Ausgabe in der Originalstimme, der Wert muss eine Ganzzahl sein).

voice_id

string

Die angeforderte Stimm-ID. Entweder voice_id oder timbre_weights ist „erforderlich“.Unterstützt werden zwei Arten: Systemstimmen (id) und geklonte Stimmen (id). Die Systemstimmen (ID) sind wie folgt:

Junge, unerfahrene männliche Stimme: male-qn-qingse
Elite-Jugendstimme: male-qn-jingying
Dominante Jugendstimme: male-qn-badao
Männlicher Student: male-qn-daxuesheng
Mädchenstimme: female-shaonv
Reife, selbstbewusste Frauenstimme: female-yujie
Reife Frauenstimme: female-chengshu
Süße Frauenstimme: female-tianmei
Männlicher Moderator: presenter_male
Weibliche Moderatorin: presenter_female
Männliche Hörbuchstimme 1: audiobook_male_1
Männliche Hörbuchstimme 2: audiobook_male_2
Weibliche Hörbuchstimme 1: audiobook_female_1
Weibliche Hörbuchstimme 2: audiobook_female_2
Junge, unerfahrene männliche Stimme-beta: male-qn-qingse-jingpin
Elite-Jugendstimme-beta: male-qn-jingying-jingpin
Dominante Jugendstimme-beta: male-qn-badao-jingpin
Männlicher Student-beta: male-qn-daxuesheng-jingpin
Mädchenstimme-beta: female-shaonv-jingpin
Reife, selbstbewusste Frauenstimme-beta: female-yujie-jingpin
Reife Frauenstimme-beta: female-chengshu-jingpin
Süße Frauenstimme-beta: female-tianmei-jingpin
Schlauer Junge: clever_boy
Niedlicher Junge: cute_boy
Liebenswertes Mädchen: lovely_girl
Cartoon-Schwein Xiaoqi: cartoon_pig
Yandere-Jüngerer-Bruder: bingjiao_didi
Hübscher Freund: junlang_nanyou
Unschuldiger jüngerer Mitschüler: chunzhen_xuedi
Kühler älterer Mitschüler: lengdan_xiongzhang
Dominanter junger Herr: badao_shaoye
Sweetheart Xiaoling: tianxin_xiaoling
Verspieltes süßes Mädchen: qiaopi_mengmei
Verführerische reife Frauenstimme: wumei_yujie
Süßlich sprechende jüngere Mitschülerin: diadia_xuemei
Elegante ältere Mitschülerin: danya_xuejie
Santa Claus: Santa_Claus
Grinch: Grinch
Rudolph: Rudolph
Arnold: Arnold
Charming Santa: Charming_Santa
Charming Lady: Charming_Lady
Sweet Girl: Sweet_Girl
Cute Elf: Cute_Elf
Attractive Girl: Attractive_Girl
Serene Woman: Serene_Woman

emotion

string

Steuert die Emotion der synthetisierten Sprache;Derzeit werden 7 Emotionen unterstützt: glücklich, traurig, wütend, ängstlich, angewidert, überrascht, neutral;Parameterbereich: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

latex_read

bool

Standard:"false"

Steuert, ob das Vorlesen von latex-Formeln unterstützt wird. Standard ist false.Bitte beachten:

Formeln in der Anfrage müssen am Anfang und Ende mit $$ versehen werden;
Wenn eine Formel in der Anfrage "" enthält, muss dies zu ”\” escaped werden.

Beispiel: Die Grundformel der Ableitung lautet $$\\frac{d}{dx}(x^n) = nx^{n-1}$$

text_normalization

bool

Standard:"false"

Dieser Parameter unterstützt die Normalisierung englischer Texte und kann die Leistung in Szenarien zum Vorlesen von Zahlen verbessern, erhöht jedoch die Latenz geringfügig. Wenn er nicht bereitgestellt wird, ist der Standardwert false.

audio_setting

object

Anzeigen properties

sample_rate

int

Standard:"32000"

Bereich 【8000，16000，22050，24000，32000，44100】Abtastrate der generierten Stimme. Optional, Standard ist 32000.

bitrate

int

Standard:"128000"

Bereich 【32000，64000，128000，256000】Bitrate der generierten Stimme. Optional, Standardwert ist 128000. Dieser Parameter ist nur für Audio im mp3-Format wirksam.

format

string

Standard:"mp3"

Das generierte Audioformat. Standard ist mp3, Bereich [mp3,pcm,flac,wav]. wav wird nur bei nicht-streamender Ausgabe unterstützt.

channel

int

Standard:"1"

Anzahl der Kanäle des generierten Audios. Standard 1: Mono, optional:1: Mono2: Stereo

pronunciation_dict

object

Anzeigen properties

tone

list

Ersetzt Texte, Symbole und die entsprechenden phonetischen Notationen, die speziell gekennzeichnet werden müssen.Aussprache ersetzen (Ton anpassen/Aussprache anderer Zeichen ersetzen), Format wie folgt:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]Töne werden durch Zahlen ersetzt: erster Ton (Yinping) ist 1, zweiter Ton (Yangping) ist 2, dritter Ton (Shangsheng) ist 3, vierter Ton (Qusheng) ist 4, neutraler Ton ist 5.

timbre_weights

object[]

Entweder timbre_weights oder voice_id ist erforderlich

Anzeigen properties

voice_id

string

Die angeforderte Stimm-ID. Muss zusammen mit dem Parameter weight ausgefüllt werden.

weight

int

Bereich [1,100]Gewichtung; muss zusammen mit voice_id ausgefüllt werden. Es werden maximal 4 gemischte Stimmen unterstützt. Der Wert muss eine Ganzzahl sein; je höher der Anteil einer einzelnen Stimme, desto ähnlicher ist die synthetisierte Stimme dieser Stimme.

stream

boolean

Standard:"false"

Ob Streaming verwendet wird. Standard ist false, d. h. Streaming ist nicht aktiviert.

stream_options

object

Anzeigen properties

exclude_aggregated_audio

boolean

Standard:"false"

Wenn dieser Parameter auf True gesetzt ist, enthält der letzte Chunk beim Streaming nicht die vollständig zusammengesetzten Sprachdaten im Hex-Format. Standard ist False, d. h. der letzte Chunk enthält die vollständig zusammengesetzten Sprachdaten im Hex-Format.

language_boost

string

Standard:"null"

Verbessert die Erkennungsfähigkeit für angegebene kleinere Sprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit den angegebenen kleineren Sprachen/Dialekten verbessert werden. Wenn der Typ der kleineren Sprache nicht eindeutig ist, kann „auto“ ausgewählt werden; das Modell bestimmt den Typ der kleineren Sprache dann selbstständig. Unterstützte Werte:

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

output_format

string

Standard:"hex"

Parameter zur Steuerung der Form des Ausgabeergebnisses. Optionale Werte sind url hex. Standardwert ist hex. Dieser Parameter ist nur in nicht-streamenden Szenarien wirksam; in Streaming-Szenarien wird nur die Rückgabe in Hex-Form unterstützt. Die zurückgegebene url ist 24 Stunden gültig.

voice_modify

object

Einstellungen für Stimmeffekte. Dieser Parameter unterstützt die folgenden Audioformate:

Nicht-Streaming: mp3, wav, flac
Streaming: mp3

Anzeigen properties

pitch

integer

Tonhöhenanpassung (tiefer/heller), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto tiefer ist die Stimme; je näher an 100, desto heller ist die Stimme.

intensity

integer

Intensitätsanpassung (kraftvoll/weich), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto kräftiger ist die Stimme; je näher an 100, desto sanfter ist die Stimme.

timbre

integer

Klangfarbenanpassung (magnetisch/klar), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto voller ist die Stimme; je näher der Wert an 100 liegt, desto klarer ist die Stimme.

sound_effects

string

Soundeffekt-Einstellung; pro Anfrage kann nur eine Option ausgewählt werden. Optionale Werte:

spacious_echo（weiter Hall）
auditorium_echo（Aula-Übertragung）
lofi_telephone（Telefonverzerrung）
robotic（elektronische Stimme）

Antwortinformationen

audio

string

Das synthetisierte Audiosegment, hex-kodiert und gemäß dem in der Eingabe definierten Format (audio_setting.format) generiert (mp3/pcm/flac). Die Rückgabeform richtet sich nach der Definition von output_format; wenn stream true ist, wird nur die Rückgabe in Hex-Form unterstützt.

status

number

Aktueller Status des Audiostreams, wird nur zurückgegeben, wenn stream true ist. 1 bedeutet Synthese läuft, 2 bedeutet Synthese beendet.

MiniMax Speech-2.5-hd-preview Asynchrone Sprachsynthese

Zurück

Asynchrone Sprachsynthese mit MiniMax Speech-2.5-turbo-preview

Weiter

​Anfrageheader

​Anfragetext

​Antwortinformationen

Anfrageheader

Anfragetext

Antwortinformationen