Zum Hauptinhalt springen
POST
/
v3
/
minimax-speech-2.6-hd
MiniMax Speech-2.6-hd synchrone Sprachsynthese
curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.6-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'
{
  "audio": "<string>",
  "status": 123
}
Diese API unterstützt die synchrone Generierung von Text-zu-Sprache, mit maximal 10000 Zeichen pro Textübertragung. Sie unterstützt 100+ Systemstimmen sowie frei auswählbare geklonte Stimmen; Anpassungen von Lautstärke, Tonhöhe, Sprechgeschwindigkeit und Ausgabeformat; proportionale Stimmmischung und Steuerung fester Intervallzeiten; sowie verschiedene Audiospezifikationen und -formate, darunter: mp3, pcm, flac, wav, mit Unterstützung für Streaming-Ausgabe. Nach dem Absenden einer Anfrage zur Sprachsynthese für langen Text ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Bitte achten Sie auf den Zeitpunkt des Downloads der Informationen.
Geeignet für Szenarien wie Kurzsatzgenerierung, Sprachchat und Online-Socializing. Die Verarbeitung dauert nur kurz, aber die Textlängenbegrenzung liegt unter 10000 Zeichen. Für lange Texte wird die Verwendung von asynchroner Sprachsynthese empfohlen.

Anfrage-Header

Content-Type
string
erforderlich
Enumerationswert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragebody

text
string
erforderlich
Der zu synthetisierende Text, mit einer Längenbegrenzung von weniger als 10000 Zeichen. Absatzwechsel werden durch Zeilenumbrüche ersetzt. (Wenn die Intervallzeit innerhalb der Sprache gesteuert werden soll, fügen Sie zwischen Zeichen <#x#> ein, wobei x in Sekunden angegeben wird, 0.01-99.99 unterstützt und maximal zwei Dezimalstellen erlaubt sind.) Benutzerdefinierte Sprachintervalle zwischen Texten werden unterstützt, um benutzerdefinierte Pausenzeiten in der Text-zu-Sprache-Ausgabe zu erzielen. Zu beachten ist, dass die Textintervallzeit zwischen zwei aussprechbaren Textabschnitten gesetzt werden muss und nicht mehrere aufeinanderfolgende Zeitintervalle gesetzt werden dürfen.
voice_setting
object
erforderlich
audio_setting
object
pronunciation_dict
object
timbre_weights
object[]
Entweder dies oder voice_id ist erforderlich
stream
boolean
Standard:"false"
Ob Streaming verwendet wird. Standardmäßig false, d. h. Streaming ist nicht aktiviert.
stream_options
object
language_boost
string
Standard:"null"
Verbessert die Erkennung für bestimmte kleinere Sprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit der angegebenen Kleinsprache/dem angegebenen Dialekt verbessert werden. Wenn der Typ der Kleinsprache nicht eindeutig ist, kann “auto” gewählt werden; das Modell bestimmt den Typ der Kleinsprache selbstständig. Unterstützte Werte:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
output_format
string
Standard:"hex"
Parameter zur Steuerung der Ausgabeform des Ergebnisses. Mögliche Werte sind url hex. Standardwert ist hex. Dieser Parameter gilt nur für Nicht-Streaming-Szenarien; in Streaming-Szenarien wird ausschließlich die Rückgabe in hex-Form unterstützt. Die zurückgegebene url ist 24 Stunden gültig.
voice_modify
object
Einstellung für Stimmeffekte; dieser Parameter unterstützt die folgenden Audioformate:
  • Nicht-Streaming: mp3, wav, flac
  • Streaming: mp3

Antwortinformationen

audio
string
Das synthetisierte Audiosegment, hex-codiert und gemäß dem in der Eingabe definierten Format (audio_setting.format) generiert (mp3/pcm/flac). Die Rückgabeform richtet sich nach der Definition von output_format; wenn stream true ist, wird nur die Rückgabeform hex unterstützt.
status
number
Aktueller Status des Audiostreams, wird nur zurückgegeben, wenn stream true ist. 1 bedeutet Synthese läuft, 2 bedeutet Synthese abgeschlossen.