MiniMax Speech 2.8 HD synchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}

POST

minimax-speech-2.8-hd

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}

Konvertiert Text in Sprache und unterstützt verschiedene Stimmen, Emotionssteuerung, Anpassung der Sprechgeschwindigkeit und weitere Funktionen. Die Textlänge ist auf weniger als 10000 Zeichen begrenzt. Wenn die Textlänge mehr als 3000 Zeichen beträgt, wird die Verwendung von Streaming-Ausgabe empfohlen.

Anfrage-Header

Content-Type

string

erforderlich

Enumerationswert: application/json

Authorization

string

erforderlich

Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragekörper

text

string

erforderlich

Der Text, der in Sprache synthetisiert werden soll. Die Länge ist auf weniger als 10000 Zeichen begrenzt. Wenn die Textlänge mehr als 3000 Zeichen beträgt, wird die Verwendung von Streaming-Ausgabe empfohlen. Unterstützt Absatzwechsel (Zeilenumbrüche), Pausensteuerung (<#x#>-Markierung) und Interjektions-/Paralinguistik-Tags (z. B. (laughs), (coughs) usw.; nur von speech-2.8-hd/turbo unterstützt)

stream

boolean

Standard:false

Steuert, ob Streaming-Ausgabe verwendet wird. Standardmäßig false, d. h. Streaming ist nicht aktiviert

voice_modify

object

Ausblenden Eigenschaften

pitch

integer

Anpassung der Tonhöhe (tief/hell), Bereich [-100, 100]. Je näher der Wert an -100 liegt, desto tiefer ist die Stimme; je näher an 100, desto heller ist die StimmeWertebereich: [-100, 100]

timbre

integer

Anpassung der Klangfarbe (magnetisch/klar), Bereich [-100, 100]. Je näher der Wert an -100 liegt, desto voller ist die Stimme; je näher der Wert an 100 liegt, desto klarer ist die StimmeWertebereich: [-100, 100]

intensity

integer

Anpassung der Intensität (kraftvoll/weich), Bereich [-100, 100]. Je näher der Wert an -100 liegt, desto kräftiger ist die Stimme; je näher an 100, desto sanfter ist die StimmeWertebereich: [-100, 100]

sound_effects

string

Soundeffekt-Einstellung; pro Anfrage kann nur eine Option ausgewählt werden. Mögliche Werte: spacious_echo (weiter Hall), auditorium_echo (Auditoriumsübertragung), lofi_telephone (Telefonverzerrung), robotic (elektronische Stimme)Mögliche Werte: spacious_echo, auditorium_echo, lofi_telephone, robotic

audio_setting

object

Ausblenden Eigenschaften

format

string

Standard:"mp3"

Format der generierten Audiodatei; wav wird nur bei nicht gestreamter Ausgabe unterstütztMögliche Werte: mp3, pcm, flac, wav

bitrate

integer

Standard:128000

Bitrate der generierten Audiodatei. Möglicher Bereich [32000, 64000, 128000, 256000], Standardwert ist 128000. Dieser Parameter wirkt sich nur auf Audio im mp3-Format ausMögliche Werte: 32000, 64000, 128000, 256000

channel

integer

Standard:1

Anzahl der Kanäle der generierten Audiodatei. Möglicher Bereich: [1, 2], wobei 1 Mono und 2 Stereo bedeutet; Standardwert ist 1Mögliche Werte: 1, 2

force_cbr

boolean

Standard:false

Steuerung der konstanten Audiobitrate (cbr), mögliche Werte sind false und true. Wenn dieser Parameter auf true gesetzt ist, wird die Audiocodierung mit konstanter Bitrate durchgeführt. Hinweis: Dieser Parameter ist nur wirksam, wenn die Audioausgabe auf Streaming gesetzt ist und das Audioformat mp3 ist

sample_rate

integer

Standard:32000

Abtastrate der generierten Audiodatei. Möglicher Bereich [8000, 16000, 22050, 24000, 32000, 44100], Standardwert ist 32000Mögliche Werte: 8000, 16000, 22050, 24000, 32000, 44100

output_format

string

Standard:"hex"

Parameter zur Steuerung des Ausgabeformats. Mögliche Werte sind url und hex, Standardwert ist hex. Dieser Parameter ist nur in nicht gestreamten Szenarien wirksam; Streaming-Szenarien unterstützen nur die Rückgabe im hex-Format. Die zurückgegebene url ist 24 Stunden gültigMögliche Werte: url, hex

voice_setting

object

Ausblenden Eigenschaften

vol

number

Standard:1

Lautstärke der synthetisierten Audiodatei. Je größer der Wert, desto höher die Lautstärke. Wertebereich (0, 10], Standardwert ist 1.0Wertebereich: [0, 10]

pitch

integer

Standard:0

Intonation der synthetisierten Audiodatei. Wertebereich [-12, 12], Standardwert ist 0, wobei 0 die Ausgabe in der Originalstimme bedeutetWertebereich: [-12, 12]

speed

number

Standard:1

Sprechgeschwindigkeit der synthetisierten Audiodatei. Je größer der Wert, desto schneller die Sprechgeschwindigkeit. Wertebereich [0.5, 2], Standardwert ist 1.0Wertebereich: [0.5, 2]

emotion

string

Steuert die Emotion der synthetisierten Sprache. Der Parameterbereich entspricht 8 Emotionen: glücklich (happy), traurig (sad), wütend (angry), ängstlich (fearful), angewidert (disgusted), überrascht (surprised), neutral (calm), lebhaft (fluent), Flüstern (whisper). Das Modell wählt basierend auf dem Eingabetext automatisch eine geeignete Emotion aus; in der Regel ist keine manuelle Angabe erforderlichMögliche Werte: happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper

voice_id

string

erforderlich

Stimmen-ID der synthetisierten Audiodatei. Wenn eine gemischte Stimme festgelegt werden soll, setzen Sie den Parameter timber_weights und lassen Sie diesen Parameter leer. Unterstützt drei Typen: Systemstimmen, geklonte Stimmen und per Text generierte Stimmen

latex_read

boolean

Standard:false

Steuert, ob latex-Formeln vorgelesen werden. Standardwert ist false. Unterstützt nur Chinesisch; nach Aktivierung dieses Parameters wird der Parameter language_boost auf Chinese gesetzt

text_normalization

boolean

Standard:false

Gibt an, ob die Textnormalisierung für Chinesisch und Englisch aktiviert wird. Nach Aktivierung kann die Leistung in Szenarien mit Zahlenlesung verbessert werden, erhöht jedoch geringfügig die Latenz. Standardwert ist false

aigc_watermark

boolean

Standard:false

Steuert, ob am Ende der synthetisierten Audiodatei eine Audio-Rhythmuskennung hinzugefügt wird. Standardwert ist false. Dieser Parameter ist nur für nicht gestreamte Synthese wirksam

language_boost

string

Gibt an, ob die Erkennungsfähigkeit für bestimmte weniger verbreitete Sprachen und Dialekte verbessert werden soll. Standardwert ist null; kann auf auto gesetzt werden, damit das Modell selbstständig entscheidetMögliche Werte: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto

stream_options

object

Ausblenden Eigenschaften

exclude_aggregated_audio

boolean

Standard:false

Legt fest, ob der letzte chunk die zusammengefügten Sprach-hex-Daten enthält. Standardwert ist false, d. h. der letzte chunk enthält die vollständig zusammengefügten Sprach-hex-Daten

timber_weights

array

Einstellung für gemischte Stimmen; unterstützt die Mischung von maximal 4 Stimmen

Ausblenden Eigenschaften

weight

integer

erforderlich

Gewichtung der einzelnen Stimmen in der synthetisierten Audiodatei; muss zusammen mit voice_id ausgefüllt werden. Möglicher Wertebereich ist [1, 100]. Es werden maximal 4 gemischte Stimmen unterstützt. Je höher der Anteil einer einzelnen Stimme, desto ähnlicher ist die synthetisierte Stimme dieser StimmeWertebereich: [1, 100]

voice_id

string

erforderlich

Stimmen-ID der synthetisierten Audiodatei; muss zusammen mit dem Parameter weight ausgefüllt werden. Unterstützt drei Typen: Systemstimmen, geklonte Stimmen und per Text generierte Stimmen

subtitle_enable

boolean

Standard:false

Steuert, ob der Untertiteldienst aktiviert wird. Standardwert ist false. Dieser Parameter ist nur in Szenarien mit nicht gestreamter Ausgabe gültig und nur für die Modelle speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd wirksam

continuous_sound

boolean

Standard:false

Aktivieren Sie diesen Parameter, damit Übergänge zwischen Teilsätzen natürlicher klingen. Unterstützt nur die Modelle speech-2.8-hd und speech-2.8-turbo

pronunciation_dict

object

Ausblenden Eigenschaften

tone

array

Definiert Aussprache- oder Ausspracheersetzungsregeln für Zeichen oder Symbole, die speziell annotiert werden müssen. In chinesischen Texten werden Töne mit Zahlen angegeben: erster Ton als 1, zweiter Ton als 2, dritter Ton als 3, vierter Ton als 4, neutraler Ton als 5. Beispiel: [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]