MiniMax Speech 2.8 HD – Asynchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      "<string>"
    ]
  }
}
'

import requests

url = "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd"

payload = {
    "text": "<string>",
    "text_file_id": 123,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "audio_sample_rate": 123
    },
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "english_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "continuous_sound": True,
    "pronunciation_dict": { "tone": ["<string>"] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    text: '<string>',
    text_file_id: 123,
    voice_modify: {pitch: 123, timbre: 123, intensity: 123, sound_effects: '<string>'},
    audio_setting: {format: '<string>', bitrate: 123, channel: 123, audio_sample_rate: 123},
    voice_setting: {
      vol: 123,
      pitch: 123,
      speed: 123,
      emotion: '<string>',
      voice_id: '<string>',
      english_normalization: true
    },
    aigc_watermark: true,
    language_boost: '<string>',
    continuous_sound: true,
    pronunciation_dict: {tone: ['<string>']}
  })
};

fetch('https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'text' => '<string>',
    'text_file_id' => 123,
    'voice_modify' => [
        'pitch' => 123,
        'timbre' => 123,
        'intensity' => 123,
        'sound_effects' => '<string>'
    ],
    'audio_setting' => [
        'format' => '<string>',
        'bitrate' => 123,
        'channel' => 123,
        'audio_sample_rate' => 123
    ],
    'voice_setting' => [
        'vol' => 123,
        'pitch' => 123,
        'speed' => 123,
        'emotion' => '<string>',
        'voice_id' => '<string>',
        'english_normalization' => true
    ],
    'aigc_watermark' => true,
    'language_boost' => '<string>',
    'continuous_sound' => true,
    'pronunciation_dict' => [
        'tone' => [
                '<string>'
        ]
    ]
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd"

	payload := strings.NewReader("{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}"

response = http.request(request)
puts response.read_body

{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}

POST

async

minimax-speech-2.8-hd

MiniMax Speech 2.8 HD – Asynchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      "<string>"
    ]
  }
}
'

import requests

url = "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd"

payload = {
    "text": "<string>",
    "text_file_id": 123,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "audio_sample_rate": 123
    },
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "english_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "continuous_sound": True,
    "pronunciation_dict": { "tone": ["<string>"] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    text: '<string>',
    text_file_id: 123,
    voice_modify: {pitch: 123, timbre: 123, intensity: 123, sound_effects: '<string>'},
    audio_setting: {format: '<string>', bitrate: 123, channel: 123, audio_sample_rate: 123},
    voice_setting: {
      vol: 123,
      pitch: 123,
      speed: 123,
      emotion: '<string>',
      voice_id: '<string>',
      english_normalization: true
    },
    aigc_watermark: true,
    language_boost: '<string>',
    continuous_sound: true,
    pronunciation_dict: {tone: ['<string>']}
  })
};

fetch('https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'text' => '<string>',
    'text_file_id' => 123,
    'voice_modify' => [
        'pitch' => 123,
        'timbre' => 123,
        'intensity' => 123,
        'sound_effects' => '<string>'
    ],
    'audio_setting' => [
        'format' => '<string>',
        'bitrate' => 123,
        'channel' => 123,
        'audio_sample_rate' => 123
    ],
    'voice_setting' => [
        'vol' => 123,
        'pitch' => 123,
        'speed' => 123,
        'emotion' => '<string>',
        'voice_id' => '<string>',
        'english_normalization' => true
    ],
    'aigc_watermark' => true,
    'language_boost' => '<string>',
    'continuous_sound' => true,
    'pronunciation_dict' => [
        'tone' => [
                '<string>'
        ]
    ]
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd"

	payload := strings.NewReader("{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}"

response = http.request(request)
puts response.read_body

{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}

Verwenden Sie diese Schnittstelle, um eine asynchrone Sprachsynthese-Aufgabe zu erstellen. Text- oder Dateieingaben werden unterstützt; die Textlänge ist auf maximal 50.000 Zeichen begrenzt, Dateien auf maximal 100.000 Zeichen.

Dies ist eine asynchrone API und gibt nur die task_id der asynchronen Aufgabe zurück. Verwenden Sie diese task_id, um die API zum Abfragen des Aufgabenergebnisses aufzurufen und das generierte Ergebnis abzurufen.

Anfrageheader

string

erforderlich

Enumerationswert: application/json

string

erforderlich

Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragetext

string

Der Text, aus dem Audio synthetisiert werden soll; maximal 50.000 Zeichen. Entweder text oder text_file_id ist erforderlich.

• Interjektions-Tags: Nur wenn das Modell speech-2.8-hd oder speech-2.8-turbo ausgewählt ist, wird das Einfügen von Interjektions-Tags in den Text unterstützt. Unterstützte Interjektionen: (laughs) (Lachen), (chuckle) (Kichern), (coughs) (Husten), (clear-throat) (Räuspern), (groans) (Stöhnen), (breath) (normales Atmen), (pant) (Hecheln), (inhale) (Einatmen), (exhale) (Ausatmen), (gasps) (nach Luft schnappen), (sniffs) (Schniefen), (sighs) (Seufzen), (snorts) (Schnauben), (burps) (Rülpsen), (lip-smacking) (Schmatzen), (humming) (Summen), (hissing) (Zischen), (emm) (ähm), (whistles) (Pfeifen), (sneezes) (Niesen), (crying) (Schluchzen), (applause) (Applaus)

integer

Die ID der Textdatei, aus der Audio synthetisiert werden soll. Die Länge einer einzelnen Datei muss unter 100.000 Zeichen liegen. Unterstützte Dateiformate: txt, zip. Entweder text oder text_file_id ist erforderlich; nach der Übergabe wird das Format automatisch geprüft.
• txt-Datei: Längenbegrenzung <100000 Zeichen. Unterstützt die Verwendung von <#x#> zur Markierung benutzerdefinierter Pausen. x ist die Pausendauer (Einheit: Sekunden) im Bereich [0.01, 99.99] mit maximal zwei Dezimalstellen. Beachten Sie, dass Pausen zwischen zwei aussprechbaren Textabschnitten gesetzt werden müssen; mehrere Pausenmarkierungen dürfen nicht direkt hintereinander verwendet werden.
• zip-Datei:
• Das Archiv muss txt- oder json-Dateien desselben Formats enthalten.
• json-Dateiformat: Unterstützt die drei Felder [title, content, extra], die jeweils Titel, Haupttext und Zusatzinformationen darstellen. Wenn alle drei Felder vorhanden sind, werden 3 Ergebnisgruppen mit insgesamt 9 Dateien erzeugt und einheitlich in einem Ordner abgelegt. Wenn ein Feld nicht vorhanden ist oder der Inhalt leer ist, wird für dieses Feld kein entsprechendes Ergebnis generiert.

object

Ausblenden Eigenschaften

integer

Anpassung der Tonhöhe (dumpf/hell), Bereich [-100, 100]. Je näher der Wert an -100 liegt, desto tiefer wirkt die Stimme; je näher an 100, desto heller.Wertebereich: [-100, 100]

integer

Anpassung der Klangfarbe (magnetisch/klar), Bereich [-100, 100]. Je näher der Wert an -100 liegt, desto voller wirkt die Stimme; je näher an 100, desto klarer.Wertebereich: [-100, 100]

integer

Anpassung der Intensität (kraftvoll/weich), Bereich [-100, 100]. Je näher der Wert an -100 liegt, desto kräftiger wirkt die Stimme; je näher an 100, desto sanfter.Wertebereich: [-100, 100]

string

Einstellung von Soundeffekten; pro Aufruf kann nur eine Option ausgewählt werden. Mögliche Werte:

spacious_echo (weiter Hall)
auditorium_echo (Aula-/Hallendurchsage)
lofi_telephone (Telefonverzerrung)
robotic (elektronischer Stimmeffekt)

Zulässige Werte: spacious_echo, auditorium_echo, lofi_telephone, robotic

object

Ausblenden Eigenschaften

string

Standard:"mp3"

Format des generierten Audios. Mögliche Werte: [mp3, pcm, flac], Standardwert ist mp3Zulässige Werte: mp3, pcm, flac

integer

Standard:128000

Bitrate des generierten Audios. Mögliche Werte: [32000, 64000, 128000, 256000], Standardwert ist 128000. Dieser Parameter gilt nur für Audio im Format mp3.

integer

Standard:2

Anzahl der Kanäle des generierten Audios. Mögliche Werte: [1, 2], wobei 1 für Mono und 2 für Stereo steht. Standardwert ist 1.

integer

Standard:32000

Abtastrate des generierten Audios. Mögliche Werte: [8000, 16000, 22050, 24000, 32000, 44100], Standardwert ist 32000.

object

erforderlich

Ausblenden Eigenschaften

number

Standard:1

Lautstärke des synthetisierten Audios. Je größer der Wert, desto höher die Lautstärke. Wertebereich (0, 10], Standardwert ist 1.0.Wertebereich: [0, 10]

integer

Standard:0

Intonation des synthetisierten Audios. Wertebereich [-12, 12], Standardwert ist 0, wobei 0 die Ausgabe in der ursprünglichen Klangfarbe bedeutet.Wertebereich: [-12, 12]

number

Standard:1

Sprechgeschwindigkeit des synthetisierten Audios. Je größer der Wert, desto schneller die Sprechgeschwindigkeit. Wertebereich [0.5, 2], Standardwert ist 1.0.Wertebereich: [0.5, 2]

string

Steuert die Emotion der synthetisierten Sprache. Parameterbereich: [“happy”, “sad”, “angry”, “fearful”, “disgusted”, “surprised”, “calm”, “fluent”, “whisper”], entsprechend den Emotionen: fröhlich, traurig, wütend, ängstlich, angewidert, überrascht, neutral, lebendig, flüsternd
• Das Modell wählt automatisch eine passende Emotion basierend auf dem Eingabetext aus; in der Regel ist keine manuelle Angabe erforderlich.
• Dieser Parameter wirkt nur für die Modelle speech-2.6-hd, speech-2.6-turbo, speech-01-hd, speech-01-turbo.
• Die Optionen fluent, whisper wirken nur für die Modelle speech-2.6-turbo, speech-2.6-hd.Zulässige Werte: happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper

string

erforderlich

Klangfarben-ID des synthetisierten Audios. Wenn eine gemischte Klangfarbe festgelegt werden soll, setzen Sie den Parameter timber_weights und lassen Sie diesen Parameter leer. Es werden drei Arten von Klangfarben unterstützt: Systemklangfarben, replizierte Klangfarben und per Text erzeugte Klangfarben. Nachfolgend finden Sie einige der neuesten Systemklangfarben (ID); Sie können alle offiziell unterstützten Klangfarben einsehen.
• Chinesisch:
• moss_audio_ce44fc67-7ce3-11f0-8de5-96e35d26fb85
• moss_audio_aaa1346a-7ce7-11f0-8e61-2e6e3c7ee85d
• Chinese (Mandarin)_Lyrical_Voice
• Chinese (Mandarin)_HK_Flight_Attendant
• Englisch:
• English_Graceful_Lady
• English_Insightful_Speaker
• English_radiant_girl
• English_Persuasive_Man
• moss_audio_6dc281eb-713c-11f0-a447-9613c873494c
• moss_audio_570551b1-735c-11f0-b236-0adeeecad052
• moss_audio_ad5baf92-735f-11f0-8263-fe5a2fe98ec8
• English_Lucky_Robot
• Japanisch:
• Japanese_Whisper_Belle
• moss_audio_24875c4a-7be4-11f0-9359-4e72c55db738
• moss_audio_7f4ee608-78ea-11f0-bb73-1e2a4cfcd245
• moss_audio_c1a6a3ac-7be6-11f0-8e8e-36b92fbb4f95

boolean

Standard:false

Unterstützt die Normalisierung englischer Texte. Nach der Aktivierung kann die Leistung in Szenarien mit Zahlenvorlesung verbessert werden, allerdings erhöht sich die Latenz geringfügig. Standardwert: false.

boolean

Standard:false

Steuert, ob am Ende des synthetisierten Audios eine Audio-Rhythmuskennung hinzugefügt wird. Standardwert ist False. Dieser Parameter wirkt nur bei nicht-streamender Synthese.

string

Gibt an, ob die Erkennungsfähigkeit für bestimmte weniger verbreitete Sprachen und Dialekte verbessert werden soll. Standardwert ist null; kann auf auto gesetzt werden, damit das Modell selbstständig entscheidet.Zulässige Werte: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto

boolean

Standard:false

Aktivieren Sie diesen Parameter, damit Übergänge zwischen Teilsätzen natürlicher wirken. Unterstützt nur die Modelle speech-2.8-hd und speech-2.8-turbo.

object

Ausblenden Eigenschaften

string[]

Definiert Regeln für phonetische Annotationen oder Ausspracheersetzungen für Wörter oder Symbole, die speziell gekennzeichnet werden müssen. In chinesischen Texten werden Töne durch Zahlen dargestellt: erster Ton als 1, zweiter Ton als 2, dritter Ton als 3, vierter Ton als 4, neutraler Ton als 5. Beispiele: [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]

Antwortinformationen

integer

Die ID der entsprechenden Audiodatei, die nach erfolgreicher Erstellung der Aufgabe zurückgegeben wird.

• Nachdem die Aufgabe abgeschlossen ist, kann sie über file_id abgefragt werden. Bei einem Anfragefehler wird dieses Feld nicht zurückgegeben.Hinweis: Die zurückgegebene Download-URL ist ab ihrer Generierung 9 Stunden (32400 Sekunden) lang gültig. Nach Ablauf wird die Datei ungültig, und die generierten Informationen gehen verloren. Achten Sie daher auf den Zeitpunkt der Download-Informationen.

string

Verwenden Sie task_id, um die API zum Abfragen des Aufgabenergebnisses aufzurufen und die generierte Ausgabe abzurufen.

object

Ausblenden Eigenschaften

string

erforderlich

Statusdetails

integer

erforderlich

Statuscode

• 0: Normal
• 1002: Ratenbegrenzung
• 1004: Authentifizierung fehlgeschlagen
• 1039: TPM-Ratenbegrenzung ausgelöst
• 1042: Ungültige Zeichen über 10 %
• 2013: Parameterfehler

string

Schlüsselinfo, die zum Abschließen der aktuellen Aufgabe verwendet wurde

integer

Anzahl der abrechnungsrelevanten Zeichen

MiniMax Speech 2.8 Turbo synchrone Sprachsynthese

Zurück

MiniMax Speech 2.8 HD synchrone Sprachsynthese

Weiter

API-Grundlagen

Große Sprachmodelle

Bilder

Video

Audio

MiniMax Speech 2.8 HD – Asynchrone Sprachsynthese

Anfrageheader

Anfragetext

Antwortinformationen

​Anfrageheader

​Anfragetext

​Antwortinformationen

Anfrageheader

Anfragetext

Antwortinformationen