MiniMax Speech 2.8 Turbo asynchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      "<string>"
    ]
  }
}
'

import requests

url = "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo"

payload = {
    "text": "<string>",
    "text_file_id": 123,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "audio_sample_rate": 123
    },
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "english_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "continuous_sound": True,
    "pronunciation_dict": { "tone": ["<string>"] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    text: '<string>',
    text_file_id: 123,
    voice_modify: {pitch: 123, timbre: 123, intensity: 123, sound_effects: '<string>'},
    audio_setting: {format: '<string>', bitrate: 123, channel: 123, audio_sample_rate: 123},
    voice_setting: {
      vol: 123,
      pitch: 123,
      speed: 123,
      emotion: '<string>',
      voice_id: '<string>',
      english_normalization: true
    },
    aigc_watermark: true,
    language_boost: '<string>',
    continuous_sound: true,
    pronunciation_dict: {tone: ['<string>']}
  })
};

fetch('https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'text' => '<string>',
    'text_file_id' => 123,
    'voice_modify' => [
        'pitch' => 123,
        'timbre' => 123,
        'intensity' => 123,
        'sound_effects' => '<string>'
    ],
    'audio_setting' => [
        'format' => '<string>',
        'bitrate' => 123,
        'channel' => 123,
        'audio_sample_rate' => 123
    ],
    'voice_setting' => [
        'vol' => 123,
        'pitch' => 123,
        'speed' => 123,
        'emotion' => '<string>',
        'voice_id' => '<string>',
        'english_normalization' => true
    ],
    'aigc_watermark' => true,
    'language_boost' => '<string>',
    'continuous_sound' => true,
    'pronunciation_dict' => [
        'tone' => [
                '<string>'
        ]
    ]
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo"

	payload := strings.NewReader("{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}"

response = http.request(request)
puts response.read_body

{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}

POST

async

minimax-speech-2.8-turbo

MiniMax Speech 2.8 Turbo asynchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      "<string>"
    ]
  }
}
'

import requests

url = "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo"

payload = {
    "text": "<string>",
    "text_file_id": 123,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "audio_sample_rate": 123
    },
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "english_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "continuous_sound": True,
    "pronunciation_dict": { "tone": ["<string>"] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    text: '<string>',
    text_file_id: 123,
    voice_modify: {pitch: 123, timbre: 123, intensity: 123, sound_effects: '<string>'},
    audio_setting: {format: '<string>', bitrate: 123, channel: 123, audio_sample_rate: 123},
    voice_setting: {
      vol: 123,
      pitch: 123,
      speed: 123,
      emotion: '<string>',
      voice_id: '<string>',
      english_normalization: true
    },
    aigc_watermark: true,
    language_boost: '<string>',
    continuous_sound: true,
    pronunciation_dict: {tone: ['<string>']}
  })
};

fetch('https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'text' => '<string>',
    'text_file_id' => 123,
    'voice_modify' => [
        'pitch' => 123,
        'timbre' => 123,
        'intensity' => 123,
        'sound_effects' => '<string>'
    ],
    'audio_setting' => [
        'format' => '<string>',
        'bitrate' => 123,
        'channel' => 123,
        'audio_sample_rate' => 123
    ],
    'voice_setting' => [
        'vol' => 123,
        'pitch' => 123,
        'speed' => 123,
        'emotion' => '<string>',
        'voice_id' => '<string>',
        'english_normalization' => true
    ],
    'aigc_watermark' => true,
    'language_boost' => '<string>',
    'continuous_sound' => true,
    'pronunciation_dict' => [
        'tone' => [
                '<string>'
        ]
    ]
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo"

	payload := strings.NewReader("{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"text\": \"<string>\",\n  \"text_file_id\": 123,\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"timbre\": 123,\n    \"intensity\": 123,\n    \"sound_effects\": \"<string>\"\n  },\n  \"audio_setting\": {\n    \"format\": \"<string>\",\n    \"bitrate\": 123,\n    \"channel\": 123,\n    \"audio_sample_rate\": 123\n  },\n  \"voice_setting\": {\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"speed\": 123,\n    \"emotion\": \"<string>\",\n    \"voice_id\": \"<string>\",\n    \"english_normalization\": true\n  },\n  \"aigc_watermark\": true,\n  \"language_boost\": \"<string>\",\n  \"continuous_sound\": true,\n  \"pronunciation_dict\": {\n    \"tone\": [\n      \"<string>\"\n    ]\n  }\n}"

response = http.request(request)
puts response.read_body

{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}

Verwenden Sie diese Schnittstelle, um eine asynchrone Sprachsynthese-Aufgabe zu erstellen. Unterstützt Text- oder Dateieingaben; die Textlänge ist auf maximal 50.000 Zeichen begrenzt, Dateien auf maximal 100.000 Zeichen.

Dies ist eine asynchrone API und gibt nur die task_id der asynchronen Aufgabe zurück. Sie sollten diese task_id verwenden, um über die API zum Abfragen des Aufgabenergebnisses das generierte Ergebnis abzurufen.

Anfrage-Header

string

erforderlich

Enumerationswert: application/json

string

erforderlich

Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragebody

string

Der Text, der zu Audio synthetisiert werden soll, begrenzt auf maximal 50.000 Zeichen. Entweder text oder text_file_id ist erforderlich

• Interjektions-Tags: Nur wenn das Modell speech-2.8-hd oder speech-2.8-turbo ausgewählt ist, wird das Einfügen von Interjektions-Tags in den Text unterstützt. Unterstützte Interjektionen: (laughs) (Lachen), (chuckle) (Kichern), (coughs) (Husten), (clear-throat) (Räuspern), (groans) (Stöhnen), (breath) (normales Atmen), (pant) (hecheln), (inhale) (einatmen), (exhale) (ausatmen), (gasps) (nach Luft schnappen), (sniffs) (schniefen), (sighs) (seufzen), (snorts) (schnauben), (burps) (rülpsen), (lip-smacking) (Schmatzen), (humming) (Summen), (hissing) (Zischen), (emm) (ähm), (whistles) (Pfeifen), (sneezes) (Niesen), (crying) (Schluchzen), (applause) (Applaus)

integer

Die ID der Textdatei, die zu Audio synthetisiert werden soll. Die Länge einer einzelnen Datei ist auf weniger als 100.000 Zeichen begrenzt. Unterstützte Dateiformate: txt, zip. Entweder text oder text_file_id ist erforderlich; nach der Übermittlung wird das Format automatisch geprüft.
• txt-Datei: Längenbegrenzung <100,000 Zeichen. Unterstützt die Verwendung von <#x#> zur Markierung benutzerdefinierter Pausen. x ist die Pausendauer (Einheit: Sekunden), Bereich [0.01,99.99], maximal zwei Dezimalstellen. Beachten Sie, dass Pausen zwischen zwei sprachlich aussprechbaren Textabschnitten gesetzt werden müssen; mehrere Pausenmarkierungen dürfen nicht direkt hintereinander verwendet werden
• zip-Datei:
• Das Archiv muss txt- oder json-Dateien desselben Formats enthalten.
• json-Dateiformat: Unterstützt die drei Felder [title, content, extra], die jeweils Titel, Haupttext und Zusatzinformationen darstellen. Wenn alle drei Felder vorhanden sind, werden 3 Ergebnisgruppen mit insgesamt 9 Dateien erzeugt und gemeinsam in einem Ordner gespeichert. Wenn ein Feld nicht vorhanden ist oder der Inhalt leer ist, wird für dieses Feld kein entsprechendes Ergebnis generiert

object

Ausblenden properties

integer

Anpassung der Tonhöhe (tief/hell), Bereich [-100, 100]. Je näher der Wert an -100 liegt, desto tiefer klingt die Stimme; je näher an 100, desto heller klingt sieWertebereich: [-100, 100]

integer

Anpassung der Klangfarbe (magnetisch/klar), Bereich [-100, 100]. Je näher der Wert an -100 liegt, desto voller klingt die Stimme; je näher der Wert an 100 liegt, desto klarer klingt sieWertebereich: [-100, 100]

integer

Anpassung der Intensität (kraftvoll/sanft), Bereich [-100, 100]. Je näher der Wert an -100 liegt, desto kraftvoller klingt die Stimme; je näher an 100, desto sanfter klingt sieWertebereich: [-100, 100]

string

Audioeffekt-Einstellung; pro Anfrage kann nur eine Option ausgewählt werden. Mögliche Werte:

spacious_echo (weiter Echoeffekt)
auditorium_echo (Auditoriumsansage)
lofi_telephone (Telefonverzerrung)
robotic (elektronische Stimme)

Mögliche Werte: spacious_echo, auditorium_echo, lofi_telephone, robotic

object

Ausblenden properties

string

Standard:"mp3"

Format des generierten Audios. Möglicher Bereich [mp3, pcm, flac], Standardwert ist mp3Mögliche Werte: mp3, pcm, flac

integer

Standard:128000

Bitrate des generierten Audios. Möglicher Bereich [32000, 64000, 128000, 256000], Standardwert ist 128000. Dieser Parameter ist nur für Audio im Format mp3 wirksam

integer

Standard:2

Anzahl der Kanäle des generierten Audios. Möglicher Bereich: [1, 2], wobei 1 Mono und 2 Stereo ist; Standardwert ist 1

integer

Standard:32000

Abtastrate des generierten Audios. Möglicher Bereich [8000, 16000, 22050, 24000, 32000, 44100], Standardwert ist 32000

object

erforderlich

Ausblenden properties

number

Standard:1

Lautstärke des synthetisierten Audios. Je größer der Wert, desto höher die Lautstärke. Wertebereich (0, 10], Standardwert ist 1.0Wertebereich: [0, 10]

integer

Standard:0

Intonation des synthetisierten Audios, Wertebereich [-12, 12], Standardwert ist 0, wobei 0 die Ausgabe der ursprünglichen Klangfarbe bedeutetWertebereich: [-12, 12]

number

Standard:1

Sprechgeschwindigkeit des synthetisierten Audios. Je größer der Wert, desto schneller die Sprechgeschwindigkeit. Wertebereich [0.5, 2], Standardwert ist 1.0Wertebereich: [0.5, 2]

string

Steuert die Emotion der synthetisierten Sprache. Parameterbereich [“happy”, “sad”, “angry”, “fearful”, “disgusted”, “surprised”, “calm”, “fluent”, “whisper”], entsprechend 8 Emotionen: fröhlich, traurig, wütend, ängstlich, angewidert, überrascht, neutral, lebendig, flüsternd
• Das Modell passt normalerweise basierend auf dem Eingabetext automatisch eine geeignete Emotion an; in der Regel ist keine manuelle Angabe erforderlich
• Dieser Parameter ist nur für die Modelle speech-2.6-hd, speech-2.6-turbo, speech-01-hd, speech-01-turbo wirksam
• Die Optionen fluent, whisper sind nur für die Modelle speech-2.6-turbo, speech-2.6-hd wirksamMögliche Werte: happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper

string

erforderlich

Klangfarben-ID des synthetisierten Audios. Wenn eine gemischte Klangfarbe festgelegt werden soll, setzen Sie den Parameter timber_weights und lassen Sie diesen Parameter leer. Unterstützt werden drei Arten: System-Klangfarben, replizierte Klangfarben und Text-zu-Stimme-Klangfarben. Im Folgenden finden Sie einige der neuesten System-Klangfarben (IDs); alle offiziell unterstützten Klangfarben können eingesehen werden
• Chinesisch:
• moss_audio_ce44fc67-7ce3-11f0-8de5-96e35d26fb85
• moss_audio_aaa1346a-7ce7-11f0-8e61-2e6e3c7ee85d
• Chinese (Mandarin)_Lyrical_Voice
• Chinese (Mandarin)_HK_Flight_Attendant
• Englisch:
• English_Graceful_Lady
• English_Insightful_Speaker
• English_radiant_girl
• English_Persuasive_Man
• moss_audio_6dc281eb-713c-11f0-a447-9613c873494c
• moss_audio_570551b1-735c-11f0-b236-0adeeecad052
• moss_audio_ad5baf92-735f-11f0-8263-fe5a2fe98ec8
• English_Lucky_Robot
• Japanisch:
• Japanese_Whisper_Belle
• moss_audio_24875c4a-7be4-11f0-9359-4e72c55db738
• moss_audio_7f4ee608-78ea-11f0-bb73-1e2a4cfcd245
• moss_audio_c1a6a3ac-7be6-11f0-8e8e-36b92fbb4f95

boolean

Standard:false

Unterstützt die Normalisierung englischer Texte. Nach der Aktivierung kann die Leistung in Szenarien mit Zahlenlesung verbessert werden, erhöht jedoch geringfügig die Latenz; Standardwert false

boolean

Standard:false

Steuert, ob am Ende des synthetisierten Audios eine Audio-Rhythmuskennung hinzugefügt wird. Standardwert ist False. Dieser Parameter ist nur für nicht-streamende Synthese wirksam

string

Ob die Erkennungsfähigkeit für bestimmte weniger verbreitete Sprachen und Dialekte verbessert werden soll. Standardwert ist null; kann auf auto gesetzt werden, damit das Modell selbstständig entscheidet.Mögliche Werte: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto

boolean

Standard:false

Aktivieren Sie diesen Parameter, damit Übergänge zwischen Teilsätzen natürlicher klingen. Nur die Modelle speech-2.8-hd und speech-2.8-turbo werden unterstützt

object

Ausblenden properties

string[]

Definiert Aussprache- oder Lautersetzungsregeln für Zeichen oder Symbole, die speziell markiert werden müssen. In chinesischen Texten werden Töne durch Zahlen dargestellt: Erster Ton ist 1, zweiter Ton ist 2, dritter Ton ist 3, vierter Ton ist 4, neutraler Ton ist 5 Beispiele: [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]

Antwortinformationen

integer

Die ID der entsprechenden Audiodatei, die nach erfolgreicher Erstellung der Aufgabe zurückgegeben wird.

• Nach Abschluss der Aufgabe kann über file_id abgefragt werden. Bei einem Fehler in der Anfrage wird dieses Feld nicht zurückgegebenHinweis: Die zurückgegebene Download-URL ist ab der Generierung 9 Stunden (32400 Sekunden) lang gültig. Nach Ablauf wird die Datei ungültig und die generierten Informationen gehen verloren. Bitte achten Sie auf den Zeitpunkt der Download-Informationen

string

Verwenden Sie task_id, um über die API zum Abfragen des Aufgabenergebnisses die generierte Ausgabe abzurufen.

object

Ausblenden properties

string

erforderlich

Statusdetails

integer

erforderlich

Statuscode

• 0: Normal
• 1002: Ratenbegrenzung
• 1004: Authentifizierung fehlgeschlagen
• 1039: TPM-Ratenbegrenzung ausgelöst
• 1042: Ungültige Zeichen überschreiten 10 %
• 2013: Parameterfehler

string

Für den Abschluss der aktuellen Aufgabe verwendete Schlüsselinformationen

integer

Anzahl der abgerechneten Zeichen

MiniMax Speech-2.6-turbo asynchrone Sprachsynthese

Zurück

MiniMax Speech 2.8 Turbo synchrone Sprachsynthese

Weiter

API-Grundlagen

Große Sprachmodelle

Bilder

Video

Audio

MiniMax Speech 2.8 Turbo asynchrone Sprachsynthese

Anfrage-Header

Anfragebody

Antwortinformationen

​Anfrage-Header

​Anfragebody

​Antwortinformationen

Anfrage-Header

Anfragebody

Antwortinformationen