TTA Speech 2.6 Turbo API | MiniMax hochwertige Sprachsynthese

MiniMax Speech-2.6-turbo synchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

import requests

url = "https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo"

payload = {
    "text": "<string>",
    "voice_setting": {
        "speed": 123,
        "vol": 123,
        "pitch": 123,
        "voice_id": "<string>",
        "emotion": "<string>",
        "latex_read": True,
        "text_normalization": True
    },
    "audio_setting": {
        "sample_rate": 123,
        "bitrate": 123,
        "format": "<string>",
        "channel": 123
    },
    "pronunciation_dict": { "tone": [{}] },
    "timbre_weights": [
        {
            "voice_id": "<string>",
            "weight": 123
        }
    ],
    "stream": True,
    "stream_options": { "exclude_aggregated_audio": True },
    "language_boost": "<string>",
    "output_format": "<string>",
    "voice_modify": {
        "pitch": 123,
        "intensity": 123,
        "timbre": 123,
        "sound_effects": "<string>"
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    text: '<string>',
    voice_setting: {
      speed: 123,
      vol: 123,
      pitch: 123,
      voice_id: '<string>',
      emotion: '<string>',
      latex_read: true,
      text_normalization: true
    },
    audio_setting: {sample_rate: 123, bitrate: 123, format: '<string>', channel: 123},
    pronunciation_dict: {tone: [{}]},
    timbre_weights: [{voice_id: '<string>', weight: 123}],
    stream: true,
    stream_options: {exclude_aggregated_audio: true},
    language_boost: '<string>',
    output_format: '<string>',
    voice_modify: {pitch: 123, intensity: 123, timbre: 123, sound_effects: '<string>'}
  })
};

fetch('https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'text' => '<string>',
    'voice_setting' => [
        'speed' => 123,
        'vol' => 123,
        'pitch' => 123,
        'voice_id' => '<string>',
        'emotion' => '<string>',
        'latex_read' => true,
        'text_normalization' => true
    ],
    'audio_setting' => [
        'sample_rate' => 123,
        'bitrate' => 123,
        'format' => '<string>',
        'channel' => 123
    ],
    'pronunciation_dict' => [
        'tone' => [
                [
                                
                ]
        ]
    ],
    'timbre_weights' => [
        [
                'voice_id' => '<string>',
                'weight' => 123
        ]
    ],
    'stream' => true,
    'stream_options' => [
        'exclude_aggregated_audio' => true
    ],
    'language_boost' => '<string>',
    'output_format' => '<string>',
    'voice_modify' => [
        'pitch' => 123,
        'intensity' => 123,
        'timbre' => 123,
        'sound_effects' => '<string>'
    ]
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo"

	payload := strings.NewReader("{\n  \"text\": \"<string>\",\n  \"voice_setting\": {\n    \"speed\": 123,\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"voice_id\": \"<string>\",\n    \"emotion\": \"<string>\",\n    \"latex_read\": true,\n    \"text_normalization\": true\n  },\n  \"audio_setting\": {\n    \"sample_rate\": 123,\n    \"bitrate\": 123,\n    \"format\": \"<string>\",\n    \"channel\": 123\n  },\n  \"pronunciation_dict\": {\n    \"tone\": [\n      {}\n    ]\n  },\n  \"timbre_weights\": [\n    {\n      \"voice_id\": \"<string>\",\n      \"weight\": 123\n    }\n  ],\n  \"stream\": true,\n  \"stream_options\": {\n    \"exclude_aggregated_audio\": true\n  },\n  \"language_boost\": \"<string>\",\n  \"output_format\": \"<string>\",\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"intensity\": 123,\n    \"timbre\": 123,\n    \"sound_effects\": \"<string>\"\n  }\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"text\": \"<string>\",\n  \"voice_setting\": {\n    \"speed\": 123,\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"voice_id\": \"<string>\",\n    \"emotion\": \"<string>\",\n    \"latex_read\": true,\n    \"text_normalization\": true\n  },\n  \"audio_setting\": {\n    \"sample_rate\": 123,\n    \"bitrate\": 123,\n    \"format\": \"<string>\",\n    \"channel\": 123\n  },\n  \"pronunciation_dict\": {\n    \"tone\": [\n      {}\n    ]\n  },\n  \"timbre_weights\": [\n    {\n      \"voice_id\": \"<string>\",\n      \"weight\": 123\n    }\n  ],\n  \"stream\": true,\n  \"stream_options\": {\n    \"exclude_aggregated_audio\": true\n  },\n  \"language_boost\": \"<string>\",\n  \"output_format\": \"<string>\",\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"intensity\": 123,\n    \"timbre\": 123,\n    \"sound_effects\": \"<string>\"\n  }\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"text\": \"<string>\",\n  \"voice_setting\": {\n    \"speed\": 123,\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"voice_id\": \"<string>\",\n    \"emotion\": \"<string>\",\n    \"latex_read\": true,\n    \"text_normalization\": true\n  },\n  \"audio_setting\": {\n    \"sample_rate\": 123,\n    \"bitrate\": 123,\n    \"format\": \"<string>\",\n    \"channel\": 123\n  },\n  \"pronunciation_dict\": {\n    \"tone\": [\n      {}\n    ]\n  },\n  \"timbre_weights\": [\n    {\n      \"voice_id\": \"<string>\",\n      \"weight\": 123\n    }\n  ],\n  \"stream\": true,\n  \"stream_options\": {\n    \"exclude_aggregated_audio\": true\n  },\n  \"language_boost\": \"<string>\",\n  \"output_format\": \"<string>\",\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"intensity\": 123,\n    \"timbre\": 123,\n    \"sound_effects\": \"<string>\"\n  }\n}"

response = http.request(request)
puts response.read_body

{
  "audio": "<string>",
  "status": 123
}

POST

minimax-speech-2.6-turbo

MiniMax Speech-2.6-turbo synchrone Sprachsynthese

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'

import requests

url = "https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo"

payload = {
    "text": "<string>",
    "voice_setting": {
        "speed": 123,
        "vol": 123,
        "pitch": 123,
        "voice_id": "<string>",
        "emotion": "<string>",
        "latex_read": True,
        "text_normalization": True
    },
    "audio_setting": {
        "sample_rate": 123,
        "bitrate": 123,
        "format": "<string>",
        "channel": 123
    },
    "pronunciation_dict": { "tone": [{}] },
    "timbre_weights": [
        {
            "voice_id": "<string>",
            "weight": 123
        }
    ],
    "stream": True,
    "stream_options": { "exclude_aggregated_audio": True },
    "language_boost": "<string>",
    "output_format": "<string>",
    "voice_modify": {
        "pitch": 123,
        "intensity": 123,
        "timbre": 123,
        "sound_effects": "<string>"
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    text: '<string>',
    voice_setting: {
      speed: 123,
      vol: 123,
      pitch: 123,
      voice_id: '<string>',
      emotion: '<string>',
      latex_read: true,
      text_normalization: true
    },
    audio_setting: {sample_rate: 123, bitrate: 123, format: '<string>', channel: 123},
    pronunciation_dict: {tone: [{}]},
    timbre_weights: [{voice_id: '<string>', weight: 123}],
    stream: true,
    stream_options: {exclude_aggregated_audio: true},
    language_boost: '<string>',
    output_format: '<string>',
    voice_modify: {pitch: 123, intensity: 123, timbre: 123, sound_effects: '<string>'}
  })
};

fetch('https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'text' => '<string>',
    'voice_setting' => [
        'speed' => 123,
        'vol' => 123,
        'pitch' => 123,
        'voice_id' => '<string>',
        'emotion' => '<string>',
        'latex_read' => true,
        'text_normalization' => true
    ],
    'audio_setting' => [
        'sample_rate' => 123,
        'bitrate' => 123,
        'format' => '<string>',
        'channel' => 123
    ],
    'pronunciation_dict' => [
        'tone' => [
                [
                                
                ]
        ]
    ],
    'timbre_weights' => [
        [
                'voice_id' => '<string>',
                'weight' => 123
        ]
    ],
    'stream' => true,
    'stream_options' => [
        'exclude_aggregated_audio' => true
    ],
    'language_boost' => '<string>',
    'output_format' => '<string>',
    'voice_modify' => [
        'pitch' => 123,
        'intensity' => 123,
        'timbre' => 123,
        'sound_effects' => '<string>'
    ]
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo"

	payload := strings.NewReader("{\n  \"text\": \"<string>\",\n  \"voice_setting\": {\n    \"speed\": 123,\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"voice_id\": \"<string>\",\n    \"emotion\": \"<string>\",\n    \"latex_read\": true,\n    \"text_normalization\": true\n  },\n  \"audio_setting\": {\n    \"sample_rate\": 123,\n    \"bitrate\": 123,\n    \"format\": \"<string>\",\n    \"channel\": 123\n  },\n  \"pronunciation_dict\": {\n    \"tone\": [\n      {}\n    ]\n  },\n  \"timbre_weights\": [\n    {\n      \"voice_id\": \"<string>\",\n      \"weight\": 123\n    }\n  ],\n  \"stream\": true,\n  \"stream_options\": {\n    \"exclude_aggregated_audio\": true\n  },\n  \"language_boost\": \"<string>\",\n  \"output_format\": \"<string>\",\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"intensity\": 123,\n    \"timbre\": 123,\n    \"sound_effects\": \"<string>\"\n  }\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"text\": \"<string>\",\n  \"voice_setting\": {\n    \"speed\": 123,\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"voice_id\": \"<string>\",\n    \"emotion\": \"<string>\",\n    \"latex_read\": true,\n    \"text_normalization\": true\n  },\n  \"audio_setting\": {\n    \"sample_rate\": 123,\n    \"bitrate\": 123,\n    \"format\": \"<string>\",\n    \"channel\": 123\n  },\n  \"pronunciation_dict\": {\n    \"tone\": [\n      {}\n    ]\n  },\n  \"timbre_weights\": [\n    {\n      \"voice_id\": \"<string>\",\n      \"weight\": 123\n    }\n  ],\n  \"stream\": true,\n  \"stream_options\": {\n    \"exclude_aggregated_audio\": true\n  },\n  \"language_boost\": \"<string>\",\n  \"output_format\": \"<string>\",\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"intensity\": 123,\n    \"timbre\": 123,\n    \"sound_effects\": \"<string>\"\n  }\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/minimax-speech-2.6-turbo")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"text\": \"<string>\",\n  \"voice_setting\": {\n    \"speed\": 123,\n    \"vol\": 123,\n    \"pitch\": 123,\n    \"voice_id\": \"<string>\",\n    \"emotion\": \"<string>\",\n    \"latex_read\": true,\n    \"text_normalization\": true\n  },\n  \"audio_setting\": {\n    \"sample_rate\": 123,\n    \"bitrate\": 123,\n    \"format\": \"<string>\",\n    \"channel\": 123\n  },\n  \"pronunciation_dict\": {\n    \"tone\": [\n      {}\n    ]\n  },\n  \"timbre_weights\": [\n    {\n      \"voice_id\": \"<string>\",\n      \"weight\": 123\n    }\n  ],\n  \"stream\": true,\n  \"stream_options\": {\n    \"exclude_aggregated_audio\": true\n  },\n  \"language_boost\": \"<string>\",\n  \"output_format\": \"<string>\",\n  \"voice_modify\": {\n    \"pitch\": 123,\n    \"intensity\": 123,\n    \"timbre\": 123,\n    \"sound_effects\": \"<string>\"\n  }\n}"

response = http.request(request)
puts response.read_body

{
  "audio": "<string>",
  "status": 123
}

Diese API unterstützt die synchrone Generierung von Text-zu-Sprache; die maximale Textlänge pro Übertragung beträgt 10000 Zeichen. Sie unterstützt 100+ Systemstimmen sowie die freie Auswahl geklonter Stimmen; Anpassungen von Lautstärke, Tonhöhe, Sprechgeschwindigkeit und Ausgabeformat; proportionales Mischen von Stimmen und die Steuerung fester Intervalle; außerdem verschiedene Audiospezifikationen und -formate, darunter: mp3, pcm, flac, wav, sowie Streaming-Ausgabe. Nach dem Einreichen einer Anfrage zur Sprachsynthese für längere Texte ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Bitte achten Sie auf den Zeitpunkt des Herunterladens der Informationen.

Geeignet für Szenarien wie die Generierung kurzer Sätze, Sprachchats und Online-Social-Anwendungen. Die Verarbeitung ist schnell, die Textlänge ist jedoch auf weniger als 10000 Zeichen begrenzt. Für längere Texte wird die asynchrone Sprachsynthese empfohlen.

Request-Header

string

erforderlich

Enumerationswert: application/json

string

erforderlich

Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Request-Body

string

erforderlich

Der zu synthetisierende Text. Die Länge muss unter 10000 Zeichen liegen; Absatzwechsel werden durch Zeilenumbrüche ersetzt. (Wenn Sie Pausen innerhalb der Sprache steuern möchten, fügen Sie zwischen Zeichen <#x#> ein; x ist in Sekunden angegeben, unterstützt werden 0.01-99.99 mit maximal zwei Dezimalstellen.) Unterstützt benutzerdefinierte Zeitintervalle zwischen Textabschnitten, um benutzerdefinierte Sprechpausen zu realisieren. Beachten Sie, dass das Textintervall zwischen zwei aussprechbaren Textabschnitten gesetzt werden muss und nicht mehrere aufeinanderfolgende Zeitintervalle gesetzt werden dürfen.

object

erforderlich

Anzeigen Eigenschaften

float

Standard:"1.0"

Bereich [0.5,2], Standardwert ist 1.0Die Sprechgeschwindigkeit der generierten Stimme. Optional; je größer der Wert, desto schneller die Sprechgeschwindigkeit.

float

Standard:"1.0"

Bereich (0,10], Standardwert ist 1.0Die Lautstärke der generierten Stimme. Optional; je größer der Wert, desto höher die Lautstärke.

int

Standard:"0"

Bereich [-12,12], Standardwert ist 0Die Tonhöhe der generierten Stimme. Optional; (0 gibt die Originalstimme aus, der Wert muss eine Ganzzahl sein).

string

Die angeforderte Stimmen-ID. Entweder voice_id oder timbre_weights ist “erforderlich”.Unterstützt zwei Arten: Systemstimmen (id) und geklonte Stimmen (id). Die Systemstimmen (ID) lauten:

Schüchterne junge Männerstimme: male-qn-qingse
Elite-Jugendstimme: male-qn-jingying
Dominante junge Männerstimme: male-qn-badao
Stimme eines jungen Studenten: male-qn-daxuesheng
Mädchenstimme: female-shaonv
Reife ältere Schwester-Stimme: female-yujie
Reife Frauenstimme: female-chengshu
Süße Frauenstimme: female-tianmei
Männlicher Moderator: presenter_male
Weibliche Moderatorin: presenter_female
Männliches Hörbuch 1: audiobook_male_1
Männliches Hörbuch 2: audiobook_male_2
Weibliches Hörbuch 1: audiobook_female_1
Weibliches Hörbuch 2: audiobook_female_2
Schüchterne junge Männerstimme-beta: male-qn-qingse-jingpin
Elite-Jugendstimme-beta: male-qn-jingying-jingpin
Dominante junge Männerstimme-beta: male-qn-badao-jingpin
Stimme eines jungen Studenten-beta: male-qn-daxuesheng-jingpin
Mädchenstimme-beta: female-shaonv-jingpin
Reife ältere Schwester-Stimme-beta: female-yujie-jingpin
Reife Frauenstimme-beta: female-chengshu-jingpin
Süße Frauenstimme-beta: female-tianmei-jingpin
Kluger Junge: clever_boy
Süßer Junge: cute_boy
Liebenswertes Mädchen: lovely_girl
Cartoon-Schwein Xiaoqi: cartoon_pig
Yandere-jüngerer Bruder: bingjiao_didi
Attraktiver Freund: junlang_nanyou
Unschuldiger jüngerer Mitschüler: chunzhen_xuedi
Kühler älterer Mitschüler: lengdan_xiongzhang
Dominanter junger Herr: badao_shaoye
Sweetheart Xiaoling: tianxin_xiaoling
Verspieltes, niedliches Mädchen: qiaopi_mengmei
Verführerische ältere Schwester-Stimme: wumei_yujie
Süßliche jüngere Mitschülerin: diadia_xuemei
Elegante ältere Mitschülerin: danya_xuejie
Santa Claus: Santa_Claus
Grinch: Grinch
Rudolph: Rudolph
Arnold: Arnold
Charming Santa: Charming_Santa
Charming Lady: Charming_Lady
Sweet Girl: Sweet_Girl
Cute Elf: Cute_Elf
Attractive Girl: Attractive_Girl
Serene Woman: Serene_Woman

string

Steuert die Emotion der synthetisierten Sprache;Derzeit werden 7 Emotionen unterstützt: Freude, Traurigkeit, Wut, Angst, Ekel, Überraschung, neutral;Parameterbereich: ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "neutral"]

bool

Standard:"false"

Steuert, ob das Vorlesen von latex-Formeln unterstützt wird; der Standardwert ist false.Zu beachten:

Formeln in der Anfrage müssen am Anfang und Ende der Formel mit $$ versehen werden;
Wenn Formeln in der Anfrage "" enthalten, muss dies zu ”\” escaped werden.

Beispiel: Die grundlegende Formel der Ableitung ist $$\\frac{d}{dx}(x^n) = nx^{n-1}$$

bool

Standard:"false"

Dieser Parameter unterstützt die Normalisierung englischer Texte und kann die Leistung in Szenarien mit Zahlenvorlesen verbessern, erhöht jedoch die Latenz geringfügig. Wenn nicht angegeben, ist der Standardwert false.

object

Anzeigen Eigenschaften

int

Standard:"32000"

Bereich 【8000，16000，22050，24000，32000，44100】Die Abtastrate der generierten Stimme. Optional, Standardwert ist 32000.

int

Standard:"128000"

Bereich 【32000，64000，128000，256000】Die Bitrate der generierten Stimme. Optional, Standardwert ist 128000. Dieser Parameter ist nur für Audio im mp3-Format wirksam.

string

Standard:"mp3"

Das generierte Audioformat. Standard ist mp3, Bereich [mp3,pcm,flac,wav]. wav wird nur bei nicht gestreamter Ausgabe unterstützt.

int

Standard:"1"

Anzahl der Kanäle des generierten Audios. Standard 1: Mono, optional:1: Mono2: Stereo

object

Anzeigen Eigenschaften

list

Ersetzt Texte, Symbole und die entsprechenden Aussprachen, die speziell markiert werden müssen.Aussprache ersetzen (Ton anpassen/andere Zeichenaussprache ersetzen), Format wie folgt:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)"，"omg/oh my god"]Töne werden durch Zahlen ersetzt: erster Ton (Yinping) ist 1, zweiter Ton (Yangping) ist 2, dritter Ton (Shangsheng) ist 3, vierter Ton (Qusheng) ist 4), neutraler Ton ist 5.

object[]

Entweder voice_id oder timbre_weights ist erforderlich

Anzeigen Eigenschaften

string

Die angeforderte Stimmen-id. Muss zusammen mit dem Parameter weight ausgefüllt werden.

int

Bereich [1,100]Gewichtung; muss zusammen mit voice_id ausgefüllt werden. Es werden maximal 4 gemischte Stimmen unterstützt. Der Wert muss eine Ganzzahl sein; je höher der Anteil einer einzelnen Stimme, desto ähnlicher ist die synthetisierte Stimme dieser Stimme.

boolean

Standard:"false"

Ob Streaming verwendet wird. Standard ist false, d. h. Streaming ist nicht aktiviert.

object

Anzeigen Eigenschaften

boolean

Standard:"false"

Wenn dieser Parameter auf True gesetzt ist, enthält der letzte chunk beim Streaming nicht die zusammengefügten vollständigen Sprachdaten im hex-Format. Standard ist False, d. h. der letzte chunk enthält die zusammengefügten vollständigen Sprachdaten im hex-Format.

string

Standard:"null"

Verbessert die Erkennung bestimmter kleinerer Sprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit der angegebenen kleineren Sprache/dem angegebenen Dialekt verbessert werden. Wenn der Typ der kleineren Sprache nicht eindeutig ist, kann “auto” gewählt werden; das Modell bestimmt dann den Typ der kleineren Sprache selbstständig. Unterstützt die folgenden Werte:

'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'

string

Standard:"hex"

Parameter zur Steuerung der Form des Ausgabeergebnisses. Mögliche Werte sind url hex. Standardwert ist hex. Dieser Parameter ist nur in nicht gestreamten Szenarien wirksam; Streaming-Szenarien unterstützen nur die Rückgabe in hex-Form. Die zurückgegebene url ist 24 Stunden gültig.

object

Einstellungen für Stimmeffekte. Dieser Parameter unterstützt die folgenden Audioformate:

Nicht gestreamt: mp3, wav, flac
Gestreamt: mp3

Anzeigen Eigenschaften

integer

Tonhöhenanpassung (tief/hell), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto tiefer klingt die Stimme; je näher an 100, desto heller klingt die Stimme

integer

Intensitätsanpassung (kraftvoll/weich), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto kräftiger klingt die Stimme; je näher an 100, desto weicher klingt sie

integer

Klangfarbenanpassung (magnetisch/klar), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto voller klingt die Stimme; je näher der Wert an 100 liegt, desto klarer klingt sie

string

Soundeffekt-Einstellung; pro Anfrage kann nur eine Option ausgewählt werden. Mögliche Werte:

spacious_echo（weiter Echoeffekt）
auditorium_echo（Aula-Übertragung）
lofi_telephone（Telefonverzerrung）
robotic（elektronischer Sound）

Antwortinformationen

string

Das synthetisierte Audiosegment, hex-codiert und gemäß dem in der Eingabe definierten Format (audio_setting.format) generiert (mp3/pcm/flac). Die Rückgabeform richtet sich nach der Definition von output_format; wenn stream true ist, wird nur die Rückgabe in hex-Form unterstützt.

number

Aktueller Status des Audiostreams, wird nur zurückgegeben, wenn stream true ist. 1 bedeutet Synthese läuft, 2 bedeutet Synthese beendet.

MiniMax Speech-2.6-hd asynchrone Sprachsynthese

Zurück

MiniMax Speech-2.6-turbo asynchrone Sprachsynthese

Weiter

API-Grundlagen

Große Sprachmodelle

Bilder

Video

Audio

MiniMax Speech-2.6-turbo synchrone Sprachsynthese

Request-Header

Request-Body

Antwortinformationen

​Request-Header

​Request-Body

​Antwortinformationen

Request-Header

Request-Body

Antwortinformationen