Zum Hauptinhalt springen
POST
/
v3
/
minimax-voice-cloning
MiniMax Audio-Schnellklonen
curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-voice-cloning \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "audio_url": "<string>",
  "text": "<string>",
  "model": "<string>",
  "accuracy": 123,
  "need_noise_reduction": true,
  "need_volume_normalization": true
}
'
{
  "demo_audio_url": "<string>",
  "voice_id": "<string>"
}
Diese Schnittstelle unterstützt das Klonen von Stimmen aus Mono- und Stereo-Audio und ermöglicht das schnelle Klonen einer Stimme mit derselben Klangfarbe anhand einer angegebenen Audiodatei. Die von dieser Schnittstelle erzeugte schnell geklonte Stimme ist eine temporäre Stimme. Wenn Sie eine geklonte Stimme dauerhaft behalten möchten, rufen Sie diese Stimme bitte innerhalb von 168 Stunden (7 Tagen) in einer beliebigen T2A-Sprachsynthese-Schnittstelle auf (das Probehören innerhalb dieser Schnittstelle zählt nicht dazu); andernfalls wird diese Stimme gelöscht. Geeignete Anwendungsfälle für diese Schnittstelle: IP-Klonen, Stimmenklonen und andere Szenarien, in denen eine bestimmte Stimme schnell geklont werden muss. Hinweise:
  • Das Format der hochgeladenen Audiodatei muss eines der folgenden sein: mp3, m4a, wav;
  • Die Dauer der hochgeladenen Audiodatei sollte mindestens 10 Sekunden betragen und darf höchstens 5 Minuten betragen;
  • Die Größe der hochgeladenen Audiodatei darf 20mb nicht überschreiten.

Anfrageheader

Content-Type
string
erforderlich
Enumerationswert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragetext

audio_url
string
erforderlich
Die URL der Audiodatei, deren Stimme geklont werden soll. Unterstützt die Formate mp3, m4a, wav.
clone_prompt
Parameter für das Stimmenklonen. Die Bereitstellung dieses Parameters hilft, die Ähnlichkeit und Stabilität der Stimme bei der Sprachsynthese zu verbessern.Wenn dieser Parameter verwendet wird, müssen gleichzeitig ein kurzes Beispielaudio (Dauer unter 8s) und der zugehörige Text des Audios hochgeladen werden. Unterstützte Audioformate sind mp3, m4a, wav.
text
string
Parameter für das Probehören der geklonten Stimme. Das Modell liest diesen Text mit der geklonten Stimme vor und gibt das Ergebnis der Audiosynthese als Link zurück, damit der Kloneffekt angehört werden kann. Begrenzt auf maximal 2000 Zeichen. Hinweis: Für das Probehören werden entsprechend der Zeichenanzahl regulär Gebühren für die Sprachsynthese berechnet; die Preisgestaltung entspricht den jeweiligen T2A-Schnittstellen.
model
string
Parameter für das Probehören der geklonten Stimme. Gibt das für das Probehören verwendete Sprachmodell an; wenn das Feld “text” übergeben wird, ist dieses Feld erforderlich.
Optionen: speech-02-hd, speech-02-turbo, speech-2.5-hd-preview, speech-2.5-turbo-preview, speech-2.8-hd, speech-2.8-turbo
accuracy
float
Parameter für das Audioklonen. Wertebereich [0,1]. Wenn dieses Feld hochgeladen wird, wird der Genauigkeitsschwellenwert für die Textprüfung festgelegt. Wird es nicht übergeben, beträgt der Standardwert dieses Feldes 0.7.
need_noise_reduction
bool
Parameter für das Audioklonen. Gibt an, ob Rauschunterdrückung aktiviert werden soll. Wird der Parameter nicht übergeben, ist der Standardwert false.
need_volume_normalization
bool
Parameter für das Audioklonen. Gibt an, ob Lautstärkenormalisierung aktiviert werden soll. Wird der Parameter nicht übergeben, ist der Standardwert false.

Antwortinformationen

demo_audio_url
string
Wenn im Anfragetext der Probehörtext text und das Probehörmodell model übergeben wurden, gibt dieser Parameter das Probehör-Audio als Link zurück.
voice_id
string
Die generierte voice_id