MiniMax Audio-Schnellklonen
Audio
MiniMax Audio-Schnellklonen
POST
MiniMax Audio-Schnellklonen
Diese Schnittstelle unterstützt das Klonen von Stimmen aus Mono- und Stereo-Audio und ermöglicht das schnelle Klonen einer Stimme mit derselben Klangfarbe anhand einer angegebenen Audiodatei.
Die von dieser Schnittstelle erzeugte schnell geklonte Stimme ist eine temporäre Stimme. Wenn Sie eine geklonte Stimme dauerhaft behalten möchten, rufen Sie diese Stimme bitte innerhalb von 168 Stunden (7 Tagen) in einer beliebigen T2A-Sprachsynthese-Schnittstelle auf (das Probehören innerhalb dieser Schnittstelle zählt nicht dazu); andernfalls wird diese Stimme gelöscht.
Geeignete Anwendungsfälle für diese Schnittstelle: IP-Klonen, Stimmenklonen und andere Szenarien, in denen eine bestimmte Stimme schnell geklont werden muss.
Hinweise:
- Das Format der hochgeladenen Audiodatei muss eines der folgenden sein: mp3, m4a, wav;
- Die Dauer der hochgeladenen Audiodatei sollte mindestens 10 Sekunden betragen und darf höchstens 5 Minuten betragen;
- Die Größe der hochgeladenen Audiodatei darf 20mb nicht überschreiten.
Anfrageheader
Enumerationswert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API Key}}.
Anfragetext
Die URL der Audiodatei, deren Stimme geklont werden soll. Unterstützt die Formate mp3, m4a, wav.
clone_prompt
Parameter für das Stimmenklonen. Die Bereitstellung dieses Parameters hilft, die Ähnlichkeit und Stabilität der Stimme bei der Sprachsynthese zu verbessern.Wenn dieser Parameter verwendet wird, müssen gleichzeitig ein kurzes Beispielaudio (Dauer unter 8s) und der zugehörige Text des Audios hochgeladen werden. Unterstützte Audioformate sind mp3, m4a, wav.
Parameter für das Probehören der geklonten Stimme. Das Modell liest diesen Text mit der geklonten Stimme vor und gibt das Ergebnis der Audiosynthese als Link zurück, damit der Kloneffekt angehört werden kann. Begrenzt auf maximal 2000 Zeichen. Hinweis: Für das Probehören werden entsprechend der Zeichenanzahl regulär Gebühren für die Sprachsynthese berechnet; die Preisgestaltung entspricht den jeweiligen T2A-Schnittstellen.
Parameter für das Probehören der geklonten Stimme. Gibt das für das Probehören verwendete Sprachmodell an; wenn das Feld “text” übergeben wird, ist dieses Feld erforderlich.
Optionen:
Optionen:
speech-02-hd, speech-02-turbo, speech-2.5-hd-preview, speech-2.5-turbo-preview, speech-2.8-hd, speech-2.8-turboParameter für das Audioklonen. Wertebereich [0,1]. Wenn dieses Feld hochgeladen wird, wird der Genauigkeitsschwellenwert für die Textprüfung festgelegt. Wird es nicht übergeben, beträgt der Standardwert dieses Feldes 0.7.
Parameter für das Audioklonen. Gibt an, ob Rauschunterdrückung aktiviert werden soll. Wird der Parameter nicht übergeben, ist der Standardwert false.
Parameter für das Audioklonen. Gibt an, ob Lautstärkenormalisierung aktiviert werden soll. Wird der Parameter nicht übergeben, ist der Standardwert false.
Antwortinformationen
Wenn im Anfragetext der Probehörtext text und das Probehörmodell model übergeben wurden, gibt dieser Parameter das Probehör-Audio als Link zurück.
Die generierte voice_id