Chat-Konversationsanfrage erstellen
Große Sprachmodelle
Chat-Konversationsanfrage erstellen
POST
Chat-Konversationsanfrage erstellen
Generiert eine Modellantwort basierend auf der angegebenen Chat-Konversation
Anfrageheader
Enumerationswert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API Key}}.
Anfragetext
Der Name des zu verwendenden Modells.
Liste der Nachrichten, aus denen die aktuelle Konversation besteht.
Die maximale Anzahl von Tokens, die in der Vervollständigung generiert werden.Wenn die Anzahl der Tokens Ihres Prompts (vorherige Nachrichten) plus max_tokens die Kontextlänge des Modells überschreitet, hängt das Verhalten von context_length_exceeded_behavior ab. Standardmäßig wird max_tokens reduziert, um in das Kontextfenster zu passen, anstatt einen Fehler zurückzugeben.
Ob Teilfortschritte streamend zurückgegeben werden sollen. Wenn festgelegt, werden Tokens als servergesendete Ereignisse (SSE) nur mit Daten gesendet, sobald sie verfügbar sind, und der Stream wird mit einer
data: [DONE]-Nachricht beendet.Optionen für die Streaming-Antwort. Legen Sie dies nur fest, wenn stream auf true gesetzt ist.
Die Anzahl der Vervollständigungen, die für jeden Prompt generiert werden.Hinweis: Da dieser Parameter viele Vervollständigungen generieren kann, kann er Ihr Token-Kontingent schnell verbrauchen. Verwenden Sie ihn mit Vorsicht und stellen Sie sicher, dass Sie sinnvolle Einstellungen für max_tokens und stop haben.Erforderlicher Bereich:
1 < x < 128Wenn angegeben, wird unser System sein Bestes tun, deterministisch zu sampeln, sodass wiederholte Anfragen mit demselben seed und denselben Parametern dieselben Ergebnisse zurückgeben sollten.
Positive Werte bestrafen neue Tokens basierend auf ihrer bisherigen Häufigkeit im Text und verringern die Wahrscheinlichkeit, dass das Modell dieselbe Zeile wortwörtlich wiederholt.Wenn das Ziel nur darin besteht, wiederholte Samples leicht zu reduzieren, liegen sinnvolle Werte zwischen 0.1 und 1. Wenn Wiederholungen stark unterdrückt werden sollen, kann der Koeffizient auf 2 erhöht werden, dies kann jedoch die Sample-Qualität erheblich verringern. Negative Werte können verwendet werden, um die Wahrscheinlichkeit von Wiederholungen zu erhöhen.Siehe auch presence_penalty, um Tokens, die mindestens einmal vorkommen, mit einer festen Rate zu bestrafen.Erforderlicher Bereich:
-2 < x < 2Positive Werte bestrafen neue Tokens basierend darauf, ob sie bereits im Text vorkommen, und erhöhen die Wahrscheinlichkeit, dass das Modell über neue Themen spricht.Wenn das Ziel nur darin besteht, wiederholte Samples leicht zu reduzieren, liegen sinnvolle Werte zwischen 0.1 und 1. Wenn Wiederholungen stark unterdrückt werden sollen, kann der Koeffizient auf 2 erhöht werden, dies kann jedoch die Sample-Qualität erheblich verringern. Negative Werte können verwendet werden, um die Wahrscheinlichkeit von Wiederholungen zu erhöhen.Siehe auch
frequency_penalty, um Tokens basierend auf ihrer Auftretenshäufigkeit mit einer steigenden Rate zu bestrafen.Erforderlicher Bereich: -2 < x < 2Wendet eine Strafe auf wiederholte Tokens an, um Wiederholungen zu verhindern oder zu fördern. Ein Wert von 1.0 bedeutet keine Strafe und erlaubt freie Wiederholung. Werte über 1.0 bestrafen Wiederholungen und verringern die Wahrscheinlichkeit wiederholter Tokens. Werte zwischen 0.0 und 1.0 belohnen Wiederholungen und erhöhen die Chance auf wiederholte Tokens. Für ein gutes Gleichgewicht wird in der Regel ein Wert von 1.2 empfohlen. Beachten Sie, dass die Strafe sowohl auf die generierte Ausgabe als auch auf den Prompt in Decoder-only-Modellen angewendet wird.Erforderlicher Bereich:
0 < x < 2Bis zu 4 Sequenzen, bei denen die API die Generierung weiterer Tokens stoppt. Der zurückgegebene Text enthält die Stoppsequenz.
Die zu verwendende Sampling-Temperatur zwischen 0 und 2. Höhere Werte wie 0.8 machen die Ausgabe zufälliger, während niedrigere Werte wie 0.2 sie fokussierter und deterministischer machen.Wir empfehlen in der Regel, entweder dies oder
top_p zu ändern, aber nicht beides gleichzeitig.Erforderlicher Bereich: 0 < x < 2Eine Alternative zur Sampling-Temperatur, bekannt als Nucleus Sampling, bei der das Modell die Token-Ergebnisse mit einer top_p-Wahrscheinlichkeitsmasse berücksichtigt. Daher bedeutet 0.1, dass nur die Tokens berücksichtigt werden, die die obersten 10 % der Wahrscheinlichkeitsmasse ausmachen. Wir empfehlen in der Regel, entweder dies oder die Temperatur zu ändern, aber nicht beides gleichzeitig.Erforderlicher Bereich:
0 < x <= 1Top-k-Sampling ist eine weitere Sampling-Methode, bei der die k wahrscheinlichsten nächsten Tokens gefiltert werden und die Wahrscheinlichkeitsmasse nur zwischen diesen k nächsten Tokens neu verteilt wird. Der Wert von k steuert die Anzahl der Kandidaten für das nächste Token bei jedem Schritt während der Texterzeugung.Erforderlicher Bereich:
1 < x < 128Gibt die minimale Wahrscheinlichkeit an, mit der Tokens berücksichtigt werden, relativ zur Wahrscheinlichkeit des wahrscheinlichsten Tokens.Erforderlicher Bereich:
0 <= x <= 1Ändert die Wahrscheinlichkeit, dass angegebene Tokens in der Vervollständigung erscheinen.Akzeptiert ein JSON-Objekt, das Tokens auf zugehörige Bias-Werte zwischen -100 und 100 abbildet.
Mathematisch wird der Bias zu den vom Modell vor dem Sampling erzeugten Logits addiert. Der genaue Effekt variiert je nach Modell.Beispielsweise erhöht das Festlegen von
"logit_bias":{"1024": 6} die Wahrscheinlichkeit von Tokens mit der Token-ID 1024.Ob die Log-Wahrscheinlichkeiten der Ausgabe-Tokens zurückgegeben werden sollen. Wenn true, werden die Log-Wahrscheinlichkeiten jedes Ausgabe-Tokens im Nachrichteninhalt zurückgegeben.
Eine Ganzzahl zwischen 0 und 20, die angibt, wie viele der wahrscheinlichsten Tokens an jeder Token-Position zurückgegeben werden, jeweils mit einer zugehörigen Log-Wahrscheinlichkeit. Wenn dieser Parameter verwendet wird, muss
logprobs auf true gesetzt sein.Erforderlicher Bereich: 0 <= x <= 20Eine Liste von Tools, die das Modell aufrufen kann. Derzeit werden nur Funktionen als Tools unterstützt. Verwenden Sie dies, um eine Liste von Funktionen bereitzustellen, für die das Modell JSON-Eingaben generieren kann.Weitere Informationen zu Funktionsaufrufen finden Sie im Leitfaden zu Funktionsaufrufen.
Ermöglicht, das Modell zur Generierung eines bestimmten Ausgabeformats zu zwingen.Auf
{ "type": "json_schema", "json_schema": {...} } setzen, um strukturierte Ausgaben zu aktivieren und sicherzustellen, dass das Modell mit dem von Ihnen bereitgestellten JSON schema übereinstimmt.Auf { "type": "json_object" } setzen, um den älteren JSON-Modus zu aktivieren und sicherzustellen, dass die vom Modell generierte Nachricht gültiges JSON ist. Für Modelle, die dies unterstützen, wird json_schema empfohlen.Ob die Schlussfolgerung vom “content” in das Feld “reasoning_content” getrennt werden soll.Unterstützte Modelle:
deepseek/deepseek-r1-turbo
Steuert den Wechsel zwischen Denkmodus und Nicht-Denkmodus.Unterstützte Modelle:
zai-org/glm-4.5
Antwortinformationen
Liste der Chat-Vervollständigungsoptionen.
Die Unix-Zeit (in Sekunden), zu der die Antwort generiert wurde.
Die eindeutige Kennung der Antwort.
Das für die Chat-Vervollständigung verwendete Modell.
Der Objekttyp, immer
chat.completion.Nutzungsstatistiken.Bei Streaming-Antworten ist das usage-Feld im letzten zurückgegebenen Antwortblock enthalten.