Criar solicitação de conversa de chat
Modelos de linguagem
Criar solicitação de conversa de chat
POST
Criar solicitação de conversa de chat
Gera uma resposta do modelo com base na conversa de chat especificada
Cabeçalhos da solicitação
Valores enumerados:
application/jsonFormato de autenticação Bearer: Bearer {{API Key}}.
Corpo da solicitação
O nome do modelo a ser usado.
Lista de mensagens que compõem a conversa atual.
O número máximo de tokens a serem gerados na conclusão.Se sua instrução (mensagens anteriores) mais o número de tokens de max_tokens exceder o comprimento de contexto do modelo, o comportamento dependerá de context_length_exceeded_behavior. Por padrão, max_tokens será reduzido para caber na janela de contexto, em vez de retornar um erro.
Se deve retornar o progresso parcial em streaming. Se definido, os tokens serão enviados como eventos enviados pelo servidor (SSE) exclusivos de dados à medida que ficarem disponíveis, e o stream será encerrado com uma mensagem
data: [DONE].Opções para respostas em streaming. Defina isto apenas quando stream estiver definido como true.
O número de conclusões a serem geradas para cada prompt.Observação: como este parâmetro gera muitas conclusões, ele pode consumir rapidamente sua cota de tokens. Use com cuidado e garanta que você tenha configurações razoáveis para max_tokens e stop.Intervalo obrigatório:
1 < x < 128Se especificado, nosso sistema fará o melhor esforço para realizar a amostragem de forma determinística, de modo que solicitações repetidas com o mesmo seed e os mesmos parâmetros retornem os mesmos resultados.
Valores positivos penalizam novos tokens com base na frequência existente deles no texto, reduzindo a probabilidade de o modelo repetir as mesmas linhas palavra por palavra.Se o objetivo for apenas reduzir ligeiramente amostras repetidas, valores razoáveis ficam entre 0.1 e 1. Se o objetivo for suprimir fortemente a repetição, o coeficiente pode ser aumentado para 2, mas isso pode reduzir significativamente a qualidade da amostra. Valores negativos podem ser usados para aumentar a probabilidade de repetição.Consulte também presence_penalty, usado para penalizar tokens que apareceram pelo menos uma vez a uma taxa fixa.Intervalo obrigatório:
-2 < x < 2Valores positivos penalizam novos tokens com base em eles já terem aparecido no texto, aumentando a probabilidade de o modelo falar sobre novos tópicos.Se o objetivo for apenas reduzir ligeiramente amostras repetidas, valores razoáveis ficam entre 0.1 e 1. Se o objetivo for suprimir fortemente a repetição, o coeficiente pode ser aumentado para 2, mas isso pode reduzir significativamente a qualidade da amostra. Valores negativos podem ser usados para aumentar a probabilidade de repetição.Consulte também
frequency_penalty, usado para penalizar tokens a uma taxa crescente com base na frequência em que aparecem.Intervalo obrigatório: -2 < x < 2Aplica uma penalidade a tokens repetidos para desencorajar ou incentivar repetições. Um valor de 1.0 significa que não há penalidade, permitindo repetição livre. Valores acima de 1.0 penalizam a repetição, reduzindo a probabilidade de tokens repetidos. Valores entre 0.0 e 1.0 recompensam a repetição, aumentando a chance de tokens repetidos. Para obter um bom equilíbrio, normalmente recomenda-se usar o valor 1.2. Observe que a penalidade se aplica à saída gerada e ao prompt em modelos somente decodificadores.Intervalo obrigatório:
0 < x < 2Até 4 sequências nas quais a API interromperá a geração de tokens adicionais. O texto retornado conterá a sequência de parada.
A temperatura de amostragem usada, entre 0 e 2. Valores mais altos, como 0.8, tornam a saída mais aleatória, enquanto valores mais baixos, como 0.2, a tornam mais focada e determinística.Geralmente recomendamos alterar isto ou
top_p, mas não ambos.Intervalo obrigatório: 0 < x < 2Um método alternativo à temperatura de amostragem, chamado amostragem de núcleo, no qual o modelo considera os resultados de tokens com massa de probabilidade top_p. Assim, 0.1 significa considerar apenas os tokens que compõem os 10% superiores da massa de probabilidade. Geralmente recomendamos alterar isto ou a temperatura, mas não ambos.Intervalo obrigatório:
0 < x <= 1A amostragem Top-k é outro método de amostragem no qual os k próximos tokens mais prováveis são filtrados, e a massa de probabilidade é redistribuída apenas entre esses k próximos tokens. O valor de k controla o número de candidatos a próximo token em cada etapa durante a geração de texto.Intervalo obrigatório:
1 < x < 128Representa a probabilidade mínima para que tokens sejam considerados, em relação à probabilidade do token mais provável.Intervalo obrigatório:
0 <= x <= 1Modifica a probabilidade de tokens especificados aparecerem na conclusão.Aceita um objeto JSON que mapeia tokens para valores de viés associados entre -100 e 100.
Matematicamente, o viés é adicionado aos logits gerados pelo modelo antes da amostragem. O efeito exato varia conforme o modelo.Por exemplo, definir
"logit_bias":{"1024": 6} aumentará a probabilidade dos tokens com ID de token 1024.Se deve retornar as probabilidades logarítmicas dos tokens de saída. Se true, retorna a probabilidade logarítmica de cada token de saída no conteúdo da mensagem.
Um inteiro entre 0 e 20 que especifica o número de tokens mais prováveis a retornar em cada posição de token, cada um com uma probabilidade logarítmica associada. Se este parâmetro for usado,
logprobs deve ser definido como true.Intervalo obrigatório: 0 <= x <= 20Lista de ferramentas que o modelo pode chamar. Atualmente, apenas funções são suportadas como ferramentas. Use isto para fornecer uma lista de funções para as quais o modelo pode gerar entradas JSON.Saiba mais sobre chamadas de função no guia de chamadas de função.
Permite forçar o modelo a gerar um formato de saída específico.Defina como
{ "type": "json_schema", "json_schema": {...} } para habilitar saída estruturada, garantindo que o modelo corresponda ao JSON schema fornecido por você.Defina como { "type": "json_object" } para habilitar o modo JSON legado, garantindo que a mensagem gerada pelo modelo seja um JSON válido. Para modelos que oferecem suporte a isso, recomenda-se usar json_schema.Se deve separar o raciocínio de “content” no campo “reasoning_content”.Modelos compatíveis:
deepseek/deepseek-r1-turbo
Controla a alternância entre os modos de pensamento e sem pensamento.Modelos compatíveis:
zai-org/glm-4.5
Informações da resposta
Lista de opções de conclusão de chat.
O horário Unix (em segundos) em que a resposta foi gerada.
O identificador exclusivo da resposta.
O modelo usado para a conclusão de chat.
O tipo de objeto, sempre
chat.completion.Estatísticas de uso.Para respostas em streaming, o campo usage é incluído no último bloco de resposta retornado.