Introdução aos recursos
Modelos de visão-linguagem (Vision-Language Model, VLM) são uma classe de grandes modelos multimodais que oferecem suporte simultâneo a entradas de imagem e texto, com capacidade de compreender conteúdo visual e processar informações entre modalidades. Com base na combinação de informações de imagens e textos, o modelo consegue gerar respostas de alta qualidade, sendo amplamente usado em cenários como reconhecimento de imagens, compreensão de conteúdo e perguntas e respostas inteligentes.Cenários de aplicação típicos
- Reconhecimento e descrição de conteúdo de imagens: identifica automaticamente objetos, cores, cenas e relações espaciais em imagens, gerando descrições em linguagem natural.
- Compreensão integrada de imagem e texto: combina entradas de imagem e texto para realizar diálogos de múltiplas rodadas relacionados ao contexto e responder a tarefas complexas.
- Perguntas e respostas com apoio visual: pode servir como complemento a ferramentas de OCR, identificando informações textuais incorporadas em imagens e respondendo a perguntas.
- Aplicações futuras: adequado para assistentes visuais inteligentes, percepção robótica, realidade aumentada e outros cenários interativos.
Instruções de chamada da API
Para chamar modelos de visão-linguagem, use o endpoint/chat/completions, que oferece suporte a entradas mistas de imagem e texto.
Parâmetros de processamento de imagem
Use o campodetail para definir a precisão do processamento da imagem. As opções compatíveis são:
high: alta resolução, preserva mais detalhes, ideal para tarefas refinadas.low: baixa resolução, processamento rápido, ideal para respostas em tempo real.auto: o sistema escolhe automaticamente o modo adequado.
Exemplo de formato de mensagem
Imagem por URL
Imagem em Base64
Exemplo de código para codificação de imagem em Base64 (Python)
Modo com múltiplas imagens
Há suporte para enviar várias imagens junto com texto como entrada. Recomenda-se usar no máximo duas imagens para obter melhor desempenho e melhor compreensão.Modelos compatíveis
A seguir estão os modelos de visão-linguagem (VLM) atualmente compatíveis com a plataforma:Modelo de cobrança
As entradas de imagem dos modelos de visão-linguagem serão convertidas em Tokens e calculadas junto com o texto para determinar o custo da chamada:- As regras de estimativa de Tokens de imagem variam ligeiramente entre os modelos;
- Os padrões detalhados de cobrança podem ser consultados na página de introdução do modelo correspondente.
Exemplo de código para chamada da API
Descrição de uma única imagem
Análise comparativa de múltiplas imagens
Perguntas frequentes e observações
- A resolução e a nitidez da imagem afetam a precisão do reconhecimento do modelo; recomenda-se usar fontes de imagem nítidas.
- A codificação em Base64 gera um tamanho maior; recomenda-se que a imagem não ultrapasse 1MB.
- Em caso de problemas, consulte a documentação de desenvolvedores da plataforma ou envie um ticket para obter suporte.