Introducción a la funcionalidad
Los modelos de visión y lenguaje (Vision-Language Model, VLM) son una clase de modelos multimodales de gran escala que admiten entradas de imagen y texto al mismo tiempo, con capacidad para comprender el contenido visual y procesar información entre modalidades. El modelo puede generar respuestas de alta calidad basadas en la información combinada de imágenes y texto, y se utiliza ampliamente en escenarios como reconocimiento de imágenes, comprensión de contenido y preguntas y respuestas inteligentes.Escenarios de uso típicos
- Reconocimiento y descripción del contenido de imágenes: identifica automáticamente objetos, colores, escenas y relaciones espaciales en las imágenes, y genera descripciones en lenguaje natural.
- Comprensión integral de imagen y texto: combina entradas de imagen y texto para permitir conversaciones de múltiples turnos relacionadas con el contexto y respuestas a tareas complejas.
- Preguntas y respuestas asistidas por visión: puede complementar herramientas de OCR, identificar información textual incrustada en imágenes y responder preguntas.
- Aplicaciones futuras ampliadas: adecuado para asistentes visuales inteligentes, percepción robótica, realidad aumentada y otros escenarios interactivos.
Instrucciones de llamada a la API
Para llamar a un modelo de visión y lenguaje, se debe usar la interfaz/chat/completions, que admite entradas mixtas de imagen y texto.
Parámetros de procesamiento de imágenes
Use el campodetail para configurar la precisión del procesamiento de imágenes. Se admiten las siguientes opciones:
high: alta resolución, conserva más detalles, adecuada para tareas detalladas.low: baja resolución, procesamiento rápido, adecuada para respuestas en tiempo real.auto: el sistema selecciona automáticamente el modo adecuado.
Ejemplos de formato de mensajes
Formato de imagen por URL
Formato de imagen en Base64
Código de ejemplo para codificación de imágenes en Base64 (Python)
Modo de múltiples imágenes
Se admite enviar varias imágenes junto con texto como entrada. Se recomienda usar como máximo dos imágenes para obtener mejor rendimiento y comprensión.Modelos compatibles
A continuación se muestran los modelos de visión y lenguaje (VLM) actualmente compatibles con la plataforma:Método de facturación
La entrada de imágenes de los modelos de visión y lenguaje se convertirá en Tokens y se calculará junto con el texto para determinar el coste de la llamada:- Las reglas de estimación de Tokens de imagen varían ligeramente según el modelo;
- Los estándares de facturación detallados se pueden consultar en la página de descripción del modelo correspondiente.
Código de ejemplo para llamadas a la API
Descripción de una sola imagen
Análisis comparativo de múltiples imágenes
Preguntas frecuentes y notas
- La resolución y la nitidez de la imagen afectan la precisión del reconocimiento del modelo; se recomienda usar fuentes de imagen claras.
- La codificación Base64 genera un tamaño relativamente grande; se recomienda que las imágenes no superen 1MB.
- Si encuentra algún problema, consulte la documentación para desarrolladores de la plataforma o envíe un ticket para obtener soporte.