Обзор возможностей
Визуально-языковые модели (Vision-Language Model, VLM) — это класс мультимодальных больших моделей, которые одновременно поддерживают ввод изображений и текста и способны понимать содержимое изображений, а также обрабатывать межмодальную информацию. На основе комбинированной информации из изображений и текста модель может выдавать качественные ответы и широко применяется в таких сценариях, как распознавание изображений, понимание контента и интеллектуальные вопросы-ответы.Типичные сценарии применения
- Распознавание и описание содержимого изображений: автоматическое распознавание объектов, цветов, сцен и пространственных отношений на изображении с генерацией описания на естественном языке.
- Комплексное понимание изображений и текста: объединение изображений и текстового ввода для контекстно-зависимых многоходовых диалогов и ответов на сложные задачи.
- Визуально-ассистированные вопросы-ответы: может использоваться как дополнение к OCR-инструментам для распознавания текстовой информации, встроенной в изображения, и выполнения задач вопросов-ответов.
- Будущие расширенные применения: подходит для интерактивных сценариев, таких как интеллектуальные визуальные ассистенты, восприятие роботами и дополненная реальность.
Инструкции по вызову API
Для вызова визуально-языковой модели используйте интерфейс/chat/completions, который поддерживает смешанный ввод текста и изображений.
Параметры обработки изображений
Точность обработки изображения задается через полеdetail; поддерживаются следующие варианты:
high: высокое разрешение, сохраняет больше деталей, подходит для задач, требующих высокой точности.low: низкое разрешение, высокая скорость обработки, подходит для ответов в реальном времени.auto: система автоматически выбирает подходящий режим.
Пример формата сообщения
Изображение в формате URL
Изображение в формате Base64
Пример кода для кодирования изображения в Base64 (Python)
Режим нескольких изображений
Поддерживается отправка нескольких изображений вместе с текстом в качестве входных данных. Для лучшей производительности и качества понимания рекомендуется использовать не более двух изображений.Поддерживаемые модели
Ниже приведены визуально-языковые модели (VLM), которые в настоящее время поддерживаются платформой:Тарификация
Входные изображения для визуально-языковых моделей преобразуются в Tokens и учитываются вместе с текстом при расчете стоимости вызова:- Правила оценки image Token для каждой модели могут немного отличаться;
- Подробные тарифы можно посмотреть на странице описания соответствующей модели.
Примеры кода для вызова API
Описание одного изображения
Сравнительный анализ нескольких изображений
Частые вопросы и примечания
- Разрешение и четкость изображения влияют на точность распознавания модели; рекомендуется использовать четкие исходные изображения.
- Кодирование Base64 существенно увеличивает объем данных; рекомендуется использовать изображения размером не более 1MB.
- При возникновении проблем обратитесь к документации платформы для разработчиков или отправьте тикет для получения поддержки.