Большие языковые модели

Возможности моделей

Большая языковая модель (LLM) — это модель искусственного интеллекта на основе технологий глубокого обучения и обработки естественного языка. Обученная на больших объемах текстовых данных, она способна понимать, генерировать и обрабатывать человеческий язык. Основные возможности:

Генерация текста Может генерировать логически связный текстовый контент на основе контекста и при необходимости изменять стиль вывода.
Понимание языка Может точно понимать смысл входного текста и поддерживает диалог с учетом контекста.
Перевод текста Обладает возможностями межъязыковой генерации и понимания, что позволяет выполнять перевод текста между разными языками.
Вопросы и ответы на основе знаний Имеет обширную базу знаний и может отвечать на вопросы из различных областей, включая культуру, науку и историю.
Понимание и генерация кода Может понимать и генерировать код (например, Python, Java, C++ и т. д.), поддерживает обнаружение ошибок в коде, предоставляет рекомендации по коду и многое другое.
Классификация и суммаризация текста Может понимать сложные высказывания, классифицировать и извлекать информацию, а также выделять ключевые моменты текста для автоматического резюмирования.

Выбор модели

На JieKou AI вы можете просмотреть список больших языковых моделей, поддерживаемых платформой, а также ознакомиться с базовым описанием моделей, ценами и другой информацией. Нажмите на конкретную модель, чтобы открыть страницу с подробностями и при необходимости протестировать ее онлайн. После полноценного тестирования на конкретных задачах вы можете сравнить качество моделей и выбрать подходящую модель.

Вызов API

JieKou AI предоставляет API-сервис, совместимый со стандартом OpenAI API, чтобы вы могли удобно интегрировать его в существующие приложения.

ChatCompletion, поддерживает streaming-режим и обычный режим.
Completion, поддерживает streaming-режим и обычный режим.

Если вы уже используете ChatCompletion или Completion API от OpenAI, вам достаточно установить базовый URL на https://api.highwayapi.ai/openai, получить и указать ваш API-ключ, а также при необходимости обновить название модели, чтобы подключиться к API-сервису больших языковых моделей.

О том, как получить API-ключ, см. Управление API-ключами.

Примеры кода

Python

from openai import OpenAI

client = OpenAI(
    base_url="https://api.highwayapi.ai/openai",
    api_key="<Your API Key>",
)

model = "deepseek/deepseek-r1"
stream = True  # или False
max_tokens = 512

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": "Вы профессиональный AI-помощник по документации.",
        },
        {
            "role": "user",
            "content": "Для каких сценариев можно использовать модели, предоставляемые JieKou AI?",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Curl

export API_KEY="<Your API Key>"

curl "https://api.highwayapi.ai/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${API_KEY}" \
  -d '{
    "model": "deepseek/deepseek-r1",
    "messages": [
        {
            "role": "system",
            "content": "Вы профессиональный AI-помощник по документации."
        },
       {
            "role": "user",
            "content": "Для каких сценариев можно использовать модели, предоставляемые JieKou AI?"
        }
    ],
    "max_tokens": 512
}'

Ключевые параметры

Базовые параметры

model: модель, которую нужно вызвать. Список больших языковых моделей, поддерживаемых платформой, можно посмотреть на JieKou AI.

Роли сообщений

Применимо только к ChatCompletion.

messages: входные и выходные данные при взаимодействии с большой моделью. Каждое сообщение относится к определенной роли. Сообщения помогают получить более качественный вывод; вы можете пробовать разные подходы, чтобы добиться лучших результатов.

content: содержимое сообщения.
role: роль автора сообщения.
- system: задает роль AI и сообщает модели, какую роль или поведение нужно принять.
- user: текст, который пользователь передает модели.
- assistant: ответ, сгенерированный моделью. Пользователь также может заранее заполнить примеры, чтобы показать модели, как следует отвечать на текущий запрос.
name: необязательно, используется для различения авторов сообщений с одинаковой ролью.

Промпт

Применимо только к Completion.

prompt: промпт для генерации продолжения. Это текстовая информация, которую пользователь передает большой языковой модели, чтобы явно указать проблему, которую нужно решить, или задачу, которую нужно выполнить. Она также служит основой для понимания моделью требований и генерации релевантного и точного контента.

Управление генерацией

Разные комбинации параметров позволяют модели генерировать контент, который лучше соответствует конкретным требованиям. Разнообразие текста

temperature и top_p могут управлять разнообразием генерируемого текста; рекомендуется задавать только один из этих параметров. Чем больше установленное значение, тем разнообразнее генерируемый текст. Чем меньше значение, тем более детерминированным будет генерируемый текст.

temperature: температура сэмплирования, регулирует случайность генерируемого текста.
top_p: nucleus sampling, управляет суммарной вероятностью слов-кандидатов.
top_k: ограничивает количество слов-кандидатов.

Повторяемость контента

presence_penalty: штраф за присутствие, управляет степенью повторяемости контента при генерации текста моделью. Если Token уже встречался в тексте, он будет оштрафован, что заставляет модель вводить больше новых Token.
frequency_penalty: вероятностный штраф, управляет частотой появления определенных слов в генерируемом тексте. Каждый раз, когда Token появляется в тексте, он получает штраф, тем самым снижая вероятность появления этих Token в дальнейшей генерации и предотвращая повторное использование моделью одних и тех же Token.
repetition_penalty: значение штрафа за повторение, используется для подавления или поощрения повторений.

Ограничения вывода

max_tokens: максимальное число Token, возвращаемых за один запрос. Если число Token, сгенерированных моделью, превышает значение max_tokens, будет возвращен усеченный контент.
stream: управляет тем, будет ли вывод потоковым. Для некоторых моделей, которые генерируют большой объем контента, рекомендуется включать потоковый вывод, чтобы предотвратить слишком длинный вывод и тайм-аут.
- true: потоковый вывод, то есть генерация и вывод происходят одновременно; модель возвращает фрагмент каждый раз, когда генерирует часть контента.
- false: модель возвращает результат за один раз после генерации всего контента.
stop: символы завершения. Когда сгенерированный моделью текст содержит строку, заданную в stop, модель прекращает вывод.

​Возможности моделей

​Выбор модели

​Вызов API

​Примеры кода

​Python

​Curl

​Ключевые параметры

​Базовые параметры

​Роли сообщений

​Промпт

​Управление генерацией

​Ограничения вывода

Возможности моделей

Выбор модели

Вызов API

Примеры кода

Python

Curl

Ключевые параметры

Базовые параметры

Роли сообщений

Промпт

Управление генерацией

Ограничения вывода