| Название | Slug | Статус |
|---|
Перетащите файлы сюда
или нажмите для выбора · PDF, DOCX, XLSX, TXT
Загрузка...
| Документ | Категория | Статус | Чанки | Дата |
|---|
Краулинг сайта
Укажите URL — будет загружена страница и все подстраницы домена
| URL | Статус | Страницы | Дата |
|---|
| Префикс | Метка | Тип |
|---|
| Логин | Роль | Тенант | Статус |
|---|
Доступные инструменты
Определите, какие инструменты агент может использовать при ответе на вопросы пользователей.
Рассуждения
Режим рассуждений
Позволяет агенту использовать внутренний инструмент
think для планирования и анализа перед ответом. Улучшает качество сложных ответов.Ограничения
Сколько раз агент может вызвать инструменты за один ответ. Каждый раунд — один запрос к LLM, который может вызвать несколько инструментов параллельно.
Максимальное время на весь ответ агента, включая вызовы инструментов. По истечении — ответ прерывается.
Retrieval (контекстный поиск)
Contextual retrieval
Перед индексацией LLM добавляет 1-2 предложения контекста к каждому чанку («Это раздел о ценах на AIBox Enterprise»). Embedding строится на context + chunk, оригинал чанка остаётся в источниках. Индексация медленнее, но recall и качество ответов существенно выше. Применяется при следующей загрузке документа.
Рекомендуется дешёвая и быстрая модель: openai/gpt-4o-mini или anthropic/claude-haiku-4-5. Пустое поле — глобальный default.
0 — только найденный чанк. 1 — добавлять соседей N-1 и N+1 (рекомендуется). 2-3 — больше контекста, но больше токенов. Работает для документов, загруженных после включения.
Сколько чанков возвращать агенту за один вызов search_in_local_doc. По умолчанию 20. Мелкому tenant хватит 10-15, крупному можно поднять до 50-100 (больше контекста → дороже токены).
Query rewrite (переписывание запросов)
Перед каждым поиском LLM переписывает запрос в самодостаточный: разрешает местоимения и отсылки к истории диалога («а подробнее?» → «подробнее о …»). +150-300 мс на поиск, +10-20% recall на follow-up-запросах. Рекомендуется оставить включённым.
Multi-query expansion
Для каждого запроса LLM генерирует 2-3 альтернативных формулировки, ищем по всем, сливаем через RRF. +10-15% recall, но в 3× больше embedding и Qdrant-запросов. Включать точечно для тенантов, где rewrite не даёт достаточно.
История диалога
LLM-суммаризация старых сообщений
Когда история не помещается в бюджет токенов, старые сообщения сжимаются дешёвой моделью (например openai/gpt-4o-mini) и сохраняются в БД как rolling-сумма. Бот «помнит» общую канву длинных диалогов. Без флага — просто обрезается по бюджету.
Сколько токенов истории отправлять модели. По умолчанию 8000. Уменьшайте для экономии, увеличивайте для больших context-window моделей.
N последних сообщений всегда попадают в контекст как есть, без усечения. Остальная история упаковывается в бюджет.
Используется только при включённой суммаризации. Пусто — глобальный default (contextualizer_model).
| Имя | Дата |
|---|
| # | Tenant | Режим | Статус | hit@5 | MRR | Длит. | Старт |
|---|---|---|---|---|---|---|---|
| Загрузка… | |||||||