KDnuggets→ оригинал

5 малых открытых моделей с tool calling: какие агенты не нужны облако

Малые языковые модели получили способность вызывать функции и управлять инструментами — это ключ к децентрализованным AI-агентам. Вместо облачных сервисов тепер

5 малых открытых моделей с tool calling: какие агенты не нужны облако
Источник: KDnuggets. Коллаж: Hamidun News.
◐ Слушать статью

Малые языковые модели долгое время не могли конкурировать с облачными сервисами в одном ключевом навыке — управлении инструментами через tool calling. Теперь это меняется. Появилось поколение компактных, открытых моделей, которые не только поддерживают структурированные вызовы функций, но и остаются достаточно лёгкими для локального развёртывания.

Что такое tool calling и почему это работает

Tool calling (вызов инструментов) — это способность модели вызывать внешние функции, скрипты или API напрямую, вместо того чтобы просто писать код в ответ. Модель видит список доступных функций с описанием, их параметры и типы данных, и самостоятельно решает, какую функцию вызвать и с какими аргументами. Это критично для AGI-агентов: они могут управлять базами данных, скачивать файлы, отправлять письма, бронировать встречи — всё без прямого участия человека. Структурированный output (JSON-shaped ответы) — это гарантия, что модель вернёт результат в правильном, предсказуемом формате, который программа сможет спарсить и использовать дальше. До недавнего времени только крупные модели (GPT-4, Claude 3) это могли стабильно. Теперь малые модели тоже научились выплёвывать структурированный JSON без глюков.

Почему малые модели теперь конкурентоспособны

Малые модели (7B-13B параметров) обладают несколькими преимуществами перед крупными. Они дешевле в разработке и инференсе, приватнее по умолчанию (не отправляют данные в облако) и быстрее в ответах. Они не требуют облачных сервисов и мощного корпоративного железа — достаточно GPU средней мощности или даже приличного CPU. Если добавить к такой малой модели поддержку tool calling, получается полнофункциональный AI-агент, который можно запустить на своём сервере, ноутбуке или даже смартфоне без интернета. Это открывает путь для корпоративных приватных агентов с гарантией конфиденциальности данных. Компания может запустить агента внутри своей безопасной сети, не отправляя ни единого запроса в облако. Плюс к этому идёт лицензионная гибкость: все эти модели открытые, и можно использовать их для коммерческих целей без запроса разрешения.

5 моделей, готовых к использованию

Вот пять малых моделей, которые уже сегодня поддерживают полноценное tool calling: Llama 3.1 (Meta) — базовая 8B версия с хорошей документацией и примерами по tool calling; самая проверенная и стабильная из списка Mistral 7B — компактная, очень быстрая, хороший баланс качества и размера; популярна в enterprise-среде PhiLM 3 (Microsoft) — оптимизирована специально под структурированный вывод и инженерные задачи; минимальные требования к памяти OpenChat 3.5 — ориентирована на функции и управление инструментами; strong benchmarks в tool-calling тестах *Neural Hermes 2.

5** (finetuned Mistral) — лучше всех справляется со сложными многошаговыми цепочками вызовов и ошибками Все пять можно скачать с Hugging Face за несколько минут и запустить локально без интернета. Время инфиренса (ответа на запрос) — от 50 до 200 миллисекунд на современном GPU или быстром CPU.

Что это значит для индустрии Эра облачной монополии на AI-агентов закончилась.

Теперь даже малые стартапы и корпорации могут строить приватных, полнофункциональных AI-агентов, которые работают не медленнее и не глупее облачных аналогов типа OpenAI API или Claude via cloud. Это значит, что вся инфраструктура AI постепенно переезжает из облака в on-premise. В ближайшие месяцы ожидаем всплеск инструментов и фреймворков для локального развёртывания агентов (типа LM Studio, Ollama, но уже с нормальной поддержкой tool calling). Для разработчиков это открывает совершенно новый рынок: приватные AI-агенты для крупных корпораций, государственных органов, медицины и финтеха. Везде, где облако — запрет на использование по политическим или юридическим причинам. Локальные модели — единственный путь.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…