Together AI Blog→ оригинал

Together AI увеличила лимиты Batch Inference API в 3000 раз и снизила цены на 50%

Together AI обновила Batch Inference API для обработки огромных объёмов данных без узких мест. Лимиты выросли в 3000 раз — до 30 млрд токенов за одну задачу. Це

Together AI увеличила лимиты Batch Inference API в 3000 раз и снизила цены на 50%
Источник: Together AI Blog. Коллаж: Hamidun News.
◐ Слушать статью

Together AI обновила Batch Inference API — сервис для обработки большого количества запросов к LLM-моделям с отложенным выполнением. Компания объявила три крупных улучшения: увеличение лимитов в 3000 раз, снижение цены на 50% и переделку интерфейса для упрощения работы.

Масштабирование без узких мест Главное изменение коснулось лимитов.

Раньше потолок был 10 млн токенов на пользователя за модель, теперь это 30 млрд. Это не просто цифра — это решение архитектурной проблемы, с которой сталкиваются компании, обрабатывающие огромные датасеты. Раньше с большим объёмом работ поступали просто: разбивали датасет на части, создавали множество small batch-задач, отслеживали каждую отдельно, координировали результаты. Это неудобно, долго и дорого. Теперь можно загрузить весь датасет одной операцией и получить результат в рамках 24-часового SLA — часто даже намного быстрее. Параллельно обновили ценообразование. Batch-обработка теперь стоит примерно в два раза дешевле real-time API для того же объёма вычислений. Когда разговор идёт о миллиардах токенов, разница в цене становится существенной для бюджетов проектов.

Любая модель, простой UI API теперь работает со всеми 40+ моделями платформы

Together, включая приватные deployment'ы. Раньше выбор был ограничен несколькими моделями, и это создавало проблемы для команд, которые хотели экспериментировать и тестировать разные модели в batch-режиме. Интерфейс полностью переделали. Раньше нужно было писать API-вызовы, понимать документацию, отлаживать код. Теперь всё делается через веб-приложение: создание задачи, мониторинг прогресса, скачивание результатов. Несколько кликов — и готово. Это снижает барьер входа для команд, которые не хотят отвлекаться на код для каждого batch-запроса.

Кому это нужно *

Анализ настроений и классификация текстов на миллионы документов Поиск мошеннических транзакций — сканирование миллионов платежей и операций Синтетическая генерация данных для обучения новых моделей Векторизация больших корпусов текстов (embedding-generation) Модерация контента в социальных сетях и платформах с UGC * Бенчмарк-тесты для оценки и сравнения качества моделей Конкретный пример: лаборатория Inception Labs уже использует batch API как основу своего production workflow. По словам сооснователя Владимира Кулешова: > «Мы полагаемся на Batch Inference API для обработки очень больших объёмов запросов. Высокие лимиты позволяют запускать гигантские эксперименты без узких мест. Задачи завершаются значительно быстрее, чем за 24-часовый SLA, часто за несколько часов.»

Что это значит для индустрии

Batch Inference выходит из ниши специалистов в категорию массовых инструментов. Раньше высокие стоимости и техническая сложность были серьёзным барьером. Пользоваться batch-обработкой могли себе позволить крупные исследовательские лаборатории, государственные проекты и большие корпорации. Теперь стартапы и команды среднего размера получили доступ к тому же инструментарию. Снижение цены на 50% и рост лимитов в 3000 раз убирают главные препятствия для массового внедрения. В 2025 году ожидается всплеск применения batch-inference в production-приложениях — от модерации контента в реальном масштабе до синтеза больших объёмов тренировочных данных для fine-tuning своих моделей.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…