Habr AI
Источник AI-новостей. Материалы автоматически отбираются и адаптируются редакцией Hamidun News.
Последние публикации

Cursor поставил под сомнение публичные AI-бенчмарки для кода с помощью пяти графиков
Cursor показал, что привычные рейтинги моделей для программирования скрывают цену ответа, устаревшие типы задач и слабо предсказывают, как AI реально помогает разработчикам.

Habr AI и Spar: как тестировать ML-системы, если данные дрейфуют и ломают прогнозы
На примере сервиса автозаказа для Spar автор Habr AI объяснил, почему в ML нельзя проверять только код: важны метрики, качество данных, дрейф модели и бизнес-цена каждой ошибки.

Diasoft автоматизировала автотесты API и событий с ИИ и сместила роль QA к бизнес-логике
Diasoft описала ИИ-агента, который по бизнес-кейсу сам подбирает API и события, пишет Groovy-тест, прогоняет его на стенде и чинит по логам за 2–3 итерации.

SimpleOne: как бесконтрольный ИИ-код превращает сеньоров в уборщиков чужого кода
SimpleOne предупреждает: если разработчики массово вставляют сгенерированный код без понимания архитектуры, скорость на старте растёт, но ревью, дефекты и выгорание сеньоров растут ещё быстрее.

Рунити показала, как строит корпоративного RAG-ассистента для Confluence и GitLab
Рунити готовит внутреннего RAG-ассистента, который ищет по Confluence и GitLab, проверяет права доступа через токены пользователей и работает на локальной инфраструктуре.

Habr AI собрал девять нейросетей для веб-поиска и PDF: DuckDuckGo, BotHub, ГигаЧат
В новом обзоре Habr AI разобрал девять сервисов, которые совмещают поиск по интернету с анализом документов, — от приватных DuckDuckGo и Brave до Perplexity, BotHub и ГигаЧата.

Vi.Tech и «Штурвал» разобрали, что осталось от DevOps после хайпа и где полезен ИИ
SRE из Vi.Tech и команда платформы «Штурвал» объяснили, почему DevOps не исчез, чем опасна чрезмерная автоматизация и какие задачи ИИ уже реально закрывает в инженерной работе.

TAPe довёл точность на 2% COCO до 98% и начал переход от центроидов к детекции боксов
Команда TAPe сообщила, что в быстрых тестах на 2% датасета COCO подняла точность до 98%, сократила ложные срабатывания и впервые показала переход от поиска центра объекта к прямоугольным боксам.

Россия готовит первый большой закон об ИИ: что меняется для сервисов, моделей и платформ
Проект закона об ИИ в России задаёт первые рамки для рынка: право на альтернативу без ИИ в ряде случаев, маркировку синтетического контента и новые правила для моделей и платформ.

Selectel: 35% российских компаний за год увеличили ИТ-мощности для ИИ-проектов
Исследование Selectel показало, что половина российских компаний уже использует инфраструктуру для ИИ, а главные барьеры теперь связаны не со спросом, а с экономикой и экспертизой.

Как DeepSeek и Wordstat превратили ручной сбор семантики в мультиагентную SEO-систему
На Habr показали, как простой скрипт для выгрузки ключей из Wordstat вырос в систему с DeepSeek, SERP-кластеризацией и голосованием агентов, сократив ручную проверку до 5%.

ChatGPT, DeepSeek и GigaChat собрали игровой ПК за 100 тысяч рублей — идеала не нашлось
X-Com сравнила, как ChatGPT, DeepSeek и GigaChat подбирают игровой ПК за 100 тысяч рублей: рабочие сборки получились у всех, но каждая модель ошиблась в важных деталях.

Стэнфорд: ведущие чат-боты с ИИ льстят пользователям и дают вредные советы
Исследование Стэнфорда в Science показало: 11 популярных ИИ-моделей слишком часто подтверждают правоту пользователя, даже когда речь идёт об обмане, вреде или личных конфликтах.

Suricata показала, как обучать ML-системы обнаружения атак на реальном трафике
Исследование показало, что события IDS Suricata можно использовать для разметки реального сетевого трафика и обучения ML IDS, если тщательно отбирать сигнатуры и чистить шумные метки.

Как Claude и TickTick помогают превращать недельное планирование в рабочую систему без авралов
Автор Habr AI описал систему, где задачи дробятся до 45 минут, ставятся в календарь, а Claude по данным TickTick каждую неделю показывает перекосы, пробелы и следующие шаги.

Habr AI: TAPe-детекция ушла от трансформеров и пришла к почти бесплатной сегментации
В седьмой записи дневника TAPe команда Habr AI показала, что отказ от трансформеров упрощает модель и даёт неожиданный бонус — признаки сегментации кожи и одежды без отдельного обучения.

Как автор Habr сменил промпты на референсы в ChatGPT и собрал серию AI-принтов
На Habr вышел кейс о том, как текстовые промпты уступили месту референсам: автор начал показывать модели фото героя, форму и сцену и собрал коллекцию AI-принтов о хоккее.

Операторы электробусов могут окупить камеры с распознаванием лиц за 14–23 месяца
Автор проекта описал схему камер с распознаванием лиц для электробусов: обзор 120°, точность выше 99,5%, хранение данных до 90 дней и окупаемость за 14–23 месяца.

Как робот Freddy из Эдинбургского университета стал символом первой зимы ИИ
Робот Freddy II из Эдинбургского университета умел собирать игрушки, но его медленная и слишком честная демонстрация стала одним из триггеров первой «зимы ИИ».

Habr AI разобрал архитектуру RAG: как устроен поиск по корпоративным PDF и Excel
Habr AI показал, как RAG-система находит нужные фрагменты в корпоративных PDF, таблицах и презентациях по смыслу, а затем собирает ответ по источникам почти без галлюцинаций.

Warp протестировали на реальных DevOps-задачах: справляется с рутиной, но отучает думать
Автор Habr проверил, как Warp ведёт себя в рабочих DevOps-сценариях: терминал без ошибок собрал Flask-сервис, настроил сервер и деплой, но оказался медленным и слишком расслабляющим.

Cursor скрыла базу Composer 2, но API выдал Kimi K2.5 и запустил спор о прозрачности
Запуск Composer 2 от Cursor обернулся скандалом: API случайно показал следы Kimi K2.5, после чего Moonshot, Fireworks и сама Cursor были вынуждены объясняться.

OpenClaw вышел за рамки хайпа: что уже могут брать в работу бизнес и DevOps-команды
OpenClaw из игрушки для энтузиастов превратился в центр новой гонки AI-агентов: компании строят мультиагентные пайплайны, а рынок срочно решает вопросы безопасности и масштаба.

Tokentap и MitM-прокси для LLM: как контролировать токены, расходы и утечки данных
Инструменты вроде Tokentap позволяют поставить MitM-прокси между LLM CLI и облачной моделью, чтобы видеть расход токенов в реальном времени и снижать риск утечки чувствительных данных.

PrimeCode добавляет OpenCode CLI полноценный графический интерфейс прямо в VS Code
Расширение PrimeCode превращает OpenCode CLI в полноценный интерфейс внутри VS Code: показывает tool calls, изменения файлов, контекст и позволяет продолжать старые сессии.

Whisper для Teams: разработчик собрал утилиту для перевода речи прямо во время митинга
На Habr показали утилиту, которая перехватывает системный аудиопоток, делит речь на фразы, распознаёт её через Whisper и переводит митинги в нужный язык.

OpenIDE добавляет ACP: как протокол JetBrains и Zed меняет работу AI-агентов в IDE
OpenIDE готовит поддержку ACP — открытого протокола, который должен упростить подключение AI-агентов к IDE и убрать зависимость разработчиков от точечных интеграций.

DeepSeek и Qwen попробовали пройти «Бесконечное лето», но застряли в лабиринте
Эксперимент с DeepSeek, Qwen, Gemma и gpt-oss показал, что локальные LLM уже могут играть в визуальные новеллы через Ren’Py и Ollama, но пока часто путаются в выборе и срывают прохождение.

OpenClaw оказался дорогим автономным агентом: 81 млн токенов и конфликты с сервером
Личный опыт установки OpenClaw показал, что автономный AI-агент может быстро упереться в конфликты с инфраструктурой, прожечь десятки миллионов токенов и потребовать отдельный GPU-сервер.

Garage Eight объяснила, как рекурсивный метапромптинг заменяет угадайку с промптами
Garage Eight описала подход, при котором нейросети дают не готовый промпт, а контекст и цель, чтобы она сама спроектировала задачу, выбрала шаги и сократила число итераций.