OpenAI launched GeneBench-Pro, an AI benchmark for genomics and biological research
OpenAI launched GeneBench-Pro, a benchmark for evaluating AI models in genomics, biology, and scientific research. Its main feature is the use of real…
AI-processed from OpenAI Blog; edited by Hamidun News
OpenAI в июле 2026 года представила GeneBench-Pro — специализированный бенчмарк для оценки AI-моделей в геномике, биологии и научных исследованиях. В основе теста лежат сложные датасеты из реальных научных задач, а не синтетические данные, которые обычно используются в стандартных тестах.
Зачем биологии нужен отдельный тест
Универсальные бенчмарки — MMLU, GPQA, BioASQ — охватывают широкий спектр дисциплин, но теряют в глубине именно там, где учёным нужна наибольшая точность. Геномика, молекулярная биология и смежные дисциплины работают с принципиально иными данными: последовательности ДНК и РНК, данные об экспрессии генов, структуры белков, молекулярные взаимодействия. Ошибки в их интерпретации обходятся дорого — неверный вывод может направить исследование по тупиковому пути или привести к некорректным клиническим рекомендациям.
Ключевое отличие GeneBench-Pro — ставка на реальные, а не синтетические данные. В академической среде давно обсуждается проблема «утечки обучающих данных»: модели могут запомнить правильные ответы в процессе предобучения на открытых источниках, а не научиться действительно рассуждать над задачей. Бенчмарки, построенные на реальных научных датасетах, значительно сложнее «обмануть» таким способом.
Почему это важно для AI в науке сейчас
Последние два года ознаменовались стремительным ростом интереса AI-лабораторий к биологическим приложениям. AlphaFold 3 от Google DeepMind продемонстрировал, что AI способен решать задачи молекулярного моделирования на уровне, ранее недостижимом классическими методами. Несколько крупных биофармацевтических компаний встроили большие языковые модели в пайплайны разработки препаратов и анализа геномных данных.
Вместе с ростом применения AI в науке обострилась ключевая проблема: как сравнивать модели между собой, если у каждой компании — собственный набор демонстрационных задач? Отсутствие единого стандарта создаёт маркетинговый произвол: любую модель можно представить «лидером в биологии», выбрав удобный тест и удобный датасет. GeneBench-Pro претендует на роль общего ориентира для всей отрасли — опора на комплексные реальные данные из действующих исследований делает тест сложнее для обхода простым подбором обучающей выборки.
Что это значит
Запуск GeneBench-Pro — сигнал о том, что конкуренция AI-компаний в сфере науки и биотехнологий постепенно перемещается с уровня общих заявлений на уровень измеримых, воспроизводимых показателей. Для исследователей и корпоративных пользователей, выбирающих AI-инструменты для геномики или биомедицины, появление прозрачного стандарта — возможность обоснованно сравнивать модели, опираясь на задачи, близкие к реальной научной работе, а не на маркетинговые таблицы. Насколько широко бенчмарк будет принят академическим сообществом — покажет его adoption в ближайшие месяцы.
Want to stop reading about AI and start using it?
AI News is a curated feed of AI/tech news. Hamidun Academy teaches you to use AI systematically in your work.
The AI world, distilled — once a week
Seven stories that actually mattered, hand-picked. No noise, no reposts, no press releases.
Done! Check your inbox for a confirmation.