This article hasn't been translated into English yet — showing the Russian original.
OpenAI Blog→ original

OpenAI launched GeneBench-Pro, an AI benchmark for genomics and biological research

OpenAI launched GeneBench-Pro, a benchmark for evaluating AI models in genomics, biology, and scientific research. Its main feature is the use of real…

AI-processed from OpenAI Blog; edited by Hamidun News
OpenAI launched GeneBench-Pro, an AI benchmark for genomics and biological research
Source: OpenAI Blog. Collage: Hamidun News.
◐ Listen to article

OpenAI в июле 2026 года представила GeneBench-Pro — специализированный бенчмарк для оценки AI-моделей в геномике, биологии и научных исследованиях. В основе теста лежат сложные датасеты из реальных научных задач, а не синтетические данные, которые обычно используются в стандартных тестах.

Зачем биологии нужен отдельный тест

Универсальные бенчмарки — MMLU, GPQA, BioASQ — охватывают широкий спектр дисциплин, но теряют в глубине именно там, где учёным нужна наибольшая точность. Геномика, молекулярная биология и смежные дисциплины работают с принципиально иными данными: последовательности ДНК и РНК, данные об экспрессии генов, структуры белков, молекулярные взаимодействия. Ошибки в их интерпретации обходятся дорого — неверный вывод может направить исследование по тупиковому пути или привести к некорректным клиническим рекомендациям.

Ключевое отличие GeneBench-Pro — ставка на реальные, а не синтетические данные. В академической среде давно обсуждается проблема «утечки обучающих данных»: модели могут запомнить правильные ответы в процессе предобучения на открытых источниках, а не научиться действительно рассуждать над задачей. Бенчмарки, построенные на реальных научных датасетах, значительно сложнее «обмануть» таким способом.

Почему это важно для AI в науке сейчас

Последние два года ознаменовались стремительным ростом интереса AI-лабораторий к биологическим приложениям. AlphaFold 3 от Google DeepMind продемонстрировал, что AI способен решать задачи молекулярного моделирования на уровне, ранее недостижимом классическими методами. Несколько крупных биофармацевтических компаний встроили большие языковые модели в пайплайны разработки препаратов и анализа геномных данных.

Вместе с ростом применения AI в науке обострилась ключевая проблема: как сравнивать модели между собой, если у каждой компании — собственный набор демонстрационных задач? Отсутствие единого стандарта создаёт маркетинговый произвол: любую модель можно представить «лидером в биологии», выбрав удобный тест и удобный датасет. GeneBench-Pro претендует на роль общего ориентира для всей отрасли — опора на комплексные реальные данные из действующих исследований делает тест сложнее для обхода простым подбором обучающей выборки.

Что это значит

Запуск GeneBench-Pro — сигнал о том, что конкуренция AI-компаний в сфере науки и биотехнологий постепенно перемещается с уровня общих заявлений на уровень измеримых, воспроизводимых показателей. Для исследователей и корпоративных пользователей, выбирающих AI-инструменты для геномики или биомедицины, появление прозрачного стандарта — возможность обоснованно сравнивать модели, опираясь на задачи, близкие к реальной научной работе, а не на маркетинговые таблицы. Насколько широко бенчмарк будет принят академическим сообществом — покажет его adoption в ближайшие месяцы.

ZK
Hamidun News
AI news without noise. Daily editorial selection from 400+ sources. A product by Zhemal Khamidun, Head of AI at Alpina Digital.

Want to stop reading about AI and start using it?

AI News is a curated feed of AI/tech news. Hamidun Academy teaches you to use AI systematically in your work.

What do you think?
Loading comments…