Este artículo aún no está traducido al español — se muestra el original en ruso.
OpenAI Blog→ original

OpenAI lanzó GeneBench-Pro, un benchmark de AI para genómica e investigación biológica

OpenAI lanzó GeneBench-Pro, un benchmark para evaluar modelos de AI en genómica, biología e investigación científica. Su principal característica es el uso…

Procesado por IA desde OpenAI Blog; editado por Hamidun News
OpenAI lanzó GeneBench-Pro, un benchmark de AI para genómica e investigación biológica
Fuente: OpenAI Blog. Collage: Hamidun News.
◐ Escuchar artículo

OpenAI в июле 2026 года представила GeneBench-Pro — специализированный бенчмарк для оценки AI-моделей в геномике, биологии и научных исследованиях. В основе теста лежат сложные датасеты из реальных научных задач, а не синтетические данные, которые обычно используются в стандартных тестах.

Зачем биологии нужен отдельный тест

Универсальные бенчмарки — MMLU, GPQA, BioASQ — охватывают широкий спектр дисциплин, но теряют в глубине именно там, где учёным нужна наибольшая точность. Геномика, молекулярная биология и смежные дисциплины работают с принципиально иными данными: последовательности ДНК и РНК, данные об экспрессии генов, структуры белков, молекулярные взаимодействия. Ошибки в их интерпретации обходятся дорого — неверный вывод может направить исследование по тупиковому пути или привести к некорректным клиническим рекомендациям.

Ключевое отличие GeneBench-Pro — ставка на реальные, а не синтетические данные. В академической среде давно обсуждается проблема «утечки обучающих данных»: модели могут запомнить правильные ответы в процессе предобучения на открытых источниках, а не научиться действительно рассуждать над задачей. Бенчмарки, построенные на реальных научных датасетах, значительно сложнее «обмануть» таким способом.

Почему это важно для AI в науке сейчас

Последние два года ознаменовались стремительным ростом интереса AI-лабораторий к биологическим приложениям. AlphaFold 3 от Google DeepMind продемонстрировал, что AI способен решать задачи молекулярного моделирования на уровне, ранее недостижимом классическими методами. Несколько крупных биофармацевтических компаний встроили большие языковые модели в пайплайны разработки препаратов и анализа геномных данных.

Вместе с ростом применения AI в науке обострилась ключевая проблема: как сравнивать модели между собой, если у каждой компании — собственный набор демонстрационных задач? Отсутствие единого стандарта создаёт маркетинговый произвол: любую модель можно представить «лидером в биологии», выбрав удобный тест и удобный датасет. GeneBench-Pro претендует на роль общего ориентира для всей отрасли — опора на комплексные реальные данные из действующих исследований делает тест сложнее для обхода простым подбором обучающей выборки.

Что это значит

Запуск GeneBench-Pro — сигнал о том, что конкуренция AI-компаний в сфере науки и биотехнологий постепенно перемещается с уровня общих заявлений на уровень измеримых, воспроизводимых показателей. Для исследователей и корпоративных пользователей, выбирающих AI-инструменты для геномики или биомедицины, появление прозрачного стандарта — возможность обоснованно сравнивать модели, опираясь на задачи, близкие к реальной научной работе, а не на маркетинговые таблицы. Насколько широко бенчмарк будет принят академическим сообществом — покажет его adoption в ближайшие месяцы.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…