Este artigo ainda não foi traduzido para o português — exibindo o original em russo.
OpenAI Blog→ original

A OpenAI lançou o GeneBench-Pro, um benchmark de AI para genômica e pesquisa biológica

A OpenAI lançou o GeneBench-Pro, um benchmark para avaliar modelos de AI em genômica, biologia e pesquisa científica. A principal característica é o uso de…

Processado por IA de OpenAI Blog; editado por Hamidun News
A OpenAI lançou o GeneBench-Pro, um benchmark de AI para genômica e pesquisa biológica
Fonte: OpenAI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

OpenAI в июле 2026 года представила GeneBench-Pro — специализированный бенчмарк для оценки AI-моделей в геномике, биологии и научных исследованиях. В основе теста лежат сложные датасеты из реальных научных задач, а не синтетические данные, которые обычно используются в стандартных тестах.

Зачем биологии нужен отдельный тест

Универсальные бенчмарки — MMLU, GPQA, BioASQ — охватывают широкий спектр дисциплин, но теряют в глубине именно там, где учёным нужна наибольшая точность. Геномика, молекулярная биология и смежные дисциплины работают с принципиально иными данными: последовательности ДНК и РНК, данные об экспрессии генов, структуры белков, молекулярные взаимодействия. Ошибки в их интерпретации обходятся дорого — неверный вывод может направить исследование по тупиковому пути или привести к некорректным клиническим рекомендациям.

Ключевое отличие GeneBench-Pro — ставка на реальные, а не синтетические данные. В академической среде давно обсуждается проблема «утечки обучающих данных»: модели могут запомнить правильные ответы в процессе предобучения на открытых источниках, а не научиться действительно рассуждать над задачей. Бенчмарки, построенные на реальных научных датасетах, значительно сложнее «обмануть» таким способом.

Почему это важно для AI в науке сейчас

Последние два года ознаменовались стремительным ростом интереса AI-лабораторий к биологическим приложениям. AlphaFold 3 от Google DeepMind продемонстрировал, что AI способен решать задачи молекулярного моделирования на уровне, ранее недостижимом классическими методами. Несколько крупных биофармацевтических компаний встроили большие языковые модели в пайплайны разработки препаратов и анализа геномных данных.

Вместе с ростом применения AI в науке обострилась ключевая проблема: как сравнивать модели между собой, если у каждой компании — собственный набор демонстрационных задач? Отсутствие единого стандарта создаёт маркетинговый произвол: любую модель можно представить «лидером в биологии», выбрав удобный тест и удобный датасет. GeneBench-Pro претендует на роль общего ориентира для всей отрасли — опора на комплексные реальные данные из действующих исследований делает тест сложнее для обхода простым подбором обучающей выборки.

Что это значит

Запуск GeneBench-Pro — сигнал о том, что конкуренция AI-компаний в сфере науки и биотехнологий постепенно перемещается с уровня общих заявлений на уровень измеримых, воспроизводимых показателей. Для исследователей и корпоративных пользователей, выбирающих AI-инструменты для геномики или биомедицины, появление прозрачного стандарта — возможность обоснованно сравнивать модели, опираясь на задачи, близкие к реальной научной работе, а не на маркетинговые таблицы. Насколько широко бенчмарк будет принят академическим сообществом — покажет его adoption в ближайшие месяцы.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…