MIT Abre MathNet — Maior Conjunto de Problemas de Olimpíadas de Matemática do Mundo
MIT abre MathNet — o maior conjunto aberto de problemas de olimpíadas de matemática do mundo. Inclui mais de 30 mil problemas e soluções de 47 países, 17 idioma

MIT открыл MathNet — крупнейший на сегодня открытый набор олимпиадных задач по математике, который одновременно нужен и исследователям ИИ, и школьникам, готовящимся к соревнованиям. В базу вошло более 30 тысяч задач и подробных решений из национальных математических олимпиад 47 стран. Для индустрии это более жёсткий тест на математическое рассуждение, чем привычные англоязычные бенчмарки.
Для учеников — единая библиотека качественных задач, которые раньше были разбросаны по бумажным сборникам, форумам и личным архивам. Проект сделали исследователи MIT CSAIL, KAUST и компании HUMAIN. По данным команды, MathNet охватывает 17 языков, 143 соревнования и примерно четыре десятилетия олимпиадной математики.
Авторам пришлось собрать 1595 PDF-томов общим объёмом свыше 25 тысяч страниц: от современных цифровых документов до старых сканов, которые годами существовали только в личных коллекциях. Существенная часть архива пришла из частного собрания одного из соавторов, который вручную сканировал олимпиадные сборники с 2006 года. Итоговый датасет, как утверждает MIT, примерно в пять раз больше ближайшего аналога, уже выложен в открытый доступ и будет представлен на конференции ICLR 2026 в Бразилии.
Ключевое отличие MathNet не только в масштабе, но и в качестве источников. Если многие существующие математические датасеты собирались из форумов вроде Art of Problem Solving, то здесь задачи взяты только из официальных национальных сборников. Это важно, потому что решения в таких материалах обычно пишут эксперты, они проходят проверку и нередко разбирают несколько способов решения одной задачи.
Кроме того, набор гораздо шире географически: он охватывает шесть континентов, включает текстовые и визуальные задачи и не замыкается на англоязычной и китайской традиции. Для дополнительной валидации команда собрала группу из более чем 30 проверяющих из разных стран, которые совместно перепроверили тысячи решений. Для исследователей это шанс учить модели на более разнообразной математической культуре, а не на узком наборе привычных формулировок.
Как бенчмарк для ИИ MathNet даёт не самые комфортные результаты даже сильным моделям. На основном наборе из 6400 задач GPT-5 показал около 69,3 процента, то есть не справился почти с каждой третьей задачей олимпиадного уровня. Когда в условии есть рисунки, результаты у моделей падают ещё заметнее, что указывает на сохраняющуюся слабость визуального рассуждения.
Команда также проверила, как модели работают с менее распространёнными языками: несколько open-source систем набрали 0 процентов на задачах на монгольском языке. Отдельно исследователи добавили retrieval-бенчмарк, где нужно распознать структурное сходство между двумя задачами. Даже лучшие embedding-модели находили правильное совпадение с первой попытки лишь примерно в 5 процентах случаев.
Это важно не только для ИИ, но и для самих олимпиад: похожие по сути задачи уже появлялись на реальных экзаменах, а отследить математические эквиваленты через разные языки, обозначения и форматы крайне сложно даже экспертам. Ещё один тест показал, что retrieval-augmented generation действительно помогает, но только если подсказанная задача действительно близка по структуре: у DeepSeek-V3.2-Speciale прирост доходил до 12 процентных пунктов, а нерелевантные подсказки ухудшали результат примерно в 22 процентах случаев.
Практический смысл MathNet выходит за пределы академического ИИ. Для школьников и преподавателей это редкий случай, когда высококачественные олимпиадные материалы из десятков стран собраны в одном месте и приведены к единому формату. Для разработчиков моделей это напоминание, что громкие заявления о «почти решённой» математике пока преждевременны: как только задачи становятся по-настоящему международными, мультимодальными и менее стандартизированными, разрыв в качестве всё ещё хорошо виден.
Именно поэтому MathNet может стать одним из самых полезных тестов на реальное математическое мышление моделей в ближайшие годы и одновременно одной из самых ценных открытых библиотек для подготовки к математическим олимпиадам.