Математические трюки ИИ бесполезны для научных вычислений
Бум искусственного интеллекта породил десятки новых числовых форматов — способов представления чисел в компьютерах. Компании научились сокращать точность с 64 д

Революция искусственного интеллекта изменила не только то, как мы общаемся с компьютерами, но и то, как компьютеры считают на самом базовом уровне — на уровне представления чисел. За последние годы индустрия породила десятки новых числовых форматов, оптимизированных под задачи машинного обучения. Но попытка применить эти форматы за пределами ИИ обнажила фундаментальную проблему: то, что отлично работает для нейросетей, оказывается совершенно непригодным для научных вычислений.
Десятилетиями компьютерная индустрия жила по простому правилу: каждое число представляется 64 битами, и всем этого хватает с запасом. Пользователи покупали новые машины раз в несколько лет и получали прирост производительности, по сути, бесплатно. Но примерно десять лет назад эта эпоха закончилась. Закон Мура замедлился, а аппетиты ИИ-моделей росли экспоненциально. Компании начали искать любые способы экономии вычислительных ресурсов и энергии, и одним из самых эффективных оказалось сокращение разрядности чисел. Если нейросети не нужны все 64 бита точности, зачем их тратить? Так появились форматы на 16, 8 и даже 2 бита, которые позволяют обучать и запускать модели быстрее и дешевле.
Проблема в том, что стандарт IEEE 754, определяющий представление 64-битных чисел с плавающей запятой, изначально плохо масштабируется вниз. Его архитектура избыточна для малого количества бит, и прямое урезание приводит к потере важных свойств. Поэтому для ИИ были разработаны специализированные форматы вроде bfloat16 от Google и FP8 от NVIDIA, заточенные под распределение чисел, типичное для нейросетей. В машинном обучении значения обычно концентрируются вокруг определённого диапазона, и сверхвысокая точность на краях не требуется.
Но научные вычисления живут по совершенно другим правилам. Вычислительная физика, гидродинамика, биологическое моделирование и инженерные симуляции оперируют числами, разбросанными по гигантскому диапазону — от субатомных масштабов до космических расстояний. И точность нужна одинаково высокая как для очень больших, так и для очень малых величин. Именно этот разрыв между потребностями ИИ и науки стал отправной точкой для работы Ласло Хунхольда, недавно защитившего докторскую диссертацию по информатике в Кёльнском университете и присоединившегося к барселонскому стартапу Openchip в качестве инженера по ИИ-ускорителям.
Хунхольд разработал числовой формат под названием takum, основанный на более раннем формате posit. Posit распределяет представления чисел неравномерно: значения, которые используются чаще, получают больше битовых комбинаций и, следовательно, более высокую точность. Для ИИ это работает прекрасно — posit концентрирует плотность представления вокруг единицы, где сосредоточены типичные значения весов нейросетей. Но для научных вычислений такой подход катастрофичен: точность резко падает при переходе к большим или малым числам, а именно они критически важны для моделирования физических процессов.
Такум решает эту проблему элегантно. Хунхольд проанализировал реальные диапазоны значений, используемых в научных вычислениях по всем основным дисциплинам, и спроектировал формат так, чтобы при уменьшении количества бит динамический диапазон не сужался. Это означает, что учёные и инженеры потенциально смогут перейти на более компактные представления чисел, экономя энергию и вычислительное время, не жертвуя при этом способностью работать с экстремальными величинами. По словам Хунхольда, даже десятипроцентный выигрыш в эффективности числового формата транслируется в десятипроцентную экономию для всех приложений, что в масштабах глобальных вычислительных мощностей означает колоссальную экономию энергии.
Значимость этой работы выходит далеко за рамки академического упражнения. По мере того как суперкомпьютеры и исследовательские кластеры потребляют всё больше электроэнергии, оптимизация на уровне представления чисел становится одним из немногих оставшихся рычагов повышения эффективности без наращивания аппаратных мощностей. Примечательно, что Хунхольд отмечает: за последние годы были предложены десятки новых числовых форматов, но takum остаётся единственным, целенаправленно спроектированным именно для научных вычислений. Все остальные инновации в этой области обслуживают исключительно индустрию машинного обучения.
История takum — это напоминание о том, что ИИ-бум, при всей своей трансформативной силе, не должен затмевать потребности остальной вычислительной науки. Нейросети — не единственные программы, которым нужна эффективность. Физики, моделирующие климат, инженеры, проектирующие мосты, и биологи, симулирующие сворачивание белков, заслуживают таких же инноваций в базовой арифметике. И если формат takum получит широкое распространение, он может стать тем самым невидимым фундаментом, на котором научные вычисления следующего десятилетия станут быстрее, дешевле и экологичнее.