Железо

Тензорный процессор (TPU)

Тензорный процессор (TPU) — специализированная микросхема Google, оптимизированная для матричных вычислений в задачах машинного обучения. TPU значительно ускоряет обучение и инференс нейронных сетей по сравнению с CPU и GPU при существенно меньшем энергопотреблении.

TPU — специализированный ASIC, разработанный Google и оптимизированный для операций с тензорами — многомерными массивами данных, лежащими в основе большинства алгоритмов машинного обучения. В отличие от GPU, спроектированного для широкого круга параллельных задач, TPU создавался с единственной целью — максимально эффективно выполнять умножение матриц, критически важное как для прямого, так и для обратного распространения в нейронных сетях.

Ключевой элемент архитектуры TPU — систолический массив (systolic array): сетка вычислительных ячеек, передающих данные соседям синхронно, без обращений к центральной разделяемой памяти. Это позволяет выполнять тысячи операций умножения-накопления за один такт. TPU первого поколения применялся внутри Google с 2015 года, публично был анонсирован на Google I/O 2016 и поддерживал только инференс 8-битных сетей. С TPU v2 (2017) появились поддержка формата bfloat16 и режим обучения. TPU v6, получивший кодовое имя Trillium (2024), обеспечивает, по данным Google, в 4,7 раза большую пиковую производительность на чип по сравнению с TPU v5e.

TPU позволил Google обучать и обслуживать масштабные модели — от BERT и T5 до Gemini — с эффективностью, недостижимой на GPU-кластерах того же масштаба. Конфигурации TPU Pod объединяют тысячи чипов высокоскоростными межсоединениями, образуя суперкомпьютеры, оптимизированные исключительно для ИИ-задач, без накладных расходов универсальных HPC-систем.

K 2026 году TPU доступны через Google Cloud TPU (поколения v4, v5e, v5p, v6) и остаются основной платформой внутреннего обучения в Google DeepMind. Аналогичный ASIC-подход независимо реализовали AWS (Trainium 2), Microsoft (Azure Maia 2) и другие крупные облачные провайдеры, что подтверждает устойчивую тенденцию к созданию собственного специализированного ИИ-кремния вместо закупок GPU.

Пример

Команда исследователей обучает многоязычную языковую модель объёмом 70 млрд параметров на кластере TPU v5p в Google Cloud: межчиповая пропускная способность Pod-конфигурации сокращает время обучения по сравнению с эквивалентным GPU-кластером примерно вдвое при сопоставимых затратах.

Связанные термины

Графический процессор (GPU)ИИ-ускоритель ИИ-датацентр

← Глоссарий