banner
Дом / Блог / Google подробно рассказывает о TPUv4 и его сумасшедшей оптически реконфигурируемой сети искусственного интеллекта
Блог

Google подробно рассказывает о TPUv4 и его сумасшедшей оптически реконфигурируемой сети искусственного интеллекта

Aug 17, 2023Aug 17, 2023

На выставке Hot Chips 2023 Google продемонстрировала свою сумасшедшую оптически реконфигурируемую сеть искусственного интеллекта. Компания осуществляет коммутацию оптических цепей, чтобы добиться большей производительности, снижения энергопотребления и большей гибкости своего кластера обучения искусственному интеллекту. Самое удивительное то, что они производят его уже много лет.

Это делается в прямом эфире, поэтому извините за опечатки.

Основная цель — объединить чипы Google TPU.

Вот 7-нм Google TPUv4. Мы ожидаем, что на этой неделе мы услышим больше о TPUv5. Google обычно может делать статьи и презентации о старом оборудовании одного поколения. TPU v4i был версией вывода, но это скорее разговор, посвященный TPUv4.

Google заявляет, что выделяет избыточную мощность по сравнению с обычной мощностью, поэтому он может выполнить соглашение об уровне обслуживания в течение 5 мс. Таким образом, TDP на чипах намного выше, но это позволяет обеспечить пакетную передачу данных в соответствии с пакетами SLA.

Вот схема архитектуры TPUv4. Google создает эти чипы TPU не просто как единый ускоритель, но и для масштабирования и работы в составе крупномасштабной инфраструктуры.

Вот статистика Google TPUv4 и TPUv3 в одной из самых четких таблиц, которые мы когда-либо видели.

Google увеличил пиковое значение FLOPS более чем вдвое, но снизил мощность между TPUv3 и TPUv4.

У Google есть ускоритель SparseCore, встроенный в TPUv4.

Вот производительность Google TPUv4 SparseCore.

Сама плата имеет четыре чипа TPUv4 и имеет жидкостное охлаждение. В Google заявили, что им пришлось переделать центры обработки данных и операции, чтобы перейти на жидкостное охлаждение, но экономия энергии того стоит. Клапан справа регулирует поток через трубки жидкостного охлаждения. Google говорит, что это похоже на регулятор скорости вращения вентилятора, но для жидкости.

Google также сообщает, что использует PCIe Gen3 x16 для обратной связи с хостом, поскольку это была конструкция 2020 года.

В Google, как и во многих центрах обработки данных, подается питание через верхнюю часть стойки, но у него есть ряд межсоединений. Внутри стойки Google может использовать электрические ЦАП, но вне стойки Google необходимо использовать оптические кабели.

Каждая система имеет 64 стойки с 4096 соединенными между собой чипами. В каком-то смысле AI-кластеры NVIDIA на 256 узлах имеют вдвое меньше графических процессоров.

Также в конце стоек мы видим стойку CDU. Если вы хотите узнать больше о жидкостном охлаждении, прочтите статью «Как серверы жидкостного охлаждения работают с Gigabyte и CoolIT». Скоро у нас будет больше контента для жидкостного охлаждения. Google утверждает, что скорость потока жидкости выше, чем воды в шланге пожарной машины с крюком и лестницей.

Каждая стойка представляет собой куб 4x4x4 (64 узла) с коммутацией оптических цепей (OCS) между TPU. Внутри стойки используются ЦАП. Все грани куба оптические.

Вот взгляд на OCS. Вместо использования электрического переключателя использование OCS обеспечивает прямое соединение между чипами. У Google есть внутренние 2D-МЭМС-матрицы, линзы, камеры и многое другое. Устранение всех сетевых издержек позволяет более эффективно обмениваться данными. Вкратце, это в некотором смысле похоже на DLP-телевизоры.

Google заявил, что у него более 16 000 подключений и достаточная длина оптоволокна в супермодуле, чтобы он мог охватить штат Род-Айленд.

Поскольку существует так много двухточечных коммуникаций, для этого требуется много волокон.

Кроме того, каждый пул можно подключить к более крупным пулам.

Благодаря возможности реконфигурации OCS может обеспечить более высокую загрузку узлов.

Затем Google может изменить топологию, настроив оптическую маршрутизацию.

Здесь Google демонстрирует преимущества различных топологий.

Это важно, поскольку Google утверждает, что изменения в потребностях модели могут привести к изменениям в системе.

Вот логарифмическое масштабирование Google с линейным ускорением до 3072 чипов.

Google также увеличил объем встроенной памяти до 128 МБ, чтобы обеспечить локальный доступ к данным.

Вот сравнение Google с NVIDIA A100 по производительности на ватт.

Вот модель PaLM, обучающая 6144 TPU в двух модулях.

Это огромная цифра!