Генеративный искусственный интеллект и будущее центров обработки данных: Часть VI
Генеральный директор DE-CIX о том, как центры обработки данных должны адаптироваться
В выпуске 48 журнала DCD>Magazine мы опубликовали тематическую статью о генеративном искусственном интеллекте и его влиянии на цифровую инфраструктуру. Если вы нашли свой путь прямо сюда, возможно, вам стоит начать с самого начала: Генеративный ИИ: ажиотаж, возможности и будущее центров обработки данных // Часть I. Модели.
Точно так же, как кремний доведен до предела своих возможностей для работы с огромными моделями искусственного интеллекта, сетевые технологии и архитектура центров обработки данных сталкиваются с проблемами.
«В этих больших системах, несмотря ни на что, вы не сможете уместить их на одном чипе, даже если вы Cerebras», — сказал Дилан Патель из SemiAnalysis. «Ну, а как мне соединить все эти разделенные чипы вместе? Если это 100, это вполне осуществимо, но если это тысячи или десятки тысяч, тогда у вас начинаются настоящие трудности, и Nvidia внедряет именно это. Возможно, либо у них, либо у Broadcom лучшая сеть в мире».
Но облачные компании также становятся более активными. У них есть ресурсы для создания собственного сетевого оборудования и топологий для поддержки растущих вычислительных кластеров.
Amazon Web Services развернула кластеры, содержащие до 20 000 графических процессоров, с использованием собственных специализированных сетевых карт AWS Nitro. «И мы развернем несколько кластеров», — сказал представитель компании Четан Капур. «Это одна из вещей, которая, по моему мнению, отличает AWS в этой конкретной сфере. Мы используем нашу технологию Nitro для создания собственных сетевых адаптеров, которые мы называем адаптерами Elastic Fabric».
Компания находится в процессе внедрения второго поколения EFA. «И мы также находимся в процессе увеличения пропускной способности каждого узла примерно в 8 раз между A100 и H100», — сказал он. «Мы собираемся увеличить скорость до 3200 Гбит/с в расчете на каждый узел».
В Google амбициозные многолетние усилия по обновлению сетей огромного парка центров обработки данных начинают приносить плоды.
Компания приступила к внедрению специальной технологии оптической коммутации Mission Apollo в масштабах, ранее невиданных в центрах обработки данных.
Традиционные сети центров обработки данных используют конфигурацию «позвоночник» и «листья», в которых компьютеры подключаются к коммутаторам верхней стойки (листьям), которые затем подключаются к «позвоночнику», состоящему из электронных пакетных коммутаторов. Проект «Аполлон» заменяет позвоночник полностью оптическими межсоединениями, которые перенаправляют лучи света с помощью зеркал.
«Потребность в пропускной способности для обучения и вывода в каком-то масштабе просто огромна», — сказал Амин Вахдат из Google.
Наша самая крупная функция за всю историю посвящена следующей волне вычислений.
Apollo позволил компании построить сетевые «топологии, которые более точно соответствуют шаблонам связи этих алгоритмов обучения», сказал он. «Мы создали специализированные выделенные сети для распределения параметров между чипами, где огромная полоса пропускания происходит синхронно и в режиме реального времени».
По его словам, это имеет множество преимуществ. В этом масштабе отдельные чипы или стойки регулярно выходят из строя, и «коммутатор оптической схемы довольно удобен для реконфигурации в ответ, потому что теперь мои схемы связи соответствуют логической топологии моей сетки», — сказал он.
«Я могу сказать своему переключателю оптической схемы: «Пойди, возьми где-нибудь еще несколько чипов, переконфигурируй переключатель оптической схемы, чтобы вставить эти чипы в недостающее отверстие, а затем продолжай работу». Нет необходимости перезапускать все вычисления или, в худшем случае, начинать с нуля».
Apollo также помогает гибко развертывать мощности. TPUv4 компании масштабируется до блоков из 4096 чипов. «Если я запланирую 256 здесь, 64 там, 128 здесь, еще 512 там, внезапно я создам несколько дыр, в которых у меня будет куча доступных блоков из 64 фишек».
В традиционной сетевой архитектуре, если бы клиенту потребовалось 512 таких чипов, он не смог бы их использовать. «Если бы у меня не было оптического переключателя, я бы пропал, мне пришлось бы ждать завершения некоторых работ», — сказал Вахдат. «Они уже занимают части моей сетки, а у меня нет смежных 512, хотя у меня может быть 1024 доступных чипа».