Главная » Новости » Как термоэлектрическое охлаждение ускоряет AI-GPU и окупается за считанные месяцы

Как термоэлектрическое охлаждение ускоряет AI-GPU и окупается за считанные месяцы

by texno.org
0 коммент 3 просмотров

Когда речь заходит о производительности графических процессоров и искусственного интеллекта, большинство думает о вычислительных ядрах, памяти и энергоэффективности. Но есть ещё один фактор, который становится всё более решающим — тепло. Именно управление тепловыми потоками сегодня определяет, насколько быстро можно масштабировать вычислительные мощности. Особенно это актуально с выходом новых AI-GPU от NVIDIA — Rubin и Blackwell.

Как термоэлектрическое охлаждение ускоряет AI-GPU и окупается за считанные месяцы

О том, как охлаждать эти гигантские чипы, мы поговорили с Ларри Янгом — директором по продуктам компании Phononic. За его плечами более тридцати лет опыта в Google, IBM, Microsoft и Cisco. Он рассказал, как эволюционировали технологии охлаждения, почему High Bandwidth Memory (HBM) стала настоящей головной болью инженеров и как термоэлектрические кулеры Phononic способны повысить эффективность чипов и окупить себя буквально за считанные месяцы.

От вентиляторов к жидкостям и твёрдотельным решениям

«Раньше всё было просто: ставили радиатор, дули на него вентилятором — и готово», — улыбается Янг. — «Алюминиевые или медные ребра, поток воздуха, отвод тепла. Но по мере роста плотности тепловыделения стало ясно, что воздух больше не справляется».

Так началась эра жидкостного охлаждения. Жидкость способна переносить гораздо больше тепла, чем воздух, и поэтому она стала стандартом для высокопроизводительных систем. Ещё в 80-х IBM применяла подобные схемы в мейнфреймах, но сейчас, с приходом ИИ-ускорителей, жидкостное охлаждение переживает второе рождение — теперь уже на уровне дата-центров.

Phononic идёт дальше, предлагая «твёрдотельное охлаждение» — без вентиляторов и насосов, мгновенно реагирующее на локальные перегревы. «Проблема в том, что большинство дата-центров переохлаждены, — объясняет Янг. — Они просто выставляют систему на максимум и забывают о ней. А мы предлагаем охлаждать только там, где это действительно нужно».

Как ИИ изменил подход к охлаждению

С начала «взрыва» ИИ в 2022 году энергетическая плотность в серверных стойках выросла в разы. «Обычный стоечный блок Blackwell B200 NVL72 потребляет порядка 100–120 кВт, — отмечает Янг. — А Rubin Ultra — до 600 кВт. Это как если бы вы уместили восемьдесят грилей в телефонной будке!»

Каждый ватт электричества превращается в тепло, и всё это нужно отвести наружу. Но главная проблема даже не в ядре GPU, а в памяти HBM — многослойных микросхемах, расположенных прямо рядом с вычислительным блоком. Нижние слои таких стеков перегреваются первыми, а через несколько диэлектрических прослоек тепло просто не успевает уходить. В итоге чип вынужден снижать частоты.

«HBM сегодня — главный тепловой узел в GPU», — говорит Янг. — «Из-за перегрева память часто работает не на полную мощность, и это ограничивает производительность».

Phononic и термоэлектрическое охлаждение

Phononic использует физику, известную как термоэлектрический эффект Пельтье. Если пропустить ток через особые полупроводниковые материалы, одна сторона нагревается, а другая — охлаждается. На этой основе компания создаёт крошечные модули TEC (Thermoelectric Cooler), которые можно встроить прямо в систему охлаждения GPU.

По сути, TEC располагается между жидкостной пластиной и стеком HBM. Жидкость по-прежнему отводит основное тепло, а TEC работает точечно — включается только тогда, когда температура растёт. Управление происходит через встроенный контроллер и прошивку, которые постоянно измеряют нагрев и регулируют ток. Всё это объединено в единую «тепловую ткань» (thermal fabric), которая может интегрироваться с оркестрационным ПО дата-центра через API Redfish. Таким образом, охлаждение становится «умным»: нужные чипы переходят в турборежим, другие — в экономичный, в зависимости от нагрузки.

Blackwell, Rubin и экономический эффект

После выхода Blackwell стало ясно, что без жидкостного охлаждения уже не обойтись. Но Rubin идёт ещё дальше — NVIDIA делает ставку на прямое охлаждение кристалла жидкостью. Phononic не конкурирует с этим подходом, а дополняет его, улучшая эффективность. «Мы просто добавляем наш слой TEC поверх HBM и тем самым снимаем ограничение по теплу, — говорит Янг. — Это позволяет GPU работать быстрее, без троттлинга».

Главный аргумент для заказчиков — окупаемость. За счёт того, что каждый GPU выдаёт больше производительности, компания может не покупать дополнительные ускорители. «Мы видим окупаемость наших решений в пределах нескольких месяцев, — подчёркивает Янг. — Иногда — даже меньше полугода».

В условиях, когда каждый ватт и каждый квадратный метр дата-центра на счету, такие цифры звучат особенно убедительно.

ASIC и другие горячие точки

Разговор не ограничивается GPU. Всё больше компаний создают собственные ASIC-чипы для ИИ, а также сетевые ASIC с интегрированной оптикой. Все они сталкиваются с одинаковой проблемой — перегревом на уровне микросборок. В этом случае TEC можно применять локально: например, охлаждать отдельные кристаллы памяти или оптические модули. Подход одинаково полезен и для Google TPU, и для Broadcom с их ко-упакованной оптикой.

Почему охлаждение — это уже не просто инженерия

Тепло влияет на всё: производительность, себестоимость и экологичность.

  • Производительность: перегрев заставляет чип снижать частоты, теряется пропускная способность, растут задержки.
  • Экономика: чем выше эффективность охлаждения, тем меньше нужно GPU и инфраструктуры. Каждый сэкономленный киловатт — это тысячи долларов в год.
  • Экология: традиционные системы с вентиляторами и компрессорами тратят огромную энергию и используют фреоны с высоким парниковым эффектом. Твёрдотельное охлаждение помогает снизить выбросы и шум.

Будущее дата-центров: охлаждение как часть архитектуры

«Сложно сказать, как всё будет через десять лет, — признаётся Янг, — но ясно одно: всё движется к интеграции». Среди направлений, которые он выделяет:

  • Микроканальное охлаждение внутри HBM-стеков — жидкость прямо между слоями кремния.
  • Интеграция термоэлектрических материалов прямо в подложку — Phononic уже подала патент на такой подход.
  • «Программно управляемое охлаждение» — когда система сама решает, какие узлы охлаждать сильнее, а какие можно отпустить.
  • Новые материалы и упаковка — биметаллические структуры, гибкие тепловые интерфейсы, нанокомпозиты.

По сути, охлаждение становится таким же важным элементом архитектуры, как питание или сеть.

Итог: от тепла к выгоде

Сегодня, когда каждый центр обработки данных стремится запустить всё больше ИИ-нагрузок, управление теплом становится фактором выживания. В 600-киловаттной стойке невозможно полагаться только на вентиляторы. Новое поколение решений — вроде Phononic — показывает, что охлаждение можно превратить из расхода в источник выгоды.

Точное, адресное охлаждение повышает производительность, снижает энергопотребление и сокращает углеродный след. Это не просто инженерная деталь, а стратегическое преимущество. И, похоже, в ближайшие годы «охлаждать с умом» станет новым лозунгом всей индустрии.

Еще статьи по теме

Оставьте комментарий