Главная » Новости » Clearwater Forest (Xeon 6+): как Intel собирает 288 E-ядер в один сокет

Clearwater Forest (Xeon 6+): как Intel собирает 288 E-ядер в один сокет

by texno.org
0 коммент 5 просмотров

Intel Clearwater Forest — это не просто очередное поколение серверных процессоров, а показатель того, насколько далеко компания готова зайти в идее «плотности вычислений на ватт». Линейка Xeon 6+ с полностью «эффективными» ядрами (E-cores) доводит до логического предела курс, начатый в Sierra Forest: вместо нескольких мощных P-ядер — сотни компактных, но очень продвинутых E-ядер, объединённых сложной упаковкой из 3D-стека и 2.5D-перемычек. В сухом остатке: до 288 ядер Darkmont на сокет, 576 МБ единого LLC на базовых плитках, техпроцесс Intel 18A с RibbonFET и PowerVia, плюс Foveros Direct 3D и EMIB 2.5D. Ниже — подробный разбор архитектуры, причин, почему это важно, и того, где именно такая архитектура блеснёт в реальных ЦОДах.

Clearwater Forest (Xeon 6+): как Intel собирает 288 E-ядер в один сокет

От Sierra к Clearwater: почему ставка на E-ядра работает

С появлением семейства Xeon 6 Intel чётко развела линии: P-ядра для максимальной пиковой производительности на поток и E-ядра для экстремальной плотности и эффективности в задачах масштаба. Sierra Forest стал первой полностью E-ядерной линейкой, доказав жизнеспособность подхода: множество лёгких потоков, микросервисы, CDN, веб-фронтенды, «лёгкая» аналитика и особенно инференс — те случаи, где критичны не гигантские вектора, а совокупная пропускная способность. Clearwater Forest подхватывает эстафету и выходит на новый технологический уровень: свежая микроархитектура Darkmont, переход ядра на Intel 18A, радикально более тесная интеграция кристаллов через Foveros Direct и связующий EMIB-каркас.

Конструктор из плиток: как физически устроен чип

Кристалл условно делится на три блока («плитки»): вычислительные, базовые (active base) и I/O-плитки. Между собой они соединяются через EMIB (2.5D) и Foveros Direct 3D (медный Cu-to-Cu бондинг с шагом порядка 9 мкм). В роли «силового и логического позвоночника» выступают базовые плитки — на них контроллеры памяти, крупный общий LLC и фабрика. Вычислительные — это двенадцать чиплетов с ядрами Darkmont, каждая плитка — шесть модулей по четыре ядра (итого 24 на плитку). Двенадцать вычислительных × 24 ядра = те самые 288 Darkmont. I/O-плитки берут на себя PCIe 5.0, CXL 2.0, UPI и аппаратные акселераторы. Поколенчески: I/O — на Intel 7, базовые — на Intel 3, вычислительные — на Intel 18A.

Важно понять замысел: Intel не пытается затолкать «всё и сразу» в один монолит. Вместо этого — набор специализированных слоёв, где каждый производит свою работу максимально эффективно. Базовые плитки играют роль «активного кремниевого интерпозера», на который «садятся» вычислительные плитки по Foveros Direct; на уровнем ниже по шинам EMIB они сходятся с I/O-плитками. Такая схема даёт высокую плотность соединений при низких потерях, сокращает энергозатраты на движение данных между блоками и поднимает потолок масштабирования.

Darkmont: эволюция E-ядра

Микроархитектура Darkmont — наследник идей Skymont/ Crestmont, но явно «накачанный» под серверные потоки. Важные штрихи, которые здесь критичны:

  • Широкий передний конец: декод на девять инструкций (3×3 кластера), расширенные блоки предсказания ветвлений и выборки. Это снижает «голод» по uops и делает ядро устойчивее к ветвистым фронтендам, характерным для серверных приложений.
  • Глубокое внеочередное исполнение: окно OoO расширено (порядка 416 записей), очередь микроопераций увеличена примерно до 96, растут ширины аллокации/ретайра. Проще говоря, ядро стало лучше «жонглировать» независимыми микрооперациями и быстрее освобождать ресурсы.
  • Богатая портовая карта: до 26 диспетчерских портов, восемь целочисленных ALU, развитые блоки загрузки/выгрузки, отдельные «джамп-порты», приличный векторный тракт под AVX2+VNNI/INT8. Это не HPC-монстр с AVX-512, но в типичной E-ядерной номенклатуре задач (веб, микросервисы, инференс) баланс крайне удачный.
  • Память и кеши: каждый 4-ядерный модуль делит 4 МБ L2. На вычислительную плитку приходится 6 модулей = 24 МБ L2, а на весь процессор — 288 МБ L2. Пропускная способность L2 удвоена относительно Crestmont. Взаимодействие L1↔L1 между ядрами ускорено за счёт обхода общей фабрики — данные «короче идут» через L2, что предсказуемее по задержке.

В совокупности это даёт заявленный прирост ~17% IPC против Crestmont. Но куда заметнее эффект на масштабе: когда таких ядер сотни, экономия на каждом участке конвейера превращается в ощутимый скачок производительности и энергоэффективности на сокет.

18A, RibbonFET и PowerVia: транзисторная база, которая всё потянет

Intel 18A — флагманский техпроцесс с транзисторами RibbonFET (вариант gate-all-around), где затвор полностью «обнимает» канал. Это даёт плотный контроль над токами, более низкое рабочее напряжение, снижение утечек и ёмкости затвора. Производственный смысл прост: больше производительности на ватт при высокой заполняемости ячеек (заявляют до ~90%) и лучшем трассировании сигналов за счёт вынесения питания на обратную сторону кристалла.

Здесь вступает PowerViabackside power delivery, т.е. подвод питания снизу. Верхние металлы освобождаются под сигнальные линии, снижается конфликт маршрутов, уменьшаются падения напряжения и потери в доставке энергии (оценочно −4–5%). В паре с RibbonFET это не просто «чуть-чуть быстрее», а фундамент под очень плотные многоядерные связки, где каждый пикоджоуль на межсоединениях имеет значение.

Кеши, память, I/O и ускорители: куда складываются данные и как они бегают

Базовые плитки несут огромный общий последний уровень кеша — 576 МБ LLC (по 192 МБ на каждую из трёх базовых плиток). В сумме с 288 МБ L2 на вычислительных плитках мы получаем 864 МБ кеша L3+L2 на пакет. Это критично для сотен лёгких потоков, которым важны не только «чистые» такты ядра, но и предсказуемая латентность к ближайшим данным.

Память — до 12 каналов DDR5 на сокет с заявленной поддержкой скоростей до DDR5-8000 (в идеальной топологии и при нужной селекции модулей/платформы). С таким количеством каналов и частотным потолком получается внушительная суммарная пропускная способность, особенно в двухсокетной конфигурации.

I/O-плитки на Intel 7 объединяют PCIe 5.0 — до 96 линий суммарно, до 64 линий CXL 2.0 (что важно для подключаемой памяти/акселераторов), а также до 6 UPI 2.0 (до 24 GT/s на линию) для связи сокетов и масштабирования. На самих I/O-плитках находятся и аппаратные ускорители: Intel QAT (сжатие/крипто), DSA (перемещения данных), DLB (балансировка), IAA (in-memory-аналитика). Для облачных нагрузок и сетевых сервисов это готовые «суппорты», разгружающие CPU-ядра от рутинных байтокрутелок.

Foveros Direct 3D + EMIB: про межсоединения, где «энергия на бит» стремится к нулю

Foveros Direct 3D — это Cu-to-Cu соединения с очень плотным шагом (уровня единиц микрон), которые позволяют фактически «склеить» вычислительные плитки с базовыми как единый кремниевый массив. Энергетика таких стыков даёт впечатляюще малую стоимость передачи — порядка десятков фемтоджоулей на бит. В реальном мире это значит: при многократных походах за данными в LLC/фабрику энергопрофиль остаётся вменяемым даже при сотнях ядер. EMIB добавляет гибкость связывания больших кристаллов по 2.5D без необходимости монструозного интерпозера: выше выход годного и меньше риски по площадям.

Производительность и эффективность: на цифрах и в логике

Intel для ориентиров сравнивает 288-ядерный Clearwater Forest с Sierra Forest в двух вариантах:

  • Против 144C Sierra (Xeon 6780E) при ~330 Вт: заявлено примерно +112,7% производительности у 288C Clearwater при ~450 Вт, при этом на ватт выходит до +54,7%. Иными словами, удвоение ядер + 18A/архитектура дают больше, чем просто линейное масштабирование.
  • Против гипотетического 288C Sierra ~500 Вт: Clearwater при ~450 Вт обещает ~+17% производительности и ~+30% эффективности на ватт. Здесь как раз видно, насколько «тонкая механика» Darkmont/кешей/соединений важнее тупого наращивания частоты/напряжения.

На уровне платформы Intel говорит о консолидации до 8:1 по серверам против «старых» Xeon-поколений: на тех же стойках и при том же SLA можно уместить в восемь раз больше лёгких потоков, экономя электроэнергию и капекс/опекс дата-центра. Этот тезис, конечно, зависит от профиля нагрузки (и от того, насколько хорошо она распараллеливается), но для облачных провайдеров и крупных веб-площадок он звучит весьма реалистично.

Платформа: сокет, память, режимы

Сокет LGA 7529 — общий для Granite Rapids-AP, Sierra Forest и теперь Clearwater Forest. Это означает более плавную миграцию для производителей плат и серверов: новая «начинка» в знакомую механическую базу. Конфигурации — 1S/2S (один или два сокета). Диапазон TDP — примерно 300–500 Вт в зависимости от SKU; число ядер масштабируется (например, варианты на 144 ядра в нижней части диапазона). Память — до 12 каналов DDR5 с верхними скоростями вплоть до 8000 MT/s, поддержка PCIe 5.0 (до 96 линий), CXL 2.0 (до 64 линий), UPI 2.0 до 6 линков. Из защитных технологий — SGX, TDX, а также энергетические фичи уровня Intel AET и Turbo Rate Limiter. По наборам инструкций — акцент на AVX2 с VNNI и INT8, что указывает на ориентацию платформы в том числе на эффективный инференс и классические серверные векторные операции без тяжёлого AVX-512.

Где это стреляет лучше всего

Запросы, ради которых делалась такая архитектура, легко перечислить: высокой плотности веб-фронтенды, микросервисные поля, контейнерные фермы, обработка событий и телеметрии, брокеры очередей, кэш-сервисы, «лёгкая» in-memory-аналитика, аналитика журналов/трасс, обработка сетевого трафика, сетевые функции, AI-инференс на INT8/VNNI (рекомендательные системы, классификации, ранжирование, персонализация), сервисы «данные рядом с вычислением» (DSA/IAA помогают). Чем больше мелких потоков, тем лучше себя чувствуют 288 ядер с огромным LLC и низкоэнергетичными межсоединениями.

Где есть ограничения? Там, где нужен максимум от ядра в одиночку: тяжёлые векторные HPC-ядра под AVX-512, код с большим числом слабо распараллеливаемых участков, экстремально «жёсткие» по латентности пайплайны с узкими критическими секциями. Для таких задач в линейке Xeon остаются P-ядерные/смешанные варианты. Но на «широких» облачных нагрузках выигрыш Clearwater Forest очевиден.

Поставки и риски

Intel обозначает окно вывода на рынок как второе полугодие 2026 (по ряду источников — рубеж 1H–2H). Ключевой фактор — массовая отладка и масштабирование упаковки Foveros/EMIB и выход годного на 18A. Архитектурно платформа выглядит готовой и логичной; как всегда в полупроводниках, «дьявол» в производственных кривых, валидации и экосистеме (драйверы, BIOS, прошивки, поддержка в гипервизорах и ядрах ОС).

Краткое сравнение с Sierra Forest

Параметр Sierra Forest (Xeon 6 E-core) Clearwater Forest (Xeon 6+)
Микроархитектура Crestmont Darkmont
Техпроцесс (ядра / база / I/O) Intel 3 / Intel 3 / Intel 7 Intel 18A / Intel 3 / Intel 7
Макс. ядер на сокет до 144 (планы 288 для отдельных SKU свёрнуты) до 288
L2 4 МБ на 4-ядерный кластер 4 МБ на 4-ядерный модуль; 24 МБ на плитку; 288 МБ суммарно
LLC до ~108–216 МБ (в зависимости от конфигурации) 576 МБ на базовых плитках
Память до 12 каналов DDR5 (обычно DDR5-6400) до 12 каналов DDR5-8000
PCIe / CXL ~88 линий PCIe 5.0; CXL 2.0 до 96 линий PCIe 5.0; до 64 линий CXL 2.0
Связи сокетов UPI 2.0 (меньше линков) до 6 UPI 2.0 (до 24 GT/s)
Упаковка EMIB (2.5D) + разнесённые кристаллы Foveros Direct 3D + EMIB (2.5D)
TDP-диапазон до ~330–500 Вт ~300–500 Вт (в зависимости от SKU)
Прирост база для сравнения ~+17% IPC; ~+30–55% perf/W по сценариям

Почему рынок этому обрадуется

Снижение TCO в ЦОДах сегодня важнее гонки за «герцовыми» рекордами. Сотни сравнительно простых потоков, идущих через Kubernetes/Service Mesh, тревожно мало выигрывают от сверхшироких векторов, зато прекрасно масштабируются по ядрам и кешам. Clearwater Forest предлагает именно это: огромный параллелизм, заметный шаг по энергоэффективности, «дешёвые» по энергии межсоединения, обильный LLC, очень широкий фронт памяти и аппаратные DSA/QAT/IAA-«костыли» для типичных серверных задач. В сумме — возможность закрыть больше клиентских сценариев на меньшем парке серверов и при более низких счетах за электричество.

Вывод

Intel Clearwater Forest (Xeon 6+) — зрелая, цельная концепция большого E-ядерного сокета: Darkmont на 18A с RibbonFET и PowerVia, Foveros Direct 3D + EMIB, 288 ядер на пакет, 576 МБ LLC, 12 каналов DDR5-8000, PCIe 5.0 и CXL 2.0, актуальные защиты и управление питанием. Это ставка на мир, где «много маленьких» важно больше, чем «немного огромных». Если Intel выдержит темпы по 18A/упаковке и отладит платформы с поставщиками серверов, у Clearwater Forest высокие шансы стать эталоном «плотных» вычислений на предстоящие годы.

FAQ: коротко о главном

  • Сколько ядер? До 288 Darkmont на сокет (1S/2S конфигурации).
  • Сколько кеша? 576 МБ LLC на базовых плитках + 288 МБ L2 = 864 МБ (L3+L2) всего.
  • Какая память? До 12 каналов DDR5, вплоть до DDR5-8000.
  • I/O? До 96 линий PCIe 5.0, до 64 линий CXL 2.0, до 6 линков UPI 2.0.
  • Энергоэффективность? Заявлены крупные выигрыши (до ~30–55% perf/W в сравнениях с Sierra Forest).
  • Когда ждать? Актуальное окно — 2026 год (вторая половина).

В сухом остатке: Clearwater Forest — это попытка заново определить «норму» для серверов масштаба. Если ваш продакшн живёт миллионами лёгких запросов и микросервисов — это то, чего вы ждали от Intel.

Оставьте комментарий