Intel Clearwater Forest — это не просто очередное поколение серверных процессоров, а показатель того, насколько далеко компания готова зайти в идее «плотности вычислений на ватт». Линейка Xeon 6+ с полностью «эффективными» ядрами (E-cores) доводит до логического предела курс, начатый в Sierra Forest: вместо нескольких мощных P-ядер — сотни компактных, но очень продвинутых E-ядер, объединённых сложной упаковкой из 3D-стека и 2.5D-перемычек. В сухом остатке: до 288 ядер Darkmont на сокет, 576 МБ единого LLC на базовых плитках, техпроцесс Intel 18A с RibbonFET и PowerVia, плюс Foveros Direct 3D и EMIB 2.5D. Ниже — подробный разбор архитектуры, причин, почему это важно, и того, где именно такая архитектура блеснёт в реальных ЦОДах.

От Sierra к Clearwater: почему ставка на E-ядра работает
С появлением семейства Xeon 6 Intel чётко развела линии: P-ядра для максимальной пиковой производительности на поток и E-ядра для экстремальной плотности и эффективности в задачах масштаба. Sierra Forest стал первой полностью E-ядерной линейкой, доказав жизнеспособность подхода: множество лёгких потоков, микросервисы, CDN, веб-фронтенды, «лёгкая» аналитика и особенно инференс — те случаи, где критичны не гигантские вектора, а совокупная пропускная способность. Clearwater Forest подхватывает эстафету и выходит на новый технологический уровень: свежая микроархитектура Darkmont, переход ядра на Intel 18A, радикально более тесная интеграция кристаллов через Foveros Direct и связующий EMIB-каркас.
Конструктор из плиток: как физически устроен чип
Кристалл условно делится на три блока («плитки»): вычислительные, базовые (active base) и I/O-плитки. Между собой они соединяются через EMIB (2.5D) и Foveros Direct 3D (медный Cu-to-Cu бондинг с шагом порядка 9 мкм). В роли «силового и логического позвоночника» выступают базовые плитки — на них контроллеры памяти, крупный общий LLC и фабрика. Вычислительные — это двенадцать чиплетов с ядрами Darkmont, каждая плитка — шесть модулей по четыре ядра (итого 24 на плитку). Двенадцать вычислительных × 24 ядра = те самые 288 Darkmont. I/O-плитки берут на себя PCIe 5.0, CXL 2.0, UPI и аппаратные акселераторы. Поколенчески: I/O — на Intel 7, базовые — на Intel 3, вычислительные — на Intel 18A.
Важно понять замысел: Intel не пытается затолкать «всё и сразу» в один монолит. Вместо этого — набор специализированных слоёв, где каждый производит свою работу максимально эффективно. Базовые плитки играют роль «активного кремниевого интерпозера», на который «садятся» вычислительные плитки по Foveros Direct; на уровнем ниже по шинам EMIB они сходятся с I/O-плитками. Такая схема даёт высокую плотность соединений при низких потерях, сокращает энергозатраты на движение данных между блоками и поднимает потолок масштабирования.
Darkmont: эволюция E-ядра
Микроархитектура Darkmont — наследник идей Skymont/ Crestmont, но явно «накачанный» под серверные потоки. Важные штрихи, которые здесь критичны:
- Широкий передний конец: декод на девять инструкций (3×3 кластера), расширенные блоки предсказания ветвлений и выборки. Это снижает «голод» по uops и делает ядро устойчивее к ветвистым фронтендам, характерным для серверных приложений.
- Глубокое внеочередное исполнение: окно OoO расширено (порядка 416 записей), очередь микроопераций увеличена примерно до 96, растут ширины аллокации/ретайра. Проще говоря, ядро стало лучше «жонглировать» независимыми микрооперациями и быстрее освобождать ресурсы.
- Богатая портовая карта: до 26 диспетчерских портов, восемь целочисленных ALU, развитые блоки загрузки/выгрузки, отдельные «джамп-порты», приличный векторный тракт под AVX2+VNNI/INT8. Это не HPC-монстр с AVX-512, но в типичной E-ядерной номенклатуре задач (веб, микросервисы, инференс) баланс крайне удачный.
- Память и кеши: каждый 4-ядерный модуль делит 4 МБ L2. На вычислительную плитку приходится 6 модулей = 24 МБ L2, а на весь процессор — 288 МБ L2. Пропускная способность L2 удвоена относительно Crestmont. Взаимодействие L1↔L1 между ядрами ускорено за счёт обхода общей фабрики — данные «короче идут» через L2, что предсказуемее по задержке.
В совокупности это даёт заявленный прирост ~17% IPC против Crestmont. Но куда заметнее эффект на масштабе: когда таких ядер сотни, экономия на каждом участке конвейера превращается в ощутимый скачок производительности и энергоэффективности на сокет.
18A, RibbonFET и PowerVia: транзисторная база, которая всё потянет
Intel 18A — флагманский техпроцесс с транзисторами RibbonFET (вариант gate-all-around), где затвор полностью «обнимает» канал. Это даёт плотный контроль над токами, более низкое рабочее напряжение, снижение утечек и ёмкости затвора. Производственный смысл прост: больше производительности на ватт при высокой заполняемости ячеек (заявляют до ~90%) и лучшем трассировании сигналов за счёт вынесения питания на обратную сторону кристалла.
Здесь вступает PowerVia — backside power delivery, т.е. подвод питания снизу. Верхние металлы освобождаются под сигнальные линии, снижается конфликт маршрутов, уменьшаются падения напряжения и потери в доставке энергии (оценочно −4–5%). В паре с RibbonFET это не просто «чуть-чуть быстрее», а фундамент под очень плотные многоядерные связки, где каждый пикоджоуль на межсоединениях имеет значение.
Кеши, память, I/O и ускорители: куда складываются данные и как они бегают
Базовые плитки несут огромный общий последний уровень кеша — 576 МБ LLC (по 192 МБ на каждую из трёх базовых плиток). В сумме с 288 МБ L2 на вычислительных плитках мы получаем 864 МБ кеша L3+L2 на пакет. Это критично для сотен лёгких потоков, которым важны не только «чистые» такты ядра, но и предсказуемая латентность к ближайшим данным.
Память — до 12 каналов DDR5 на сокет с заявленной поддержкой скоростей до DDR5-8000 (в идеальной топологии и при нужной селекции модулей/платформы). С таким количеством каналов и частотным потолком получается внушительная суммарная пропускная способность, особенно в двухсокетной конфигурации.
I/O-плитки на Intel 7 объединяют PCIe 5.0 — до 96 линий суммарно, до 64 линий CXL 2.0 (что важно для подключаемой памяти/акселераторов), а также до 6 UPI 2.0 (до 24 GT/s на линию) для связи сокетов и масштабирования. На самих I/O-плитках находятся и аппаратные ускорители: Intel QAT (сжатие/крипто), DSA (перемещения данных), DLB (балансировка), IAA (in-memory-аналитика). Для облачных нагрузок и сетевых сервисов это готовые «суппорты», разгружающие CPU-ядра от рутинных байтокрутелок.
Foveros Direct 3D + EMIB: про межсоединения, где «энергия на бит» стремится к нулю
Foveros Direct 3D — это Cu-to-Cu соединения с очень плотным шагом (уровня единиц микрон), которые позволяют фактически «склеить» вычислительные плитки с базовыми как единый кремниевый массив. Энергетика таких стыков даёт впечатляюще малую стоимость передачи — порядка десятков фемтоджоулей на бит. В реальном мире это значит: при многократных походах за данными в LLC/фабрику энергопрофиль остаётся вменяемым даже при сотнях ядер. EMIB добавляет гибкость связывания больших кристаллов по 2.5D без необходимости монструозного интерпозера: выше выход годного и меньше риски по площадям.
Производительность и эффективность: на цифрах и в логике
Intel для ориентиров сравнивает 288-ядерный Clearwater Forest с Sierra Forest в двух вариантах:
- Против 144C Sierra (Xeon 6780E) при ~330 Вт: заявлено примерно +112,7% производительности у 288C Clearwater при ~450 Вт, при этом на ватт выходит до +54,7%. Иными словами, удвоение ядер + 18A/архитектура дают больше, чем просто линейное масштабирование.
- Против гипотетического 288C Sierra ~500 Вт: Clearwater при ~450 Вт обещает ~+17% производительности и ~+30% эффективности на ватт. Здесь как раз видно, насколько «тонкая механика» Darkmont/кешей/соединений важнее тупого наращивания частоты/напряжения.
На уровне платформы Intel говорит о консолидации до 8:1 по серверам против «старых» Xeon-поколений: на тех же стойках и при том же SLA можно уместить в восемь раз больше лёгких потоков, экономя электроэнергию и капекс/опекс дата-центра. Этот тезис, конечно, зависит от профиля нагрузки (и от того, насколько хорошо она распараллеливается), но для облачных провайдеров и крупных веб-площадок он звучит весьма реалистично.
Платформа: сокет, память, режимы
Сокет LGA 7529 — общий для Granite Rapids-AP, Sierra Forest и теперь Clearwater Forest. Это означает более плавную миграцию для производителей плат и серверов: новая «начинка» в знакомую механическую базу. Конфигурации — 1S/2S (один или два сокета). Диапазон TDP — примерно 300–500 Вт в зависимости от SKU; число ядер масштабируется (например, варианты на 144 ядра в нижней части диапазона). Память — до 12 каналов DDR5 с верхними скоростями вплоть до 8000 MT/s, поддержка PCIe 5.0 (до 96 линий), CXL 2.0 (до 64 линий), UPI 2.0 до 6 линков. Из защитных технологий — SGX, TDX, а также энергетические фичи уровня Intel AET и Turbo Rate Limiter. По наборам инструкций — акцент на AVX2 с VNNI и INT8, что указывает на ориентацию платформы в том числе на эффективный инференс и классические серверные векторные операции без тяжёлого AVX-512.
Где это стреляет лучше всего
Запросы, ради которых делалась такая архитектура, легко перечислить: высокой плотности веб-фронтенды, микросервисные поля, контейнерные фермы, обработка событий и телеметрии, брокеры очередей, кэш-сервисы, «лёгкая» in-memory-аналитика, аналитика журналов/трасс, обработка сетевого трафика, сетевые функции, AI-инференс на INT8/VNNI (рекомендательные системы, классификации, ранжирование, персонализация), сервисы «данные рядом с вычислением» (DSA/IAA помогают). Чем больше мелких потоков, тем лучше себя чувствуют 288 ядер с огромным LLC и низкоэнергетичными межсоединениями.
Где есть ограничения? Там, где нужен максимум от ядра в одиночку: тяжёлые векторные HPC-ядра под AVX-512, код с большим числом слабо распараллеливаемых участков, экстремально «жёсткие» по латентности пайплайны с узкими критическими секциями. Для таких задач в линейке Xeon остаются P-ядерные/смешанные варианты. Но на «широких» облачных нагрузках выигрыш Clearwater Forest очевиден.
Поставки и риски
Intel обозначает окно вывода на рынок как второе полугодие 2026 (по ряду источников — рубеж 1H–2H). Ключевой фактор — массовая отладка и масштабирование упаковки Foveros/EMIB и выход годного на 18A. Архитектурно платформа выглядит готовой и логичной; как всегда в полупроводниках, «дьявол» в производственных кривых, валидации и экосистеме (драйверы, BIOS, прошивки, поддержка в гипервизорах и ядрах ОС).
Краткое сравнение с Sierra Forest
Параметр | Sierra Forest (Xeon 6 E-core) | Clearwater Forest (Xeon 6+) |
---|---|---|
Микроархитектура | Crestmont | Darkmont |
Техпроцесс (ядра / база / I/O) | Intel 3 / Intel 3 / Intel 7 | Intel 18A / Intel 3 / Intel 7 |
Макс. ядер на сокет | до 144 (планы 288 для отдельных SKU свёрнуты) | до 288 |
L2 | 4 МБ на 4-ядерный кластер | 4 МБ на 4-ядерный модуль; 24 МБ на плитку; 288 МБ суммарно |
LLC | до ~108–216 МБ (в зависимости от конфигурации) | 576 МБ на базовых плитках |
Память | до 12 каналов DDR5 (обычно DDR5-6400) | до 12 каналов DDR5-8000 |
PCIe / CXL | ~88 линий PCIe 5.0; CXL 2.0 | до 96 линий PCIe 5.0; до 64 линий CXL 2.0 |
Связи сокетов | UPI 2.0 (меньше линков) | до 6 UPI 2.0 (до 24 GT/s) |
Упаковка | EMIB (2.5D) + разнесённые кристаллы | Foveros Direct 3D + EMIB (2.5D) |
TDP-диапазон | до ~330–500 Вт | ~300–500 Вт (в зависимости от SKU) |
Прирост | база для сравнения | ~+17% IPC; ~+30–55% perf/W по сценариям |
Почему рынок этому обрадуется
Снижение TCO в ЦОДах сегодня важнее гонки за «герцовыми» рекордами. Сотни сравнительно простых потоков, идущих через Kubernetes/Service Mesh, тревожно мало выигрывают от сверхшироких векторов, зато прекрасно масштабируются по ядрам и кешам. Clearwater Forest предлагает именно это: огромный параллелизм, заметный шаг по энергоэффективности, «дешёвые» по энергии межсоединения, обильный LLC, очень широкий фронт памяти и аппаратные DSA/QAT/IAA-«костыли» для типичных серверных задач. В сумме — возможность закрыть больше клиентских сценариев на меньшем парке серверов и при более низких счетах за электричество.
Вывод
Intel Clearwater Forest (Xeon 6+) — зрелая, цельная концепция большого E-ядерного сокета: Darkmont на 18A с RibbonFET и PowerVia, Foveros Direct 3D + EMIB, 288 ядер на пакет, 576 МБ LLC, 12 каналов DDR5-8000, PCIe 5.0 и CXL 2.0, актуальные защиты и управление питанием. Это ставка на мир, где «много маленьких» важно больше, чем «немного огромных». Если Intel выдержит темпы по 18A/упаковке и отладит платформы с поставщиками серверов, у Clearwater Forest высокие шансы стать эталоном «плотных» вычислений на предстоящие годы.
FAQ: коротко о главном
- Сколько ядер? До 288 Darkmont на сокет (1S/2S конфигурации).
- Сколько кеша? 576 МБ LLC на базовых плитках + 288 МБ L2 = 864 МБ (L3+L2) всего.
- Какая память? До 12 каналов DDR5, вплоть до DDR5-8000.
- I/O? До 96 линий PCIe 5.0, до 64 линий CXL 2.0, до 6 линков UPI 2.0.
- Энергоэффективность? Заявлены крупные выигрыши (до ~30–55% perf/W в сравнениях с Sierra Forest).
- Когда ждать? Актуальное окно — 2026 год (вторая половина).
В сухом остатке: Clearwater Forest — это попытка заново определить «норму» для серверов масштаба. Если ваш продакшн живёт миллионами лёгких запросов и микросервисов — это то, чего вы ждали от Intel.