Свежий раунд бенчмарков MLPerf v5.1 AI Inference вызвал настоящий ажиотаж в индустрии. Главными героями стали новые чипы — NVIDIA Blackwell Ultra GB300 и AMD Instinct MI355X, которые олицетворяют вершину технологий для задач искусственного интеллекта. Intel тоже отметилась с картой Arc Pro B60, но в этот раз основное внимание сосредоточено именно на противостоянии NVIDIA и AMD.

NVIDIA Blackwell Ultra GB300 сразу же продемонстрировал грубую мощь. В тесте DeepSeek R1 (Offline) система из 72 GPU показала 420 569 выборок в секунду против 289 712 у прошлого поколения GB200. Это +45% производительности и почти полное совпадение с обещанными NVIDIA 50%. Даже на кластере из 8 GPU GB300 выдаёт 48 047 выборок, что на 44% выше GB200. На практике это означает заметное ускорение обучения и инференса моделей при меньших задержках.
В режиме DeepSeek R1 (Server), где тестируется обработка динамических запросов, GB300 также удержал лидерство: +25% при 72 GPU и +21% при 8 GPU. Такой прирост особенно важен для компаний, которые разворачивают сервисы чат-ботов, рекомендательных систем и другие интерактивные AI-сервисы, где критична масштабируемость и скорость отклика.
AMD Instinct MI355X тоже показал зубы. В тесте Llama 3.1 405B (Offline) система на 8 GPU выдала 2109 токенов в секунду — на 27% больше, чем GB200 в аналогичной конфигурации. Таким образом AMD доказала, что её Instinct не просто догоняют NVIDIA, а могут серьёзно конкурировать в ключевых задачах.
Но настоящий прорыв для MI355X — это результаты на Llama 2 70B (Offline). Вариант с 64 ускорителями показал 648 248 токенов в секунду, 32 GPU — 350 820, а 8 GPU — 93 045. Для сравнения: GB200 (8 GPU) смог лишь 65 770. Это более чем двукратное преимущество AMD в данном сценарии, что делает MI355X крайне привлекательным решением для генеративных моделей.
Стоит упомянуть и Intel Arc Pro B60. Его показатели скромные (около 3009 токенов/с в Llama 2 70B), но у этого ускорителя другая аудитория. Он нацелен на доступные решения для небольших лабораторий и компаний, которым не нужны датацентровые масштабы, зато важна цена и универсальность.
У NVIDIA есть ещё одно преимущество — новые рекорды в задачах рассуждений. Blackwell Ultra в MLPerf показал 4,7-кратный рост в офлайн-тестах и 5,2-кратный в серверных по сравнению с Hopper. Это говорит о том, что GB300 не только быстрее, но и гораздо лучше справляется с усложняющимися когнитивными нагрузками.
Впереди новые раунды MLPerf, где NVIDIA, AMD и Intel наверняка подтянут софт, драйверы и оптимизации. Индустрия движется с бешеной скоростью, и вопрос выбора между платформами будет зависеть не только от сухих цифр, но и от экосистемы, совместимости с конкретными задачами и общей стоимости владения. Одно очевидно: планка в мире AI-инференса поднята очень высоко.