NVIDIA совместно с OpenAI представила линейку открытых AI-моделей gpt-oss, которые теперь можно запускать прямо на домашних ПК с видеокартами RTX. Это важный шаг — передовые нейросети, которые раньше требовали облачных дата-центров, теперь доступны всем без подписок и задержек.

В линейку входят две модели: gpt-oss-20b, оптимизированная под обычные RTX-компьютеры с 16+ ГБ видеопамяти, и мощная gpt-oss-120b, рассчитанная на профессиональные станции с RTX PRO. Младшая модель на RTX 5090 способна выдавать до 250 токенов в секунду — быстрее, чем ты успеешь прочитать.
Обе модели обучены на ускорителях NVIDIA H100 и используют новый формат MXFP4, который повышает точность и качество генерации без потери скорости. Также поддерживается контекст длиной до 131 072 токенов — один из самых длинных среди локальных ИИ.
Модель построена по архитектуре Mixture of Experts (MoE) с поддержкой пошагового мышления, выполнения инструкций и инструментов.
Запустить всё это проще простого благодаря:
- Ollama App — интуитивный интерфейс, где всё готово для gpt-oss и работает на RTX «из коробки».
- Llama.cpp — NVIDIA помогает сообществу ускорять производительность, добавляя такие фичи, как CUDA Graphs.
- Microsoft AI Foundry — в Windows можно стартовать модель командой прямо в терминале.
Глава NVIDIA Дженсен Хуанг отметил: «gpt-oss открывает доступ к передовым ИИ-инструментам на базе крупнейшей в мире платформы ИИ-вычислений».
Пусть кто-то и жалуется на старый 5нм техпроцесс в RTX 5000, но новая реальность локального ИИ с такими скоростями — это революция. Без облаков. Без задержек. Только ты и твой RTX.