Запуск нового поколения видеокарт GeForce RTX на архитектуре Blackwell стал важным этапом для внедрения новых технологий в игровую индустрию. NVIDIA давно является лидером, который задает направление для развития технологий и первым внедряет новые технологические стандарты. В 2018 году с запуском поколения GeForce RTX 20 компания первой представила аппаратное ускорение трассировки лучей и внедрила глубокое обучение с масштабированием DLSS. А видеокарты GeForce RTX 50 на архитектуре Blackwell выводят все это на новый уровень, добавляя многокадровую генерацию, новый тип нейронных шейдеров и ускоряя производительность с продвинутой трассировкой пути для более реалистичной графики.
Архитектура Blackwell — новый этап развития видеокарт GeForce
Вместе с новым поколением потребительских видеокарт были представлены новые технологии для реалистичной графики и повышения производительности. Появилась новая версия DLSS 4 с улучшенным масштабированием на основе продвинутой модели Transformer, что в свою очередь позволило реализовать технологию Multi-Frame Generation с генерацией до четырех кадров. Также были внедрены новые нейронные шейдеры и целый спектр технологий для оптимизации рендеринга с трассировкой.
Все технологические инновации опираются на соответствующие аппаратные изменения в архитектуре графических процессоров. Поэтому нужно кратко описать основные нововведения в архитектуре Blackwell:
- Новые функции в блоках SM для повышения производительности и оптимизация под нейронные вычисления;
- Новые ядра RT четвертого поколения;
- Новые тензорные ядра пятого поколения;
- Дополнительный сопроцессор AI Management Processor;
- Внедрение быстрой памяти GDDR7;
- DLSS 4 на базе модели Transformer и Multi Frame Generation;
- Нейронные шейдеры;
- Mega Geometry Technology.
Сейчас в рамках новой серии видеокарт выпущено пять графических чипов — GPU GB202 для топовой модели GeForce RTX 5090, GB203 для RTX 5080 и RTX 5070 Ti, GB205 для RTX 5070, GB206 для RTX 5060 Ti и RTX 5060, а также GB206 для RTX 5050. Флагманский графический процессор GB202 является вершиной инженерной мысли и самым крупным чипом в потребительском сегменте. Он состоит из 12 больших кластеров GPC, внутри каждого по 8 TPC (два объединенных SM). В чипе GB203 уже реализована немного другая структура с 6 TPC на один кластер GPC, а в GB203 кластеры с пятью активными TPC.
Флагманский чип GB202 — 192 SM и 24576 ядер CUDA
Старший GPU традиционно немного урезан по активным блокам. Поэтому из 192 SM активно 170 SM, что дает 21760 рабочих потоковых ядер CUDA. Но даже в таком варианте флагман GeForce RTX 5090 обеспечивает 105 TFLOPS в графических вычислениях FP32. Видеокарта GeForce RTX 5080 получила чип с 84 SM и 10752 ядрами CUDA при вычислительном потенциале 56,3 TFLOPS в FP32.
Важные изменения произошли на уровне базовых блоков SM, которые являются идентичными для всех GPU Blackwell. Один SM насчитывает 128 потоковых ядра CUDA с четырьмя обновленными тензорными ядрами пятого поколения и ядром RT четвертого поколения для операций с трассировкой лучей.
Новые тензорные ядра стали мощнее и более гибкими. Появилась поддержка новых форматов операций FP4 и FP6 для малых моделей ИИ. Это позволило вывести вычислительный потенциал топовой видеокарты GeForce RTX 5090 в нейронных вычислениях на невероятный уровень в 1321 TOPS. И все поколение GeForce RTX 50 обеспечивает серьезный скачок производительности в нейронных вычислениях.
RT-ядра четвёртого поколения получили новые аппаратные функции для ускорения операций, связанных с трассировкой. Теперь они имеют пять встроенных аппаратных механизмов для ускорения разных этапов вычислений:
- Box Intersection Engine;
- Opacity Micromap Engine;
- Triangle Cluster Intersection Engine;
- Linear Swept Spheres;
- Triangle Cluster Decompression Engine.
Относительно прошлого поколения это три новых движка внутри ядра RT, в том числе для новых функций по оптимизации трассировки в сценах со сложной геометрией.
Все GPU Blackwell вместе с глобальным планировщиком GigaThread Engine получили новый блок AI Management Processor — это сопроцессор для лучшего распределения нагрузок. AMP более эффективно планирует рабочие нагрузки ИИ и графического конвейера при меньших задержках. Также в Blackwell улучшена работа Shader Execution Reordering, в том числе помогая лучше распределять задачи между тензорными ядрами.
Видеокарты GeForce RTX 50 серьезно увеличили пропускную способность памяти благодаря использованию новых микросхем GDDR7. В них реализован метод импульсно-амплитудной модуляции PAM3, который позволяет передавать 1,5 бит за такт. Новый тип графической памяти устойчив к помехам на высоких частотах и более энергоэффективный.
Использование памяти GDDR7 28000 МТ/с в сочетании с 512-битной шиной позволило достичь рекордной общей пропускной способности памяти в 1792 ГБ/с для GeForce RTX 5090. Младший флагман GeForce RTX 5080 с шиной 256 бит оснащается GDDR7 30000 МТ/с при общей пропускной способности 960 ГБ/с. Это важно не только для графических вычислений — высокая пропускная способность памяти позволяет серьезно поднять производительность в задачах ИИ.
Обновлённые тензорные ядра и новые функции в ядрах RT позволили NVIDIA внедрить в новом поколении технологию RTX Mega Geometry для работы со сложной геометрией в сценах с трассировкой. Это механизм работы с кластерами внутри структуры Bounding Volume Hierarchy (BVH) для разных уровней детализации сцены. Позволяет оптимизировать и ускорить просчет освещения, обновляя данные только для нужных кластеров, например, не затрагивая статичные неизменные зоны кадра. Это позволяет использовать сверхсложную геометрию с большим количеством деталей при сложной трассировке пути в реальном времени.
Первой игрой с поддержкой RTX Mega Geometry является Alan Wake 2. Еще есть целый набор новых технологий, внедрение которых мы можем увидеть в ближайшие годы. Все они используют новый тип нейронных шейдеров (RTX Neural Shaders). Это отдельный тип программируемых шейдеров с использованием малых нейронных сетей для кеширования, сжатия текстур, материалов и других областей. NVIDIA уже предлагает разработчикам Neural Shaders SDK с набором готовых технологий.
В этот набор нейронных технологий входит RTX Neural Texture Compression для качественного сжатия текстур, что позволяет экономить видеопамять для отдельных текстур до 7 раз. RTX Neural Materials можно использовать для визуализации сложных многослойных поверхностей. RTX Neural Radiance Cache помогает оптимизировать процесс просчета освещения при трассировке лучей.
RTX Neural Faces позволяет генерировать реалистичные лица для NPC, а RTX Hair оптимизирует процесс рендера волос при трассировке. Причем последняя технология уже нашла практическое применение в Indiana Jones and the Great Circle.
Наглядной демонстрацией RTX Mega Geometry и новых нейронных технологий в графике является техническое демо Zorah, которое выполнено на базе движка Unreal Engine 5. Оценить детализацию и освещение в Zorah можно по представленному ниже видео.
Технология DLSS 4 и Multi Frame Generation
Вместе с новым поколением видеокарт NVIDIA запустила DLSS 4 на основе новой модели ИИ. Это комплексное сочетание алгоритмов масштабирования на базе глубокого обучения и качественного сглаживания. Традиционно для построения изображений используются нейросети CNN (Convolutional Neural Network), и прошлые версии DLSS использовали глубокое обучение на базе такой архитектуры. При этом технология совершенствовалась на протяжении всего времени существования за счет обучения на большом суперкомпьютере NVIDIA. В DLSS 4 используется новая модель нейросети Transformer, которая лучше работает с динамическими последовательностями данных.
Переход на такую модель повышает качество изображения при масштабировании DLSS Super Resolution — детализация лучше, а шлейфов и других артефактов меньше. При этом непосредственно апскейлинг DLSS 4 Transformer работает на всех видеокартах NVIDIA с тензорными ядрами. Поэтому новое качественное масштабирование можно включить не даже на старых видеокартах GeForce RTX 30/20‑й серии. Однако ресурсоемкость Transformer выше, поэтому производительность с новым апскейлингом немного ниже.
Как и ранее, на базе DLSS пользователям доступно несколько пресетов качества:
- DLAA — коэффициент масштабирования 1x (100% кадра)
- Quality — коэффициент масштабирования 1,5x (66,7% кадра)
- Balanced — коэффициент масштабирования 1,72x (58% кадра)
- Performance — коэффициент масштабирования 2x (50% кадра)
- Ultra Performance — коэффициент масштабирования 3x (33,3% кадра)
Чтобы оценить преимущества новых алгоритмов масштабирования, посмотрим, как выглядит Cyberpunk 2077 с трассировкой лучей в формате 1440p при двух методах DLSS. Тут выбрать метод DLSS очень просто, поскольку прямо в настройках игры задается модель CNN или Transformer. Ниже сравнение двух сцен в оригинальном разрешении и с двукратным увеличением. Использовался качественный режим DLSS, что означает входное разрешение 66,7% от финального кадра.


Детализация изображения совершенно не страдает при переходе от нативного формата к DLSS Quality. При масштабировании на основе модели CNN немного снижается резкость отдельных элементов, но с Transformer изображение не хуже нативного. При этом антенна на здании и некоторые другие мелкие элементы имеют более плавные и сглаженные края именно с DLSS.


Другая сцена хорошо показывает, что в нативном режиме с TAA не видны некоторые мелкие элементы. На иллюстрации с увеличением обратите внимание на фрагменты рекламного щита, на секцию ограждения в левой части, ножку прожектора и антенну на здании — все они имеют более правильные и четкие контуры при активной технологии DLSS. Даже старая модель CNN улучшает видимость мелких элементов, хотя появляется легкое смазывание некоторых текстур. А с Transformer вы получаете самое четкое и детализированное изображение.
В новом шутере Doom: The Dark Ages тоже используется последняя версия DLSS. Давайте посмотрим, где лучше изображение — в нативном разрешении 2560×1440 с TAA или при активном масштабировании DLSS Quality.


Несмотря на меньшее входное разрешение, детализация кадра лучше именно с DLSS Quality — текстуры на дробовике и земле явно четче. И такое улучшение качества картинки сопровождается ростом производительности. Настоящая «магия NVIDIA»!
Из личного опыта могу сказать, что во многих играх при разрешении 4K отличное качество изображения вы получите с DLSS Balanced. А после перехода на модель Transformer можно рассчитывать на хорошую детализацию даже с производительными режимами DLSS. Максимальное качество изображения обеспечит NVIDIA DLAA, где алгоритмы DLSS используются при полноценном разрешении входного кадра. Этот режим подходит для игр с избыточной производительностью.
Также модель Transformer используется для работы технологии Ray Reconstruction, которая призвана повысить точность просчета освещения в сложных сценах за счет более качественного шумоподавления при трассировке лучей и трассировке пути. Тут для иллюстрации воспользуемся кадром из видеоролика NVIDIA.
NVIDIA серьезно прокачала генерацию кадров. Вместе с DLSS 4 внедрена технология многокадровой генерации Multi Frame Generation (MFG), которая позволяет создавать до четырех дополнительных кадров! Это стало возможным благодаря новым алгоритмам реконструкции и генерации изображения совместно с обновленным движком AI Optical Flow. Новая генерация требует больше данных для построения кадров и опирается на новые аппаратные возможности GPU с сопроцессором AMP и усиленными тензорными ядрами. Поэтому технология работает только на новых видеокартах GeForce RTX 50‑й серии.


С внедрением MFG наступает новая эра, когда большая часть выводимых данных на вашем экране создается с помощью ИИ. NVIDIA отмечает, что совместное использование масштабирования DLSS Performance вместе с генерацией 4‑х кадров MFG позволяет достичь уровня рендеринга, когда 15 из 16 пикселей на экране сгенерированы ИИ.
Генерация MFG открывает новые возможности для повышения производительности даже в самых тяжелых режимах графики. В играх с поддержкой DLSS 4 MFG новое поколение видеокарт получает серьезное преимущество относительно старых моделей. А счастливые обладатели флагмана GeForce RTX 5090 могут рассчитывать на комфортный гейминг на мониторах 4K с частотой обновления 240 Гц.
У пользователей видеокарт GeForce появилась возможность выбирать версию DLSS для каждой конкретной игры. В новом приложении NVIDIA App в разделе графических настроек для каждого совместимого приложения доступна функция DLSS Overdrive, которая позволяет заменить DLSS в игре на последнюю модель DLSS 4 Transformer. Это доступно отдельно для масштабирования DLSS Super Resolution, для технологии Ray Reconstruction и генерации кадров.
Раньше пользователи могли обновить версию DLSS через сторонние утилиты или через замену соответствующей библиотеки, а теперь это доступно через официальное приложение.
Технология Reflex 2 и снижение задержек
Не секрет, что при генерации кадров увеличиваются задержки. Высокий фреймрейт с долгим откликом не улучшает общее восприятие игрового процесса. Компенсировать это призвана технология NVIDIA Reflex. Благодаря оптимизации графического конвейера и лучшей согласованности работы CPU-GPU в первой версии Reflex удалось достичь серьезного снижения латентности и повысить время отклика вплоть до 50%. Новая версия Reflex 2 позволяет добиться еще более быстрого отклика (до 75%) благодаря технологии Frame Warp. CPU отправляет на отрисовку кадр в GPU и еще до вывода этого кадра он обрабатывает следующий кадр, фиксируя небольшие смещения основных объектов. Это смещение применяется к кадру, который готовит GPU.
В результате быстрого применения смещения GPU не успевает обработать новые данные, что на выходе дает пустые зоны и шлейфы вокруг объектов. GPU закрашивает эти небольшие области на основе данных соседних кадров, используя «предсказательный рендеринг» (Predictive Rendering).
Как видим, это очень важная технология, которая дополняет Multi Frame Generation. Поэтому Reflex 2 автоматически используется при генерации кадров. Но технология также имеет важное значение для динамичных соревновательных игр без генерации кадров, повышая скорость отклика на действия игрока.
Трассировка пути и трассировка лучей
На протяжении этого обзора не раз упоминалась трассировка пути (Path Tracing). Что это, и чем она отличается от трассировки лучей (Ray Tracing)? Вначале вспомним, чем является обычная трассировка лучей. Это метод построения трехмерного изображения на основе отслеживания того, как лучи света взаимодействуют с поверхностями. От виртуальной камеры к пикселю строится луч, и далее фиксируется его траектория с учетом свойств объектов. Такой метод позволяет учитывать особенности освещения, отраженный свет и взаимное влияние объектов друг на друга.
Ранее при растеризации все это делали с помощью специальных алгоритмов, которые симулировали многие эффекты. Трассировка лучей лучше учитывает отраженный свет и позволяет работать со сложным освещением в режиме реального времени. Внедрение технологии в игровой рендеринг началось с появлением видеокарт GeForce RTX 20‑й серии в 2018 году. Но из-за высокой ресурсоемкости данного метода, технология выступала лишь дополнением к стандартным методам рендеринга. Также использовались разные методы оптимизации, например, ограничение количества лучей и отскоков.
Трассировка пути является более продвинутым вариантом трассировки лучей, где меньше компромиссов. Она создает еще более точное изображение, учитывая отраженный и непрямой свет для более реалистичного глобального освещения и затенения. Технология учитывает цветовые блики, лучше просчитывает фоновое затенение и создает реалистичные тени, которые имеют мягкие контуры при рассеянном свете и точные контуры при точечном освещении.
На практике это лучше всего видно по тому, как отраженный свет влияет на сложные сцены. Также общее освещение с трассировкой пути становится более «мягким». Хорошей иллюстрацией послужит сравнение сцены с Ray Tracing и Path Tracing, которую выложил один из пользователей официальных форумов Unreal Engine.
Трассировка пути (иногда ее называют полной трассировкой) доступна в играх Portal RTX, Cyberpunk 2077, Alan Wake 2, Black Myth: Wukong, Indiana Jones and the Great Circle и в новом кооперативном шутере FBC: Firebreak. Недавно вышло обновление, которое добавило эту технологию в Doom: The Dark Ages.


С некоторыми визуальными и техническими улучшениями в Doom: The Dark Ages знакомит специальный трейлер от NVIDIA.
Также трассировка пути будет использоваться в ремастере Half-Life 2 RTX, и пользователи уже могут опробовать демоверсию с двумя уровнями. Это хороший пример того, как интеграция нового освещения преображает старую игру. Жаль, что системные требования у Half-Life 2 RTX пока столь высокие, что без GeForce RTX 5080/5090 насладиться высоким fps не получится.
NVIDIA ACE
Кроме внедрения технологий ИИ непосредственно в рендеринг компания NVIDIA также предлагает ряд технологий для создания умных и продвинутых персонажей в играх. Платформа NVIDIA ACE (Avatar Cloud Engine) уже объединяет целый стек технических решений для создания автономных NPC, включая распознавание речи, интерпретацию текста, речи и визуальных символов, формирование базы знаний NPC на основе игровых событий и генеративный ИИ для формирования ответов и анимации. Конечной целью тут является создание игровых персонажей, с которыми можно общаться при помощи естественной речи. Они будут запоминать события и реагировать на них в зависимости от своих параметров. А ответы и действия персонажей будут генерироваться в режиме реального времени.
Отдельные элементы и технологии NVIDIA ACE уже внедряются в современные игры. Например, в S.T.A.L.K.E.R. 2: Heart of Chornobyl использовали Audio2Face для генерации лицевой анимации, что упрощает адаптацию анимации под озвучку на разных языках. Такая же технология применялась создателями игр Alien: Rogue Incursion и World of Jade Dynasty.
В марте в раннем доступе Steam вышел симулятор жизни inZOI, в котором реализованы умные персонажи, взаимодействующие с миром и другими NPC. И все это на основе технологий NVIDIA ACE.
В шутере Black Vultures: Prey of Greed одной из главных особенностей станет наличие встроенного в костюм ИИ, который анализирует поле боя и дает советы. И реализован этот помощник на базе платформы NVIDIA ACE.
Krafton создает умных напарников для королевской битвы PUBG: Battlegrounds. Они могут заменить живых игроков, будут действовать совместно с вами и реагировать на прямые команды. Для них даже введен специальный термин COP (Co-op Playable Character).