Запуск нового покоління відеокарт GeForce RTX на архітектурі Blackwell став важливим етапом для впровадження нових технологій в ігрову індустрію. NVIDIA давно стала лідером, який задає напрямок для розвитку технологій та першим впроваджує нові технологічні стандарти. У 2018 році зі стартом покоління GeForce RTX 20 компанія першою представила апаратне прискорення трасування променів і впровадила глибоке навчання з масштабуванням DLSS. А відеокарти GeForce RTX 50 на архітектурі Blackwell виводять все це на новий рівень, додаючи багатокадрову генерацію, новий тип нейронних шейдерів і прискорюючи продуктивність із просунутим трасуванням шляху для реалістичнішої графіки.
Архітектура Blackwell — новий етап розвитку відеокарт GeForce
Разом із новим поколінням споживчих відеокарт було представлено нові технології для реалістичної графіки та підвищення продуктивності. З’явилася нова версія DLSS 4 з покращеним масштабуванням на основі просунутої моделі Transformer, що зі свого боку дало змогу реалізувати технологію Multi-Frame Generation з генерацією до чотирьох кадрів. Також було впроваджено нові нейронні шейдери та цілий спектр технологій для оптимізації рендерингу з трасуванням.
Усі технологічні інновації спираються на відповідні апаратні зміни в архітектурі графічних процесорів. Тому потрібно коротко описати основні нововведення в архітектурі Blackwell:
- Нові функції в блоках SM для підвищення продуктивності та оптимізація під нейронні обчислення;
- Нові ядра RT четвертого покоління;
- Нові тензорні ядра п’ятого покоління;
- Додатковий співпроцесор AI Management Processor;
- Впровадження швидкої пам’яті GDDR7;
- DLSS 4 на базі моделі Transformer та Multi Frame Generation;
- Нейронні шейдери;
- Mega Geometry Technology.
Наразі в межах нової серії відеокарт випущено п’ять графічних чипів — GPU GB202 для топової моделі GeForce RTX 5090, GB203 для RTX 5080 і RTX 5070 Ti, GB205 для RTX 5070, GB206 для RTX 5060 Ti й RTX 5060, а також GB207 для RTX 5050. Флагманський графічний процесор GB202 є вершиною інженерної думки та найбільшим чипом у споживчому сегменті. Він складається з 12 великих кластерів GPC, всередині кожного по 8 TPC (два об’єднаних SM). У чипі GB203 вже реалізована трохи інша структура з 6 TPC на один кластер GPC, а в GB203 кластери з п’ятьма активними TPC.
Флагманський чип GB202 — 192 SM і 24576 ядер CUDA
Старший GPU традиційно трохи урізаний за активними блоками. Тому зі 192 SM активні 170 SM, що дає 21760 робочих потокових ядер CUDA. Але навіть у такому варіанті флагман GeForce RTX 5090 забезпечує 105 TFLOPS у графічних обчисленнях FP32. Відеокарта GeForce RTX 5080 отримала чип з 84 SM і 10752 ядрами CUDA при обчислювальному потенціалі 56,3 TFLOPS у FP32.
Важливі зміни відбулися на рівні базових блоків SM, які є ідентичними для всіх GPU Blackwell. Один SM налічує 128 потокових ядер CUDA з чотирма оновленими тензорними ядрами п’ятого покоління та ядром RT четвертого покоління для операцій з трасуванням променів.
Нові тензорні ядра стали потужнішими та гнучкішими. З’явилася підтримка нових форматів операцій FP4 і FP6 для малих моделей ШІ. Це дало змогу вивести обчислювальний потенціал топової відеокарти GeForce RTX 5090 у нейронних обчисленнях на неймовірний рівень у 1321 TOPS. І все покоління GeForce RTX 50 забезпечує серйозний стрибок продуктивності в нейронних обчисленнях.
RT-ядра четвертого покоління отримали нові апаратні функції для прискорення операцій, пов’язаних із трасуванням. Тепер вони мають п’ять вбудованих апаратних механізмів для прискорення різних етапів обчислень:
- Box Intersection Engine;
- Opacity Micromap Engine;
- Triangle Cluster Intersection Engine;
- Linear Swept Spheres;
- Triangle Cluster Decompression Engine.
Відносно минулого покоління це три нові рушії всередині ядра RT, зокрема для нових функцій з оптимізації трасування в сценах зі складною геометрією.
Усі GPU Blackwell разом із глобальним планувальником GigaThread Engine отримали новий блок AI Management Processor — це співпроцесор для кращого розподілу навантажень. AMP ефективніше планує робочі навантаження ШІ та графічного конвеєра за менших затримок. Також у Blackwell поліпшено роботу Shader Execution Reordering, зокрема допомагаючи краще розподіляти завдання між тензорними ядрами.
Відеокарти GeForce RTX 50 серйозно збільшили пропускну здатність пам’яті завдяки використанню нових мікросхем GDDR7. У них реалізовано метод імпульсно-амплітудної модуляції PAM3, що дає змогу передавати 1,5 біта за такт. Новий тип графічної пам’яті стійкий до електромагнітних перешкод на високих частотах та більш енергоефективний.
Використання пам’яті GDDR7 28000 МТ/с у поєднанні з 512-бітною шиною дало змогу досягти рекордної загальної пропускної здатності пам’яті в 1792 ГБ/с для GeForce RTX 5090. Молодший флагман GeForce RTX 5080 з шиною 256 біт оснащується GDDR7 30000 МТ/с при загальній пропускній здатності 960 ГБ/с. Це важливо не тільки для графічних обчислень — висока пропускна здатність пам’яті дає змогу серйозно підняти продуктивність у завданнях ШІ.
Оновлені тензорні ядра та нові функції в ядрах RT дали змогу NVIDIA впровадити в новому поколінні технологію RTX Mega Geometry для роботи зі складною геометрією в сценах із трасуванням. Це механізм роботи з кластерами всередині структури Bounding Volume Hierarchy (BVH) для різних рівнів деталізації сцени. Дає змогу оптимізувати й прискорити прорахунок освітлення, оновлюючи дані тільки для потрібних кластерів, наприклад, не зачіпаючи статичні незмінні зони кадру. Це дозволяє використовувати надскладну геометрію з великою кількістю деталей під час складного трасування шляху в реальному часі.
Першою грою з підтримкою RTX Mega Geometry стала Alan Wake 2. Ще є цілий набір нових технологій, впровадження яких ми можемо побачити в найближчі роки. Усі вони використовують новий тип нейронних шейдерів (RTX Neural Shaders). Це окремий тип програмованих шейдерів з використанням малих нейронних мереж для кешування, стиснення текстур, матеріалів та інших областей. NVIDIA вже пропонує розробникам Neural Shaders SDK з набором готових технологій.
У цей набір нейронних технологій входить RTX Neural Texture Compression для якісного стиснення текстур, що дає змогу економити відеопам’ять для окремих текстур до 7 разів. RTX Neural Materials можна використовувати для візуалізації складних багатошарових поверхонь. RTX Neural Radiance Cache допомагає оптимізувати процес прорахунку освітлення під час трасування променів.
RTX Neural Faces дає змогу генерувати реалістичні обличчя для NPC, а RTX Hair оптимізує процес рендеру волосся під час трасування. Причому остання технологія вже знайшла практичне застосування в Indiana Jones and the Great Circle.
Наочною демонстрацією RTX Mega Geometry і нових нейронних технологій у графіці є технічне демо Zorah, яке виконано на базі рушія Unreal Engine 5. Оцінити деталізацію та освітлення в Zorah можна за представленим нижче відео.
Технологія DLSS 4 і Multi Frame Generation
Разом із новим поколінням відеокарт NVIDIA запустила DLSS 4 на основі нової моделі ШІ. Це комплексне поєднання алгоритмів масштабування на базі глибокого навчання та якісного згладжування. Традиційно для побудови зображень використовуються нейромережі CNN (Convolutional Neural Network), і минулі версії DLSS використовували глибоке навчання на базі такої архітектури. При цьому технологію вдосконалювали протягом усього часу існування завдяки навчанню на великому суперкомп’ютері NVIDIA. У DLSS 4 використовується нова модель нейромережі Transformer, яка краще працює з динамічними послідовностями даних.
Перехід на таку модель підвищує якість зображення при масштабуванні DLSS Super Resolution — деталізація краща, а шлейфів та інших артефактів менше. При цьому безпосередньо апскейлинг DLSS 4 Transformer працює на всіх відеокартах NVIDIA з тензорними ядрами. Тому нове якісне масштабування можна увімкнути навіть на старих відеокартах GeForce RTX 30/20‑ї серії. Однак ресурсомісткість Transformer вища, тому продуктивність із новим апскейлингом трохи нижча.
Як і раніше, на базі DLSS користувачам доступно кілька пресетів якості:
- DLAA — коефіцієнт масштабування 1x (100% кадру)
- Quality — коефіцієнт масштабування 1,5x (66,7% кадру)
- Balanced — коефіцієнт масштабування 1,72x (58% кадру)
- Performance — коефіцієнт масштабування 2x (50% кадру)
- Ultra Performance — коефіцієнт масштабування 3x (33,3% кадру)
Щоб оцінити переваги нових алгоритмів масштабування, подивимося, який вигляд має Cyberpunk 2077 з трасуванням променів у форматі 1440p при двох методах DLSS. Тут вибрати метод DLSS дуже просто, оскільки прямо в налаштуваннях гри задається модель CNN або Transformer. Нижче порівняння двох сцен в оригінальній роздільній здатності та з дворазовим збільшенням. Використовувався якісний режим DLSS, що означає вхідну роздільну здатність 66,7% від фінального кадру.


Деталізація зображення абсолютно не страждає при переході від нативного формату до DLSS Quality. При масштабуванні на основі моделі CNN трохи знижується різкість окремих елементів, але з Transformer зображення не гірше нативного. При цьому антена на будівлі та деякі інші дрібні елементи мають плавніші та згладжені краї саме з DLSS.


Інша сцена добре показує, що в нативному режимі з TAA не видно деяких дрібних елементів. На ілюстрації зі збільшенням зверніть увагу на фрагменти рекламного щита, на секцію огорожі в лівій частині, ніжку прожектора та антену на будівлі — всі вони мають правильніші та чіткі контури за активної технології DLSS. Навіть стара модель CNN покращує видимість дрібних елементів, хоча з’являється легке змазування деяких текстур. А з Transformer ви отримуєте найчіткіше та найдеталізованіше зображення.
У новому шутері Doom: The Dark Ages теж використовується остання версія DLSS. Подивімося, де краще зображення — у нативній роздільній здатності 2560×1440 з TAA або при активному масштабуванні DLSS Quality.


Попри меншу вхідну роздільну здатність, деталізація кадру краща саме з DLSS Quality — текстури на дробовику і землі явно чіткіші. І таке покращення якості картинки супроводжується зростанням продуктивності. Справжня «магія NVIDIA»!
З особистого досвіду можу сказати, що в багатьох іграх з роздільною здатністю 4K відмінну якість зображення ви отримаєте з DLSS Balanced. А після переходу на модель Transformer можна розраховувати на гарну деталізацію навіть з продуктивними режимами DLSS. Максимальну якість зображення забезпечить NVIDIA DLAA, де алгоритми DLSS використовуються при повноцінній роздільній здатності вхідного кадру. Цей режим підходить для ігор з надлишковою продуктивністю.
Також модель Transformer використовується для роботи технології Ray Reconstruction, яка покликана підвищити точність прорахунку освітлення в складних сценах завдяки якіснішому шумозаглушенню при трасуванні променів і трасуванні шляху. Тут для ілюстрації скористаємося кадром із відеоролика NVIDIA.
NVIDIA серйозно прокачала генерацію кадрів. Разом з DLSS 4 впроваджено технологію багатокадрової генерації Multi Frame Generation (MFG), яка дозволяє створювати до чотирьох додаткових кадрів! Це стало можливим завдяки новим алгоритмам реконструкції та генерації зображення спільно з оновленим движком AI Optical Flow. Нова генерація вимагає більше даних для побудови кадрів і спирається на нові апаратні можливості GPU зі співпроцесором AMP і посиленими тензорними ядрами. Тому технологія працює тільки на нових відеокартах GeForce RTX 50‑ї серії.


З впровадженням MFG настає нова ера, коли більша частина виведених даних на вашому екрані створюється за допомогою ШІ. NVIDIA зазначає, що спільне використання масштабування DLSS Performance разом із генерацією 4‑х кадрів MFG дає змогу досягти рівня рендерингу, коли 15 із 16 пікселів на екрані згенеровані ШІ.
Генерація MFG відкриває нові можливості для підвищення продуктивності навіть у найважчих режимах графіки. В іграх з підтримкою DLSS 4 MFG нове покоління відеокарт отримує серйозну перевагу щодо старих моделей. А щасливі власники флагмана GeForce RTX 5090 можуть розраховувати на комфортний геймінг на моніторах 4K з частотою оновлення 240 Гц.
У користувачів відеокарт GeForce з’явилася можливість вибирати версію DLSS для кожної конкретної гри. У новому застосунку NVIDIA App у розділі графічних налаштувань для кожного сумісного застосунку доступна функція DLSS Overdrive, яка дає змогу замінити DLSS у грі на останню модель DLSS 4 Transformer. Це доступно окремо для масштабування DLSS Super Resolution, для технології Ray Reconstruction і генерації кадрів.
Раніше користувачі мали змогу оновити версію DLSS через сторонні утиліти або через заміну відповідної бібліотеки, а тепер це доступно через офіційний застосунок.
Технологія Reflex 2 і зниження затримок
Не секрет, що під час генерації кадрів збільшуються затримки. Високий фреймрейт з довгим відгуком не покращує загальне сприйняття ігрового процесу. Компенсувати це покликана технологія NVIDIA Reflex. Завдяки оптимізації графічного конвеєра та кращій узгодженості роботи CPU-GPU в першій версії Reflex вдалося досягти серйозного зниження латентності та прискорити час відгуку до 50%. Нова версія Reflex 2 дає змогу домогтися ще швидшого відгуку (до 75%) завдяки технології Frame Warp. CPU відправляє на відтворення кадр в GPU і ще до виведення цього кадру він обробляє наступний кадр, фіксуючи невеликі зміщення основних об’єктів. Це зміщення застосовується до кадру, який готує GPU.
Унаслідок швидкого застосування зміщення, GPU не встигає обробити нові дані, що на виході дає порожні зони та шлейфи навколо об’єктів. GPU зафарбовує ці невеликі області на основі даних сусідніх кадрів, використовуючи «прогностичний рендеринг» (Predictive Rendering).
Як бачимо, це дуже важлива технологія, яка доповнює Multi Frame Generation. Тому Reflex 2 автоматично використовується під час генерації кадрів. Але технологія також має важливе значення для динамічних змагальних ігор без генерації кадрів, підвищуючи швидкість відгуку на дії гравця.
Трасування шляху і трасування променів
Протягом цього огляду не раз згадувалося про трасування шляху (Path Tracing). Що це, і чим воно відрізняється від трасування променів (Ray Tracing)? Спочатку згадаємо, чим є звичайне трасування променів. Це метод побудови тривимірного зображення на основі відстеження того, як промені світла взаємодіють із поверхнями. Від віртуальної камери до пікселя будується промінь, і далі фіксується його траєкторія з урахуванням властивостей об’єктів. Такий метод дає змогу враховувати особливості освітлення, відбите світло та взаємний вплив об’єктів один на одного.
Раніше під час растеризації все це робили за допомогою спеціальних алгоритмів, які симулювали багато ефектів. Трасування променів краще враховує відбите світло і дає змогу працювати зі складним освітленням у режимі реального часу. Впровадження технології в ігровий рендеринг почалося з появою відеокарт GeForce RTX 20‑ї серії у 2018 році. Але через високу ресурсомісткість цього методу, технологія виступала лише доповненням до стандартних методів рендерингу. Також використовувалися різні методи оптимізації, наприклад, обмеження кількості променів і відскоків.
Трасування шляху є більш просунутим варіантом трасування променів, де менше компромісів. Воно створює ще точніше зображення, враховуючи відбите і непряме світло для більш реалістичного глобального освітлення і затінення. Технологія враховує кольорові відблиски, краще прораховує фонове затінення і створює реалістичні тіні, що мають м’які контури за умови розсіяного світла та точні контури за умови точкового освітлення.
На практиці це найкраще видно з того, як світло впливає на складні сцени. Також загальне освітлення з трасуванням шляху стає більш «м’яким». Гарною ілюстрацією послужить порівняння сцени з Ray Tracing і Path Tracing, яку виклав один із користувачів офіційних форумів Unreal Engine.
Трасування шляху (іноді його називають повним трасуванням) доступне в іграх Portal RTX, Cyberpunk 2077, Alan Wake 2, Black Myth: Wukong, Indiana Jones and the Great Circle і в новому кооперативному шутері FBC: Firebreak. Нещодавно вийшло оновлення, яке додало цю технологію в Doom: The Dark Ages.


З деякими візуальними та технічними покращеннями в Doom: The Dark Ages знайомить спеціальний трейлер від NVIDIA.
Також трасування шляху буде використовуватися в ремастері Half-Life 2 RTX, і користувачі вже можуть випробувати демоверсію з двома рівнями. Це хороший приклад того, як інтеграція нового освітлення перетворює стару гру. Шкода, що системні вимоги у Half-Life 2 RTX поки що настільки високі, що без GeForce RTX 5080/5090 насолодитися високим fps не вийде.
NVIDIA ACE
Крім впровадження технологій ШІ безпосередньо в рендеринг компанія NVIDIA також пропонує низку технологій для створення розумних і просунутих персонажів в іграх. Платформа NVIDIA ACE (Avatar Cloud Engine) вже об’єднує цілий стек технічних рішень для створення автономних NPC, включно з розпізнаванням мови, інтерпретацією тексту, мовлення та візуальних символів, формуванням бази знань NPC на основі ігрових подій та генеративним ШІ для формування відповідей і анімації. Кінцевою метою тут є створення ігрових персонажів, з якими можна спілкуватися за допомогою природної мови. Вони запам’ятовуватимуть події та реагуватимуть на них залежно від своїх параметрів. А відповіді та дії персонажів генеруватимуться в режимі реального часу.
Окремі елементи й технології NVIDIA ACE вже впроваджуються в сучасні ігри. Наприклад, у S.T.A.L.K.E.R. 2: Heart of Chornobyl використовували Audio2Face для генерації лицьової анімації, що спрощує адаптацію анімації під озвучку різними мовами. Таку ж технологію застосовували творці ігор Alien: Rogue Incursion та World of Jade Dynasty.
У березні в дочасному доступі Steam вийшов симулятор життя inZOI, в якому реалізовані розумні персонажі, що взаємодіють з миром та іншими NPC. І все це на базі технологій NVIDIA ACE.
У шутері Black Vultures: Prey of Greed однією з головних особливостей стане наявність вбудованого в костюм ШІ, який аналізує поле бою і дає поради. Реалізований цей помічник на базі платформи NVIDIA ACE.
Krafton створює розумних напарників для королівської битви PUBG: Battlegrounds. Вони можуть замінити живих гравців, діятимуть спільно з вами та реагуватимуть на прямі команди. Для них навіть введено спеціальний термін COP (Co-op Playable Character).