GeForce RTX 3090, архитектура Ampere и новые технологии NVIDIA. Общий обзор второго поколения GeForce RTX

Настало время подвести итоги недавней презентации NVIDIA и собрать воедино всю озвученную информацию. После долгих слухов и домыслов графический гигант наконец-то анонсировал второе поколение GeForce RTX. Новая архитектура, новые программные возможности и новый уровень производительности. Обо всем этом мы поговорим в данном обзоре.

NVIDIA Ampere

Видеокарты GeForce RTX 3000 должны стать серьезным скачком для индустрии, делая RTX-технологии доступнее. Ключевыми преимуществами последнего поколения являются: реализация новой архитектуры Ampere с обновленными RT-ядрами и тензорными ядрами, переход на 8-нм техпроцесс и применение самой быстрой в мире памяти GDDR6X. Также компания продолжает развивать программные технологии, представляя новые инициативы в рамках NVIDIA Reflex, NVIDIA Omniverse Machinima и NVIDIA RTX IO, о которых подробнее поговорим ниже.

NVIDIA Ampere

Ampere серьезно превосходит Turing в производительности на ватт, вплоть до 1,9 раз в играх и до 2 раз в профессиональных приложениях для рендеринга.

NVIDIA AmpereNVIDIA Ampere

Пока нам представлено три видеокарты — GeForce RTX 3090, GeForce RTX 3080 и GeForce RTX 3070. И все они должны превзойти по производительности GeForce RTX 2080 Ti, даже младшая из названных моделей. А для GeForce RTX 3080 заявлено двукратное превосходство над GeForce RTX 2080.

NVIDIA Ampere

Сложно припомнить ситуацию, когда сразу несколько новых моделей могли потеснить существующий флагман. А GeForce RTX 3090 и вовсе выглядит «монстром» со своими характеристиками — 10496 потоковых процессоров CUDA и 24 ГБ памяти на 384-битной шине.

NVIDIA Ampere

Даже GeForce RTX 3080 впечатляет своими основными параметрами, поскольку в активе этой видеокарты 8704 потоковых процессоров CUDA, что вдвое больше количества аналогичных блоков у GeForce RTX 2080 Ti.

NVIDIA Ampere

Но прежде чем сравнивать характеристики нужно поговорить об архитектуре.

Архитектура Ampere и особенности новых GPU

Компания NVIDIA пока не раскрыла всю информацию о технических нюансах Ampere, но основные моменты нам уже известны. Первым продуктом на новой архитектуре стал представленный в мае ускоритель вычислений NVIDIA A100.

NVIDIA Ampere

NVIDIA A100

Это специализированное устройство для высокопроизводительных систем. В основе его находится графический процессор A100 с 8192 ядрами CUDA, но рабочие версии GPU оперируют 6912 потоковыми ядрами. Специально для игрового направления разработанный GPU GA102 стал основной для GeForce RTX 3090 и GeForce RTX 3080. GPU A100 насчитывал 128 мультипроцессорных блоков SM по 64 вычислительных ядра и 4 обновленных тензорных ядра в каждом.

NVIDIA Ampere

На более крупном уровне все SM объединены в кластеры GPC. У A100 это 8 кластеров по 16 SM в каждом. У процессора TU102 (GeForce RTX 2080 Ti и Titan RTX) это 6 GPC по 12 SM, у TU104 (GeForce RTX 2080) это 6 GPC по 8 SM. И во всех случаях SM оперирует 64 ядрами для графических вычислений FP32. Полная схема процессора GA102 пока недоступна, хотя NVIDIA использует определенную иллюстрацию, на которой можно четко выделить 7 кластеров.

NVIDIA Ampere

Ключевым изменением игровых GPU Ampere стало удвоение вычислительных блоков FP32 — по 128 на SM, плюс 64 блока INT32. При этом новый SM сохранил основную структуру старых SM. Это четыре массива обработки данных со своими диспетчерами и планировщиками задач, 4 блока выборки текстур и блок RT для ускорения трассировки лучей. В данном случае реализованы новые RT-ядра второго поколения с повышенной производительностью. Задействовано 4 тензорных ядра по типу NVIDIA A100. У Turing было по 8 тензорных ядер на в SM. Но тензорные ядра Ampere 3-го поколения обещают намного большую производительность.

Сравнить структуру SM к NVIDIA 100, GeForce RTX 3090 и GeForce RTX 2080 Ti можно по нижнему слайду.

NVIDIA Ampere

Увеличение производительности SM важно для выполнения современных алгоритмов, часто сочетающих операции разного типа. Новый SM выполняет за такт 128 операций FP32 или 64 FP32 + 64 INT32. Изменена структура кэша, чтобы обеспечить удвоение пропускной способности кэш-памяти L1: 128 байт/такт в Ampere против 64 байтов/такт в Turing. Общая пропускная способность L1 для GeForce RTX 3080 составляет 219 ГБ/с против 116 ГБ/с у GeForce RTX 2080 Super.

Опираясь на известные данные о 10496 потоковых процессорах FP32, мы получаем 82 активных SM. Отсюда можно вычислить количество других блоков — 328 текстурных блока, 328 тензорных ядра и 82 ядра RT. При 7 кластерах общее количество вычислительных блоков должно быть выше, и мы имеет типичную ситуацию, когда в топовом GPU часть SM отключена. Судя по приведенной выше иллюстрации тут 12 SM на кластер, что дает 84 SM и 10752 потоковых процессора. Нельзя исключать, что по мере совершенствования техпроцесса в будущем мы увидим новый Titan на полноценном процессоре GA102.

Если провести аналогичный анализ для GeForce RTX 3070 и GA104 с 5888 потоковыми процессорами, то получим 46 SM, что намекает на конфигурацию из 48 SM (4 GPC x 12 SM) при 6144 потоковых процессорах. Это неплохо согласуется со слухами о наличии некоей видеокарты GeForce RTX 3070 Ti.

Старшие видеокарты оснащены новой памятью GDDR6X, разработанной Micron для NVIDIA. У GeForce RTX 3090 эффективная частота обмена данных модулей GDDR6X соответствует 19500 МГц. При этом видеокарта оснащена 24 ГБ видеобуфера на 384-битной шине. В GeForce RTX 3080 последняя урезана до 320 бит, а объем видеобуфера GDDR6X уменьшен до 10 ГБ при частоте 19000 МГц. Младшая видеокарта GeForce RTX 3070 работает с 8 ГБ памяти GDDR6 на 256-битной шине.

Характеристики видеокарт GeForce RTX 3090, GeForce RTX 3080 и GeForce RTX 3070

Видеоадаптер GeForce RTX 3090 GeForce RTX 3080 GeForce RTX 3070 GeForce RTX 2080 Ti GeForce RTX 2080 Super GeForce RTX 2080
Ядро GA102 GA102 GA104 TU102 TU104 TU104
Количество транзисторов, млн. шт 28000 28000 17000 18600 13600 13600
Техпроцесс, нм 8 8 8 12 12 12
Площадь ядра, кв. мм 627 627 450 754 545 545
Количество потоковых процессоров CUDA 10496 8704 5888 4352 3072 2944
Количество тензорных ядер 328 272 184 544 384 368
Количество ядер RT 82 68 46 68 46 46
Количество текстурных блоков 328 272 184 272 192 184
Количество блоков рендеринга 96 88 64 88 64 64
Базовая частота ядра, МГц 1395 1440 1500 1350 1650 1515
Частота Boost, МГц 1695 1710 1725 1545 1815 1710
Шина памяти, бит 384 320 256 352 256 256
Тип памяти GDDR6X GDDR6X GDDR6 GDDR6 GDDR6 GDDR6
Частота памяти, МГц 19500 19000 16000 14000 15500 14000
Объём памяти, ГБ 24 10 8 11 8 8
Поддерживаемая версия DirectX 12 Ultimate (12_2) 12 Ultimate (12_2) 12 Ultimate (12_2) 12 Ultimate (12_2) 12 Ultimate (12_2) 12 Ultimate (12_2)
Интерфейс PCI-E 4.0 PCI-E 4.0 PCI-E 4.0 PCI-E 3.0 PCI-E 3.0 PCI-E 3.0
Мощность, Вт 350 320 220 250 250 225
Дата выхода 17 сентября 2020 24 сентября 2020 ? 27 сентября 2018 23 июля 2019 20 сентября 2018
Цена MSRP $1499 $699 $499 $999 $699 $799

И немного красивых цифр, характеризующих производительность. При прямом сравнении GeForce RTX 3080 с видеоадаптером-предшественником GeForce RTX 2080 Super имеем увеличение производительности шейдерных блоков в 2,7 раз, рост операций по расчету трассировки в 1,7 раз, а тензорная производительность выше в 2,7 раз.

NVIDIA Ampere

Для наглядности можно привести еще одну таблицу с примерной пиковой производительностью новых и старых GeForce RTX.

Видеоадаптер GeForce RTX 3090 GeForce RTX 3080 GeForce RTX 3070 GeForce RTX 2080 Ti GeForce RTX 2080 Super
FP32 TFLOPS 36 30 20 13,5 11
RT-TFLOPS 69 58 40 42 34
Tensor RT-TFLOPS 285 238 163 108 89

Дополнительно отметим, что ранее NVIDIA говорила о неких операциях RTX-OPS, а теперь оперирует немного иными данными производительности трассировки RT-TFLOPS. Поэтому цифры в новых слайдах отличаются от тех, что указывались ранее.

Все GPU Ampere производятся на заводах Samsung по специальному 8-нм техпроцессу, разработанному совместно с NVIDIA. Примечательно, что процессоры A100 выпускаются на TSMC 7-нм. При всех оптимизациях GA102 разросся до 28 млрд. транзисторов вместо 18,6 млрд. у TU102. И хотя площадь нового процессора меньше, его тепловыделение и энергопотребление серьезно возросло. Для GeForce RTX 3090 заявлен TGP (Total Graphics Power) на уровне 350 Вт, для GeForce RTX 3080 это 320 Вт, а GeForce RTX 3070 ограничится значением в 220 Вт.

Это новый вызов для проектировщиков систем охлаждения. И хотя большинство партнеров пошло традиционным путем, создавая «бутерброды» с толстым радиатором и вентиляторами над ним, сама NVIDIA представила оригинальные референсные решения с необычным кулером. Охлаждение старших видеоадаптеров использует конструкцию с крупными вентиляторами на лицевой и задней стороне. Все остальное пространство занимает радиатор с разнонаправленными ребрами, в отводе тепла от GPU задействовано несколько тепловых трубок.

NVIDIA AmpereNVIDIA Ampere

Двухстороннее расположение вентиляторов не только улучшает продуваемость радиатора, но и правильно организует воздушные потоки внутри корпуса.

NVIDIA Ampere

Наглядно конструкция охлаждения продемонстрирована в видеоролике:

Кулер референсной GeForce RTX 3090 занимает три слота расширения, остальные карты ограничены двухслотовым форматом. GeForce RTX 3070 меньше в размерах и предполагает одностороннее расположение вентиляторов.

NVIDIA Ampere

NVIDIA реализовала новый компактный разъем питания на 12 контактов. В нереференсных продуктах распаяно два разъема по 8 контактов, что позволяет подключать видеокарты стандартными кабелями.

Если говорить о старших видеокартах от партнеров NVIDIA, то это зачастую трехслотовые варианты с тремя вентиляторами. В качестве примера можно взглянуть на ASUS TUF Gaming RTX 3090.

NVIDIA Ampere

Все референсные видеокарты оснащены портом HDMI 2.1 и тремя разъемами DisplayPort 1.4a. Ampere получит новый блок обработки видео NVENC 7, на что намекает заявленная поддержка режима 8K для аппаратного захвата видео через ShadowPlay. То есть новые видеокарты могут не только выводить картинку в 8K, но и позволяют записывать игровой процесс в 8K HDR с аппаратным кодированием на GPU.

NVIDIA Ampere