Компания NextSilicon раскрыла некоторые подробности относительно своего ускорителя вычислений Maverick‑2 на собственной архитектуре. Этот стартап был основан в 2017 году, и с самого начала разработчики шли альтернативным путем, пытаясь представить собственную архитектуру для современных вычислений. Устройство Maverick‑2 стало воплощением этих идей. Это ускоритель в виде отдельного устройства под PCIe Gen 5 доступен в двух вариантах — с однокристальным чипом на базе техпроцесса TSMC 5 нм и 96 ГБ памяти HBM3e при TDP до 400 Вт, а также двухкристальный чип со 192 ГБ памяти HBM3e при TDP до 750 Вт. Такие ускорители в высокопроизводительных вычислениях должны быть быстрее современных графических чипов NVIDIA Blackwell и процессоров Intel Sapphire Rapids.
В основе Maverick‑2 собственная архитектура Intelligent Compute Architecture (ICATM), которая предлагает альтернативный подход к вычислениям. Как утверждает разработчик, они ушли от традиционной вычислительной архитектуры фон Неймана, их архитектура управления потоками данных устраняет большинство недостатков современных вычислений, позволяя получить производительность в 10 раз выше при снижении энергопотребления на 60%. ICATM устраняет необходимость во множестве дополнительных операций по обработке инструкций и устраняет узкие места в работе подсистемы памяти. Программно-определяемая архитектура позволяет чипу адаптироваться к разным нагрузкам, что обеспечит хорошую производительность в современных алгоритмах ИИ в будущих моделях. Упоминается, что Maverick‑2 может запускать немодифицированный код C++, Phyton, Fortran, CUDA и фреймворки ИИ без дополнительных циклов портирования.
Согласно внутренним тестам компании, их ускоритель Maverick‑2 обеспечивает производительность FP64 в 4 раза выше, чем NVIDIA HGX B200 Blackwell. Производительность GUPS (гигаобновлений в секунду) составляет 32,6 GUPS при 460 Вт, что в 22 раза быстрее современных CPU и почти в 6 раз быстрее GPU в специализированных задачах (высокопроизводительные базы данных и разные задачи ИИ). Параметр HPCG достигает 600 GFLOPS при 750 Вт, что соответствует производительности ведущих GPU при вдвое меньшем энергопотреблении. Тест PageRank, который измеряет производительность анализа графов, демонстрирует 10-кратное преимущество над GPU. Стоит отметить, что NVIDIA обычно дает данные по другим параметрам и метрикам, делая основной акцент на производительность в форматах FP4/FP8. Так что провести какое-то прямое сравнение проблематично. Maverick‑2 уже работает на десятках вычислительных площадках, включая суперкомпьютер Vanguard-II в Sandia National Laboratories.
Также NextSilicon представляет еще один инновационный чип Arbel на базе архитектуры RISC‑V, который тоже выпускается по техпроцессу 5 нм. Это очередное решение корпоративного уровня для больших вычислительных нагрузок и ИИ. Процессор получил возможность выполнять одновременно до 16 скалярных инструкций, плюс четыре 128-битных векторных блока для высокой производительности при параллельных нагрузках. Частота ядра 2,5 ГГц, реализована сложная подсистема памяти и большой общий кэш L3.
Это еще один шаг к будущей адаптивной платформе высокопроизводительных вычислений ИИ.