Google представила технологію TurboQuant для стиснення великих мовних моделей ШІ

Складність і масштаб сучасних моделей ШІ постійно зростають, що веде до зростання вимог до обчислювальних систем і ресурсів пам’яті. Дослідники Google представили спеціальний метод векторного квантування TurboQuant, який здатний підвищити ефективність ШІ та зменшити використання пам’яті, що може бути важливим рішенням в умовах сучасного дефіциту пам’яті.

Вектори — основний метод, за допомогою якого моделі ШІ обробляють інформацію. Невеликі вектори описують прості атрибути, а багатовимірні вектори відображають складну інформацію, наприклад, особливості зображення, значення слова або властивості набору даних. Багатовимірні вектори неймовірно потужні, але споживають величезні обсяги пам’яті, що призводить до вузьких місць у кеші «ключ-значення» (key-value cache), де зберігаються дані для швидкого доступу, щоб система не шукала їх у громіздкій базі даних.

Векторне квантування пропонує стиснення даних багатовимірних векторів для швидкого пошуку та прискорення роботи з кешем «ключ-значення». Метод TurboQuant пропонує ефективний алгоритм стиснення векторних даних PolarQuant для зменшення моделі ШІ зі збереженням точності та усуненням прихованих помилок. Він здійснює перетворення даних у менші набори дискретних даних, а алгоритм QJL використовує математичні методи для корекції помилок. PolarQuant перетворює вектор зі стандартної системи координат у полярні координати, використовуючи декартову систему координат. Як наочний приклад наводять таке порівняння: це можна порівняти з тим, як замінити фразу «пройти 3 блоки на схід, 4 блоки на північ» описом «пройти 5 блоків під кутом 37 градусів», коли потрібно два параметри (радіус і кут) для вірного напрямку руху.

Дослідники провели ретельну оцінку всіх трьох алгоритмів на тестах із довгим контекстом, включно з LongBench, Needle In A Haystack, ZeroSCROLLS, RULER і L‑Eval із застосуванням відкритих LLM Gemma і Mistral. Експериментальні дані показують, що TurboQuant досягає оптимальної продуктивності при зменшенні використання пам’яті key-value cache.

Метод пов’язаний з невеликими додатковими обчислювальними витратами, але забезпечує значне зростання загальної ефективності ШІ без шкоди для загальної точності моделі. У певних специфічних операціях 4‑бітний метод TurboQuant забезпечує 8‑кратне збільшення продуктивності порівняно з 32-бітовими неквантованими даними на графічних прискорювачах H100.

Також новий метод забезпечує серйозне зростання продуктивності в задачах векторного пошуку.

Ще новини:

Ubisoft святкує успіх Assassin’s Creed Black Flag Resynced — продажі перевищили три мільйони копій

Bethesda офіційно оголосила про розробку Fallout 5. Підтверджено випуск нової гри в серії від Obsidian Entertainment

NVIDIA відклала випуск GeForce RTX 50 Super через високі ціни на 3‑гігабайтні чипи GDDR7

Останні огляди:

Огляд та тестування ігрового 16″ ноутбука Acer Predator Helios Neo 16S AI на базі процесора Intel Core Ultra 7 356H та відеокарти NVIDIA GeForce RTX 5070

Огляд та тестування корпусу MSI MAG FORGE M110R AIRFLOW

Огляд та тестування ігрового 15″ ноутбука Acer Nitro V 15 на базі процесора AMD Ryzen 5 150 та відеокарти NVIDIA GeForce RTX 5050