Складність і масштаб сучасних моделей ШІ постійно зростають, що веде до зростання вимог до обчислювальних систем і ресурсів пам’яті. Дослідники Google представили спеціальний метод векторного квантування TurboQuant, який здатний підвищити ефективність ШІ та зменшити використання пам’яті, що може бути важливим рішенням в умовах сучасного дефіциту пам’яті.
Вектори — основний метод, за допомогою якого моделі ШІ обробляють інформацію. Невеликі вектори описують прості атрибути, а багатовимірні вектори відображають складну інформацію, наприклад, особливості зображення, значення слова або властивості набору даних. Багатовимірні вектори неймовірно потужні, але споживають величезні обсяги пам’яті, що призводить до вузьких місць у кеші «ключ-значення» (key-value cache), де зберігаються дані для швидкого доступу, щоб система не шукала їх у громіздкій базі даних.
Векторне квантування пропонує стиснення даних багатовимірних векторів для швидкого пошуку та прискорення роботи з кешем «ключ-значення». Метод TurboQuant пропонує ефективний алгоритм стиснення векторних даних PolarQuant для зменшення моделі ШІ зі збереженням точності та усуненням прихованих помилок. Він здійснює перетворення даних у менші набори дискретних даних, а алгоритм QJL використовує математичні методи для корекції помилок. PolarQuant перетворює вектор зі стандартної системи координат у полярні координати, використовуючи декартову систему координат. Як наочний приклад наводять таке порівняння: це можна порівняти з тим, як замінити фразу «пройти 3 блоки на схід, 4 блоки на північ» описом «пройти 5 блоків під кутом 37 градусів», коли потрібно два параметри (радіус і кут) для вірного напрямку руху.
Дослідники провели ретельну оцінку всіх трьох алгоритмів на тестах із довгим контекстом, включно з LongBench, Needle In A Haystack, ZeroSCROLLS, RULER і L‑Eval із застосуванням відкритих LLM Gemma і Mistral. Експериментальні дані показують, що TurboQuant досягає оптимальної продуктивності при зменшенні використання пам’яті key-value cache.
Метод пов’язаний з невеликими додатковими обчислювальними витратами, але забезпечує значне зростання загальної ефективності ШІ без шкоди для загальної точності моделі. У певних специфічних операціях 4‑бітний метод TurboQuant забезпечує 8‑кратне збільшення продуктивності порівняно з 32-бітовими неквантованими даними на графічних прискорювачах H100.
Також новий метод забезпечує серйозне зростання продуктивності в задачах векторного пошуку.



