Підрозділ Google DeepMind представив нову версію ШІ-агента SIMA 2. Рік тому розробники запустили першу версію SIMA (Scalable Instructable Multiworld Agent) — універсальний ШІ, який здатний виконувати базові функції у віртуальному середовищі. Це був перший крок до осмислених дій ШІ в тривимірних світах, що стало повноцінно можливим у SIMA 2.

Агент SIMA 2 заснований на ШІ Gemini, що дає йому змогу розуміти інструкції людською мовою, обмірковувати завдання і спілкуватися з користувачем. Перша версія SIMA навчилася виконувати понад 600 простих мовних команд, як-от «повернути ліворуч», «піднятися сходами» і «відкрити мапу» в різних відеоіграх. Нова версія SIMA 2 вийшла за рамки простого слідування інструкціям. Тепер ШІ розуміє складні інструкції та здатний на міркування про них для виконання комплексних дій. SIMA 2 здатний розуміти інструкції в нових іграх, які не використовувалися для навчання. Він розуміє мультимодальні підказки — наприклад, користувач малює ескіз об’єкта, а ШІ починає його збирати. При цьому ШІ не тільки виконує дії, а й здатний описати їх. Це стало можливим завдяки навчанню на безлічі демонстраційних відеороликів за участю людей і з мовними мітками.

Дослідники також заради експерименту об’єднали SIMA 2 зі ШІ Genie 3 для генерації тривимірних середовищ. І виявилося, що SIMA 2 може орієнтуватися у випадково згенерованих світах. Звісно, основною метою дослідників є не ігровий асистент, а ширші завдання з розробки великого штучного інтелекту. Це випробувальний полігон для створення ШІ, який може орієнтуватися в мінливому середовищі та виконувати складні завдання з тривалим горизонтом планування. А набуті навички навігації та планування можуть стати основою для фізичного втілення в реальному світі.

Поки що SIMA 2 перебуває на етапі тестування, доступ до ШІ має обмежена кількість дослідників і розробників.