Подразделение Google DeepMind представило новую версию ИИ-агента SIMA 2. Год назад разработчики запустили первую версию SIMA (Scalable Instructable Multiworld Agent) — универсальный ИИ, который способен выполнять базовые функции в виртуальной среде. Это был первый шаг к осмысленным действиям ИИ в трехмерных мирах, что стало полноценно возможным в SIMA 2.
Агент SIMA 2 основан на ИИ Gemini, что позволяет ему понимать инструкции на человеческом языке, обдумывать задачи и общаться с пользователем. Первая версия SIMA научилась выполнять более 600 простых языковых команд, таких как «повернуть налево», «подняться по лестнице» и «открыть карту»в разных видеоиграх. Новая версия SIMA 2 вышла за рамки простого следования инструкциям. Теперь ИИ понимает сложные инструкции и способен на рассуждения о них для выполнения комплексных действий. SIMA 2 способен понимать инструкции в новых играх, которые не использовались для обучения. Он понимает мультимодальные подсказки — например, если пользователь рисует эскиз объекта, то ИИ начинает его собирать. При этом ИИ не только выполняет действия, но и способен описать их. Это стало возможным благодаря обучению на множестве демонстрационных видеороликов с участием людей и языковыми метками.
Исследователи также ради эксперимента объединили SIMA 2 с ИИ Genie 3 для генерации трехмерных сред. И оказалось, что SIMA 2 может ориентироваться в случайно сгенерированных мирах. Конечно, основной целью исследователей является на игровой ассистент, а более широкие задачи по разработке большого искусственного интеллекта. Это испытательный полигон для создания ИИ, который может ориентироваться в изменчивой среде и выполнять сложные задачи с длительным горизонтом планирования. А приобретенные навыки навигации и планирования могут стать основой для физического воплощения в реальном мире.
Пока что SIMA 2 находится на этапе тестирования, доступ к ИИ имеет ограниченное количество исследователей и разработчиков.
