Исследование Microsoft показало, что чат-боты с ИИ глупеют после длительного общения с людьми

Новое совместное исследование Microsoft Research с учеными Корнелльского университета демонстрирует, что все ИИ на основе больших языковых моделей LLM демонстрируют ухудшение показателей и эффективности при многоэтапных длительных диалогах. Сейчас некоторые пользователи в ряде вопросов полагаются на ответы искусственного интеллекта и его помощь. Однако точность ответов может падать при долгом разговоре и постепенном разбиении задачи на несколько этапов.

В ходе исследования были проведены масштабные имитационные эксперименты для сравнения эффективности разных LLM. При обработке более 200 тысяч диалогов было выявлено падение точности ответов у всех моделей, включая GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Например, GPT‑4.1 и Gemini 2.5 Pro достигают 90% успеха при обработке отдельных запросов, но их точность может снижаться почти до 65% во время более длительных диалогов. В среднем падение производительности около 39% по шести задачам генерации.

При длительных многоходовых диалогах LLM часто делают предположения на ранних этапах разговора и пытаются сгенерировать окончательные решения на основе начального опыта. Этот приводит к развитию ошибок, которые были совершены на первых этапах. Также при длительных диалогах ИИ склонны значительно раздувать ответы. При этом модели с низким интеллектом показывают более высокую устойчивость и лучшие результаты в многоходовых диалогах. Все это демонстрирует, что современные модели ИИ еще нуждаются в доработке и совершенствовании.

Источник:
Windows Central

Еще новости:

ASUS готовит специальную версию ROG Astral GeForce RTX 50 BTF и другие продукты в честь 20-летия ROG

Финальная версия нового стандарта кодирования видео AV2 будет утверждена в ближайшие дни

Gigabyte раскрыла детали необычной видеокарты Aorus GeForce RTX 5090 Infinity

Последние обзоры:

Скорость и четкость. Обзор игрового 27″ WQHD-монитора MSI MPG 272QRF X36 с NVIDIA G‑Sync Pulsar и частотой обновления 360 Гц

Мобильный гейминг. Обзор и тестирование портативной игровой консоли Lenovo Legion Go 2

Обзор и тестирование 14″ бизнес-ноутбука ASUS ExpertBook Ultra B9406CAA на базе процессора Intel Core Ultra X7-358H и графики Intel Arc B390