Новое совместное исследование Microsoft Research с учеными Корнелльского университета демонстрирует, что все ИИ на основе больших языковых моделей LLM демонстрируют ухудшение показателей и эффективности при многоэтапных длительных диалогах. Сейчас некоторые пользователи в ряде вопросов полагаются на ответы искусственного интеллекта и его помощь. Однако точность ответов может падать при долгом разговоре и постепенном разбиении задачи на несколько этапов.

Исследование Microsoft показало, что чат-боты с ИИ глупеют после длительного общения с людьми

В ходе исследования были проведены масштабные имитационные эксперименты для сравнения эффективности разных LLM. При обработке более 200 тысяч диалогов было выявлено падение точности ответов у всех моделей, включая GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Например, GPT‑4.1 и Gemini 2.5 Pro достигают 90% успеха при обработке отдельных запросов, но их точность может снижаться почти до 65% во время более длительных диалогов. В среднем падение производительности около 39% по шести задачам генерации.

При длительных многоходовых диалогах LLM часто делают предположения на ранних этапах разговора и пытаются сгенерировать окончательные решения на основе начального опыта. Этот приводит к развитию ошибок, которые были совершены на первых этапах. Также при длительных диалогах ИИ склонны значительно раздувать ответы. При этом модели с низким интеллектом показывают более высокую устойчивость и лучшие результаты в многоходовых диалогах. Все это демонстрирует, что современные модели ИИ еще нуждаются в доработке и совершенствовании.

Источник:
Windows Central