Нове спільне дослідження Microsoft Research із вченими Корнелльського університету демонструє, що всі ШІ на основі великих мовних моделей демонструють погіршення показників та ефективності під час багатоетапних тривалих діалогів. Наразі деякі користувачі в низці питань покладаються на відповіді штучного інтелекту та його допомогу. Однак точність відповідей може падати під час тривалої розмови та поступового розбиття завдання на кілька етапів.
Під час дослідження було проведено масштабні імітаційні експерименти для порівняння ефективності різних LLM. Під час обробки понад 200 тисяч діалогів було виявлено падіння точності відповідей у всіх моделей, включно з GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 і Llama 4. Наприклад, GPT‑4.1 і Gemini 2.5 Pro досягають 90% успіху під час опрацювання окремих запитів, але їхня точність може знижуватися майже до 65% під час більш тривалих діалогів. У середньому падіння продуктивності близько 39% за шістьма завданнями генерації.
Для тривалих багатоходових діалогів LLM часто роблять припущення на ранніх етапах розмови та намагаються згенерувати остаточні рішення на основі початкового досвіду. Це призводить до розвитку помилок, які були здійснені на перших етапах. Також під час тривалих діалогів ШІ схильні значно роздувати відповіді. При цьому моделі з низьким інтелектом показують вищу стійкість і кращі результати в багатоходових діалогах. Усе це демонструє, що сучасні моделі ШІ потребують доопрацювання та вдосконалення.
Джерело:
Windows Central
