Дослідження Microsoft показало, що чат-боти з ШІ дурнішають після тривалого спілкування з людьми

Нове спільне дослідження Microsoft Research із вченими Корнелльського університету демонструє, що всі ШІ на основі великих мовних моделей демонструють погіршення показників та ефективності під час багатоетапних тривалих діалогів. Наразі деякі користувачі в низці питань покладаються на відповіді штучного інтелекту та його допомогу. Однак точність відповідей може падати під час тривалої розмови та поступового розбиття завдання на кілька етапів.

Під час дослідження було проведено масштабні імітаційні експерименти для порівняння ефективності різних LLM. Під час обробки понад 200 тисяч діалогів було виявлено падіння точності відповідей у всіх моделей, включно з GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 і Llama 4. Наприклад, GPT‑4.1 і Gemini 2.5 Pro досягають 90% успіху під час опрацювання окремих запитів, але їхня точність може знижуватися майже до 65% під час більш тривалих діалогів. У середньому падіння продуктивності близько 39% за шістьма завданнями генерації.

Для тривалих багатоходових діалогів LLM часто роблять припущення на ранніх етапах розмови та намагаються згенерувати остаточні рішення на основі початкового досвіду. Це призводить до розвитку помилок, які були здійснені на перших етапах. Також під час тривалих діалогів ШІ схильні значно роздувати відповіді. При цьому моделі з низьким інтелектом показують вищу стійкість і кращі результати в багатоходових діалогах. Усе це демонструє, що сучасні моделі ШІ потребують доопрацювання та вдосконалення.

Джерело:
Windows Central

Ще новини:

ASUS готує спеціальну версію ROG Astral GeForce RTX 50 BTF та інші продукти на честь 20-річчя ROG

Фінальну версію нового стандарту кодування відео AV2 буде затверджено найближчими днями

Gigabyte розкрила деталі незвичайної відеокарти Aorus GeForce RTX 5090 Infinity

Останні огляди:

Швидкість та чіткість. Огляд ігрового 27″ WQHD-монітора MSI MPG 272QRF X36 з NVIDIA G-Sync Pulsar та частотою оновлення 360 Гц

Мобільний геймінг. Огляд та тестування портативної ігрової консолі Lenovo Legion Go 2

Огляд та тестування 14″ бізнес-ноутбука ASUS ExpertBook Ultra B9406CAA на базі процесора Intel Core Ultra X7-358H та графіки Intel Arc B390