Найновіші мовні моделі штучного інтелекту з функцією міркування, включаючи o3 від OpenAI, демонструють вищий рівень помилок у відповідях, ніж їхні попередники. Про це пише The New York Times з посиланням на дослідження.
Проблема характерна не лише для OpenAI — зі «галюцинаціями» стикаються і інші моделі, зокрема від Google та китайського стартапу DeepSeek. Попри покращення в математичних можливостях, кількість вигаданих або недостовірних фактів зростає.
Так звані «галюцинації» — одна з найсерйозніших проблем у роботі ШІ. Вони виникають, коли модель вигадує інформацію без підтвердження з реальних джерел. За словами Амра Авадалли, CEO компанії Vectara, яка створює ШІ для бізнесу, повністю позбутися цього явища неможливо.
Яскравим прикладом став випадок зі ШІ-ботом техпідтримки інструмента Cursor. Він неправдиво заявив, що програму можна буде використовувати лише на одному пристрої, чим викликав хвилю невдоволення серед користувачів. Згодом з’ясувалося, що подібних змін компанія не вносила — бот вигадав їх самостійно.
Внутрішні тести OpenAI показали, що модель o3 у 33% відповідей про відомих людей надавала вигадані факти — це вдвічі більше, ніж у моделі o1. Модель o4-mini демонструє ще гірші результати — 48% хибних відповідей. Загалом під час загальних запитів рівень «галюцинацій» в o3 сягав 51%, а в o4-mini — аж 79%. Для порівняння, o1 «помилялася» у 44% випадків.
Незалежні дослідження також підтверджують: ШІ з функцією міркування часто вигадує дані. За оцінками Vectara, цей показник може коливатися від 3% до 27% залежно від типу завдання. При цьому за останній рік рівень «галюцинацій» у відповідях моделей знизився лише на 1–2%.
Підписуйтесь на наш Telegram-канал t.me/sudua та на Google Новини SUD.UA, а також на наш VIBER, сторінку у Facebook та в Instagram, щоб бути в курсі найважливіших подій.