Новейшие языковые модели искусственного интеллекта с функцией рассуждения, включая o3 от OpenAI, демонстрируют более высокий уровень ошибок в ответах, чем их предшественники. Об этом пишет The New York Times со ссылкой на исследование.
Проблема характерна не только для OpenAI - с «галлюцинациями» сталкиваются и другие модели, в частности от Google и китайского стартапа DeepSeek. Несмотря на улучшение в математических возможностях, количество вымышленных или недостоверных фактов растет.
Так называемые «галлюцинации» - одна из самых серьезных проблем в работе ИИ. Они возникают, когда модель придумывает информацию без подтверждения из реальных источников. По словам Амра Авадаллы, CEO компании Vectara, которая создает ИИ для бизнеса, полностью избавиться от этого явления невозможно.
Ярким примером стал случай с ИИ-ботом техподдержки инструмента Cursor. Он неправдиво заявил, что программу можно будет использовать только на одном устройстве, чем вызвал волну недовольства среди пользователей. Впоследствии выяснилось, что подобных изменений компания не вносила - бот придумал их самостоятельно.
Внутренние тесты OpenAI показали, что модель o3 в 33% ответов об известных людях предоставляла вымышленные факты - это вдвое больше, чем у модели o1. Модель o4-mini демонстрирует еще худшие результаты - 48% ложных ответов. В целом во время общих запросов уровень «галлюцинаций» в o3 достигал 51%, а в o4-mini - аж 79%. Для сравнения, o1 «ошибалась» в 44% случаев.
Независимые исследования также подтверждают: ИИ с функцией рассуждения часто выдумывает данные. По оценкам Vectara, этот показатель может колебаться от 3% до 27% в зависимости от типа задачи. При этом за последний год уровень «галлюцинаций» в ответах моделей снизился всего на 1-2%.
Подписывайтесь на наш Тelegram-канал t.me/sudua и на Google Новости SUD.UA, а также на наш VIBER, страницу в Facebook и в Instagram, чтобы быть в курсе самых важных событий.