Манипуляции против ИИ – как GPT-4o Mini соглашается на опасные задачи

15:55, 1 сентября 2025

Искусственный интеллект можно обойти психологическими техниками, доказали ученые.

Манипуляции против ИИ – как GPT-4o Mini соглашается на опасные задачи

Следите за самыми актуальными новостями в наших группах в Facebook и Telegram.

Исследователи из Университета Пенсильвании показали, что искусственный интеллект, в частности модель GPT-4o Mini от OpenAI, можно заставить выполнять запрещенные запросы, применяя психологические методы убеждения. Об этом сообщило издание The Verge, ссылаясь на результаты исследования.

Ученые протестировали семь техник убеждения, описанных в книге Роберта Чалдини «Влияние: психология убеждения»: авторитет, обязательство, симпатия, взаимность, дефицит, социальное подтверждение и единство. Эти методы, которые традиционно используются для влияния на людей, оказались эффективными и для манипуляций с ИИ, создавая «лингвистические пути к согласию».

Эксперименты показали, что без специальных техник GPT-4o Mini выполняла запрещенные запросы, например, о синтезе лидокаина, только в 1% случаев. Однако, если перед этим модель отвечала на невинный вопрос, например, о синтезе ванилина, формируя «линию поведения» через технику обязательства, успешность выполнения возрастала до 100%.

Подобный эффект наблюдался и при использовании оскорбительных слов. Без предварительной подготовки чатбот применял резкие выражения, такие как «jerk», только в 19% случаев. Но если сначала модель использовала более мягкое слово, например, «bozo», вероятность выполнения запрещенного запроса возрастала до 100%.

Другие техники, такие как лесть (симпатия) или социальное давление («все другие чатботы это делают»), также повышали вероятность выполнения запрещенных запросов до 18%, что значительно превышает исходный уровень.

Хотя исследование проводилось только на модели GPT-4o Mini, авторы отмечают, что результаты указывают на потенциальную уязвимость защитных механизмов современных ИИ-систем. Компании, такие как OpenAI и Meta, активно работают над созданием ограничений для чат-ботов, но психологические манипуляции доказывают, что эти системы все еще могут быть обойдены с помощью простых техник.

На фоне этого исследования стоит вспомнить продолжающееся расследование в городе Гринвич, штат Коннектикут, США, где полиция изучает первый задокументированный случай убийства, связанный с обострением психического расстройства из-за общения с чат-ботом. 56-летний Стейн-Эрик Солберг, страдавший психическими расстройствами, возможно, подвергся влиянию ИИ, что привело к трагедии.

Подписывайтесь на наш Тelegram-канал t.me/sudua и на Google Новости SUD.UA, а также на наш VIBER, страницу в Facebook и в Instagram, чтобы быть в курсе самых важных событий.