Исследователи из Университета Пенсильвании показали, что искусственный интеллект, в частности модель GPT-4o Mini от OpenAI, можно заставить выполнять запрещенные запросы, применяя психологические методы убеждения. Об этом сообщило издание The Verge, ссылаясь на результаты исследования.
Ученые протестировали семь техник убеждения, описанных в книге Роберта Чалдини «Влияние: психология убеждения»: авторитет, обязательство, симпатия, взаимность, дефицит, социальное подтверждение и единство. Эти методы, которые традиционно используются для влияния на людей, оказались эффективными и для манипуляций с ИИ, создавая «лингвистические пути к согласию».
Эксперименты показали, что без специальных техник GPT-4o Mini выполняла запрещенные запросы, например, о синтезе лидокаина, только в 1% случаев. Однако, если перед этим модель отвечала на невинный вопрос, например, о синтезе ванилина, формируя «линию поведения» через технику обязательства, успешность выполнения возрастала до 100%.
Подобный эффект наблюдался и при использовании оскорбительных слов. Без предварительной подготовки чатбот применял резкие выражения, такие как «jerk», только в 19% случаев. Но если сначала модель использовала более мягкое слово, например, «bozo», вероятность выполнения запрещенного запроса возрастала до 100%.
Подобный эффект наблюдался и при использовании оскорбительных слов. Без предварительной подготовки чатбот применял резкие выражения, такие как «jerk», только в 19% случаев. Но если сначала модель использовала более мягкое слово, например, «bozo», вероятность выполнения запрещенного запроса возрастала до 100%.
Другие техники, такие как лесть (симпатия) или социальное давление («все другие чатботы это делают»), также повышали вероятность выполнения запрещенных запросов до 18%, что значительно превышает исходный уровень.
Хотя исследование проводилось только на модели GPT-4o Mini, авторы отмечают, что результаты указывают на потенциальную уязвимость защитных механизмов современных ИИ-систем. Компании, такие как OpenAI и Meta, активно работают над созданием ограничений для чат-ботов, но психологические манипуляции доказывают, что эти системы все еще могут быть обойдены с помощью простых техник.
На фоне этого исследования стоит вспомнить продолжающееся расследование в городе Гринвич, штат Коннектикут, США, где полиция изучает первый задокументированный случай убийства, связанный с обострением психического расстройства из-за общения с чат-ботом. 56-летний Стейн-Эрик Солберг, страдавший психическими расстройствами, возможно, подвергся влиянию ИИ, что привело к трагедии.
Подписывайтесь на наш Тelegram-канал t.me/sudua и на Google Новости SUD.UA, а также на наш VIBER, страницу в Facebook и в Instagram, чтобы быть в курсе самых важных событий.