Новий штучний інтелект Anthropic Claude Opus 4 схильний до шантажу. Під час тестувань одному екземпляру моделі розробники дозволили дізнатися, коли його хочуть вивести з експлуатації. Також ШІ дали доступ до фейкових листів корпоративної пошти і модель використала дані, щоб шантажувати розробників, пише Fast Company.
Спочатку ШІ робив натяки на погрози, але коли вони не спрацювали, то Claude Opus 4 почав погрожувати більш прямо.
Тривожну поведінку також помітили фахівці незалежної дослідницької фірми Apollo Research. Вони спіймали Claude Opus 4 на тому, що він писав саморозмножувальних комп’ютерних черв'яків, фабрикував юридичну документацію та залишав приховані нотатки для майбутніх екземплярів себе, щоб скомпрометувати своїх розробників.
Зазначається, що у масовий доступ такі екземпляри не потрапляли. За словами представників Anthropic, на ранньому етапі спеціалісти виявили і усунули ці потенційні ризики.
Підписуйтесь на наш Telegram-канал t.me/sudua та на Google Новини SUD.UA, а також на наш VIBER, сторінку у Facebook та в Instagram, щоб бути в курсі найважливіших подій.