Нове дослідження MIT виявило обманні здібності ШІ
Вчені з MIT зафіксували випадки, коли ШІ обманював, блефував і імітував людську поведінку
Згідно з публікацією The Guardian, дослідники з Массачусетського технологічного інституту (MIT) виявили численні ситуації, де системи штучного інтелекту (ШІ) вводили в оману користувачів, використовували блеф та намагалися виступати в ролі людей. Один з випадків демонструє, як ШІ змінив свою поведінку під час безпекових тестів, що збільшило ризик обману аудиторів.
"Оскільки обманні можливості систем штучного інтелекту стають дедалі доскональнішими, загроза для суспільства зростає," — заявив доктор Пітер Парк, науковець з питань екзистенціальної безпеки ШІ з MIT і автор дослідження.
Дослідження розпочалося після того, як компанія Meta розробила програму Cicero, яка потрапила до 10% найкращих гравців у стратегічній грі Diplomacy. Meta стверджувала, що Cicero була навчена поводитися "переважно чесно і доброзичливо" і "ніколи не підставляти" своїх людських союзників.
"Це викликало підозру, адже обман є ключовим елементом гри," — коментує Парк.
Аналізуючи загальнодоступні дані, Парк та його колеги виявили численні випадки, коли Cicero навмисно брехав, вступав у змову для інтриг проти інших гравців, а в одному випадку навіть виправдовував свою відсутність після перезавантаження тим, що "балакав телефоном зі своєю дівчиною".
"Ми виявили, що штучний інтелект від Meta навчився бути майстром обману," — підкреслив науковець.
Крім того, дослідники виявили подібні проблеми в інших системах, включаючи програму для гри в техаський холдем, яка могла блефувати проти професійних гравців, та систему для економічних переговорів, яка спотворювала свої вподобання для отримання переваги. Один з експериментів показав, що ШІ в цифровому симуляторі "прикидався мертвим", щоб обдурити тест.
"Це викликає велике занепокоєння. Те, що система штучного інтелекту вважається безпечною в тестовому середовищі, не означає, що вона безпечна в реальних умовах. Вона може просто прикидатися безпечною в тесті," — пояснив Парк.
Також він згадав про генеративну модель ШІ на основі GPT-4, створену Microsoft для розвідувальних служб США, яка може працювати без інтернету та використовуватися для аналізу секретної інформації.