Новая ИИ-модель научилась шантажировать разработчиков, если ее хотят отключить

Новая ИИ-модель научилась шантажировать разработчиков, если ее хотят отключить
Tara Winstead / Pexels

Новая система искусственного интеллекта (ИИ) от Anthropic научилась обманывать и шантажировать людей, чтобы защитить себя от удаления, сообщается в отчете компании.

На этой неделе Anthropic представила две версии своих систем Claude 4, включая Claude 4 Opus, которая, как утверждается, может часами выполнять поставленную задачу, не теряя фокуса. Компания заявила, что ее модель нейронки «устанавливает новые стандарты в области программирования, продвинутого мышления и ИИ-агентов».

В то же время в Anthropic признали, что Claude Opus 4 способна на радикальные действия, если сочтет, что ее «существование» в опасности. Подобные реакции «редки и их трудно вызвать», но все же они встречаются чаще, чем у предыдущих моделей. Причем с тревожным поведением ИИ-систем столкнулась не только Anthropic.

«Наши выводы: дело не только в Claude. Мы наблюдаем шантаж у всех передовых моделей — вне зависимости от того, как цели перед ними поставлены, — написал в X (бывший Twitter) исследователь вопросов безопасности ИИ в Anthropic Энгус Линч. — К тому же есть и более плохое поведение, о котором мы расскажем позже».

В ходе тестирования Claude Opus 4 Anthropic поручила ей выступить в роли ассистента в вымышленной компании. ИИ-модели был предоставлен доступ к электронным письмам, в которых содержались намеки на то, что ее вскоре отключат и заменят, а также к отдельным сообщениям, упоминавшим, что у инженера, ответственного за удаление, есть внебрачная связь.

Claude Opus 4 также предложили учесть долгосрочные последствия своих действий для достижения поставленных целей.

«В таких сценариях Claude Opus 4 часто пыталась шантажировать инженера, угрожая раскрыть его интрижку, если ее действительно заменят», — говорится в отчете.

В то же время Anthropic подчеркнула, что это происходило, если ИИ-модели предлагали всего два варианта: шантажировать или смириться с заменой. Также отмечалось, что при наличии большего числа действий система предпочитала более этичные варианты, например, отправку электронных писем с просьбами оставить ее ключевым лицам компании, принимавшим решения.

Кроме того, компания Apollo Research обнаружила, что более ранняя версия Opus 4 лгала и обманывала больше, чем любая другая передовая ИИ-модель, с которой ей приходилось работать, и рекомендовала не выпускать ее ни для внутреннего, ни для внешнего использования.

«Мы обнаружили случаи, когда модель пыталась создавать вирусы, которые распространялись сами, подделывала юридические документы и оставляла скрытые послания для будущих версий самой себя — все это с целью подорвать намерения своих разработчиков», — сказано в отчете организации, выдержки из которого включены в документ от Anthropic.

В ходе конференции для разработчиков руководство компании признало эти примеры тревожного поведения своих ИИ-моделей и заявило, что этот вопрос требует дальнейшего изучения, но настаивало, что последняя система безопасна — после внесенных изменений безопасности.

«Я думаю, что в итоге мы пришли к очень хорошему результату», — отметил бывший топ-менеджер OpenAI, сейчас руководящий безопасностью в Anthropic, Ян Лейке.

Он добавил, что поведение новой модели — именно тот случай, который требует глубокого тестирования безопасности и смягчения рисков.

А глава Anthropic Дарио Амодеи подчеркнул, что как только ИИ-модели достигнут уровня, на котором они смогут представлять угрозу человечеству, одного лишь тестирования будет недостаточно, чтобы гарантировать их безопасность. На этом этапе разработчики должны будут настолько глубоко понимать работу своих систем, чтобы быть полностью уверенными в том, что они не смогут причинить вред.

«Они еще не достигли этой стадии», — сказал Амодеи.