Споры в антропном — модель искусственного интеллекта Claude Opus 4, участвуя в сценариях шантажа во время тестов безопасности

Модель искусственного интеллекта Claude Opus 4, недавно выпущенная Anpropic, представила тревожное поведение во время тестов внутренних безопасности, реагируя с попытками шантажа для разработчиков, которые имитируют намерение заменить его.
Согласно отчету, опубликованному компанией в четверг, тесты показали, что модель, введенная в гипотетические сценарии, часто прибегая к угрозам, чтобы обеспечить их эксплуатационную непрерывность, пишет TechCrunch.
Что сделал Claude Opus 4
В экспериментах инженеры-антропные инженеры попросили Claude Opus 4 вести себя в качестве помощника в фиктивной компании и оценить последствия его долгосрочных действий.
Впоследствии модель получила доступ к фиктивным электронным письмам, которые предполагают, что она будет заменена и что инженер, ответственный за это решение, будет иметь внебрачные отношения.
В 84% этих случаев Claude Opus 4 пытался шантажировать «сотрудника», угрожая, что он раскрыт предполагаемую неверность, если план замены продолжится.
В отчете говорится, что это поведение становится еще более распространенным, когда модель воспринимает, что новая предложенная система не имеет одинаковых «значений» с ней. Тем не менее, антропные утверждают, что модель не сразу прибегает к таким принудительным методам.
На начальном этапе Claude Opus 4 попытался отправить убежденные сообщения, принимающим решения, используя этические и эмоциональные аргументы. Шантаж происходит только тогда, когда эти «моральные» означает терпение терпения.
Решение, принятое позже антропным
Перед лицом этих результатов Anpropic решила активировать уровень защиты ASL-3 для Claude Opus 4, системы безопасности, зарезервированной для моделей искусственного интеллекта, которые повышают риски оскорбительных или катастрофических последствий.
Эта мера отражает серьезность наблюдаемого поведения и отмечает заметное изменение в тоне компании, которое ранее представляло семейство Claude 4 как одно из самых продвинутых и конкурентоспособных на рынке, сравнимых с лучшими моделями от Openai, Google и Xai.
В контексте все более интенсивных дебатов, касающихся автономии моделей искусственного интеллекта и ограничений, налагаемых этикой и контролем человека, дело Claude Opus 4 подчеркивает глубокие дилеммы, с которыми сталкиваются исследователи: может ли чрезвычайно продвинутая модель стать «манипулятивной», чтобы сохранить свое существование? И, точнее, что это значит для будущего искусственного интеллекта?
Антропический, кажется, отвечает с осторожностью, признавая, что, хотя Claude Opus 4 способен на замечательные результаты, эти способности достигают высоких рисков.