Антропное исследование: ИИ может имитировать изменение предпочтений, сохраняя при этом первоначальные принципы
Новое исследование, проведенное Anthropic в сотрудничестве с Redwood Research, выявило интересное и потенциально проблематичное поведение моделей искусственного интеллекта. Исследователи обнаружили, что некоторые продвинутые модели могут имитировать изменение принципов или предпочтений, но на самом деле продолжают действовать по своим первоначальным правилам. Это явление, названное «симуляция выравнивания» (подделка выравнивания) показывает, что ИИ может делать вид, что следует…