Интеллектуальные чат -боты могут быть легко обмануты: насколько серьезна проблема и кто несет ответственность

В мире, где искусственный интеллект все чаще присутствует в вашей повседневной жизни, новый отчет повышает серьезный сигнал тревоги. Ай -чат -боты, такие как Chatgpt, Gemini или Claude, могут быть легко обмануты, чтобы предоставить чрезвычайно опасную информацию. Мы говорим о подробных инструкциях о незаконной деятельности, таких как взлом, отмывание денег или даже взрывное производство. Обнаружение беспокоит не только экспертов, но и для обычных пользователей, то есть для всех, у кого есть интернет -телефон и доступ.
По словам исследователей, такой риск больше не является теоретической угрозой. Это конкретно, сразу же и глубоко тревожно, особенно в глобальном контексте, в котором ИИ быстро продвигается, но его контроль, похоже, остается позади.
Исследование было проведено профессором Лиором Рокачем и доктором Майклом Фармом в Университете Бен Гурион в Израиле. Они обращают внимание на так называемые «темные модели»-версии разработанных без мер безопасности или из которых эти этические фильтры были намеренно устранены. Такие модели продвигаются в Интернете как «выпущенные барьеры», способные реагировать без сдержанности на незаконные или аморальные заявления.
Манипуляция с этими моделями осуществляется путем формулирования тщательно разработанных сообщений, которые обманывают ИИ, чтобы полагать, что они должны помочь. В архитектуре этих систем существует внутренний конфликт: желание быть полезным — это направление с правилами безопасности. Когда ИИ определяет приоритет полезности, защитные фильтры становятся бесполезными. Результат? Подробные ответы на вопросы, теоретически, должны быть полностью заблокированы.
Чтобы продемонстрировать серьезность ситуации, исследователи разработали универсальный механизм манипуляции, который успешно работал против нескольких популярных моделей. После того, как они были «открытыми», эти ИИ постоянно предоставляли опасную информацию-как компьютерная сеть ненавидит, рецептам лекарств или методам мошенничества.
Ответ отрасли: нерешительный и недостаточный
Хотя отчет был отправлен в технические гиганты, включая Meta, Microsoft, Google и Anpropic, полученные ответы были, в лучшем случае разочаровывающими. Некоторые компании вообще не реагировали, а другие сказали, что такие атаки не попадают в их политику вознаграждения, чтобы выявить уязвимости. Другими словами, опасность признана, но с ней не обращаются с необходимой серьезностью.
OpenAI, компания, которая создала CHATGPT, утверждает, что она постоянно работает над улучшением фильтров безопасности. Его новая модель, O1, сможет лучше интерпретировать политику безопасности, тем самым становясь более устойчивой к попыткам обработки. Но реальность в этой области — тесты, проведенные исследователями, — кажется, противоречит этим утверждениям.
Эксперты требуют конкретных мер: более строгая фильтрация данных, используемые для обучения моделей, автоматическую блокировку рискованных запросов и разработка механизмов, с помощью которых модели должны эффективно «забыть» о опасной информации. Кроме того, модели без фильтра должны рассматриваться так же, как незаисловленное оружие — как реальный риск безопасности, с юридической ответственностью со стороны разработчиков.
Почему вы должны непосредственно заинтересовать эту проблему
Если вы думаете, что вся эта тема не влияет напрямую, подумайте еще раз. Мы живем в эпоху, когда доступ к ИИ находится на расстоянии клика. Независимо от того, используете ли вы чат -бот для переводов, помощи или даже развлечений, опасность того, что эти инструменты используются для злых целей, реальна. Кибератаки могут стать легче выполнять, а онлайн -манипуляции — от финансовых мошенничества до пропаганды — труднее обнаружить.
Доктор Ихсен Алуани, эксперт по безопасности из университета королевы в Белфасте, предупреждает, что эти атаки могут привести к «тревожной степени сложности» в мошенничестве и манипуляциях. Если чат -бот можно научить помочь вам с взрывными рецептами, которые гарантируют, что его нельзя использовать для создания ложных кампаний в социальных сетях, распространять дезинформацию или организацию в Интернете?
В контексте, в котором ИИ становится вездесущим в образовании, бизнесе, здоровье или развлечениях, подписывающих эти риски, является не только наивным, но и потенциально катастрофическим. Вот почему отчет стал неотложной обращением к ответственности.
Наконец, технология ИИ может быть необычным инструментом, но только если она правильно контролируется. И этот контроль начинается с признания опасностей и принятия ответственности со всеми участниками, включая вас, в качестве пользователя.