Компания «работала» только с искусственным интеллектом, впечатляюще разбилась: почему вы не потеряете свою работу слишком рано

В течение нескольких лет дискуссии о том, как искусственный интеллект заменит человеческую работу, становится все более и более тревожным. Но недавний эксперимент, проведенный исследователями из университета Карлона Карлона, приносит здоровую дозу реализма: ИИ все еще далек от контроля над нашей работой.

В рамках симуляции под названием MyagentCompany вся команда предполагаемой компании -разработчика была составлена только из агентов из таких гигантов, как Google, Openai, Anpropic и Meta. Что последовало? Обобщенное хаос и разочаровывающее представление, которое ясно показывает, что на данный момент искусственный интеллект не готов заменить людей в сложных мероприятиях.

Как была организована компания и какие задачи получали агентства по искусственному интеллекту

Исследователи хотели посмотреть, как модели искусственного интеллекта будут обрабатывать в условиях, аналогичных условиям реальной компании -разработчика программного обеспечения. Агенты были «заняты» на таких должностях, как финансовые аналитики, инженеры -программисты и менеджеры проектов, с структурами, моделируемыми человеческими ресурсами и техническим управлением.

Задачи были разнообразны и включали навигацию через файловые директора, виртуальные туры по новым офисам и составление оценки производительности для коллег. На первый взгляд, ничего невозможного, особенно для моделей, которые обещают эффективность и автономию.

Результаты, однако, были далеко не впечатляющими. Лучший AI «сотрудник», Claude 3,5 Sonnet от Antropric, удалось выполнить только 24% задач. Даже эта скромная производительность достигла высокой стоимости, каждая задача требует в среднем почти 30 шагов и более 6 долларов за исполнение.

Что исследователи обнаружили о текущих ограничениях искусственного интеллекта

Эксперимент выявил несколько фундаментальных вопросов агентов искусственного интеллекта. Прежде всего, они страдают от серьезного отсутствия оперативного смысла и социальных навыков. У них также есть серьезные трудности в навигации по онлайн -среде в целом и эффективно.

Одна из самых забавных ситуаций, о которых сообщается командой, была, когда у вас есть агент, не зная, как найти подходящего человека для вопроса во внутреннем чате, решил переименовать другого пользователя с именем ищущего. Эта форма «самоопределения», очевидно, привела к ошибкам и путанице.

Например, Flash Google Gemini 2.0 выполнил только 11,4% задач, потребуя более 40 шагов для каждого успеха. Самым слабым из всех была Nova Pro V1 от Amazon, которая выполнила наметимые 1,7% задач.

По сути, то, что мы называем сегодня искусственным интеллектом, является не чем иным, как сложной формой автоматического завершения, аналогичной функции текста по телефону, без реальной способности учиться на опыте или решать сложные проблемы автономно.

Что означают эти результаты для будущего рабочих мест

Несмотря на постоянную ажиотаж, вызванную крупными технологическими компаниями, реальность показывает, что ИИ, по крайней мере, на данный момент является реальной угрозой для большинства человеческих рабочих мест. Хотя он может справиться с повторяющимися или очень хорошо определенными задачами, когда речь идет о адаптивности, творчестве и рассуждениях здравого смысла, текущий искусственный интеллект падает на оплачиваемый тест.

Этот вывод должен принести вам немного мира: автомобили еще не готовы занять ваше место. На данный момент ИИ нуждается в тщательном наблюдении за человеком и не может функционировать автономно в сложных условиях.

Конечно, будущее принесет улучшения, но эти результаты ясно показывают, что путь к настоящей автономии искусственного интеллекта намного дольше и полон проблем, чем техническая индустрия хотела бы признать.