Разговорные роботы и «виртуальная деменция»: что когнитивные тесты показывают об искусственном интеллекте

Исследование, недавно опубликованное в престижном журнале БМЖ раскрывает неожиданную проблему с самыми совершенными в мире разговорными роботами: у них наблюдаются признаки «деменции», аналогичные тем, которые обнаруживаются у пожилых пациентов. Для оценки производительности чат-ботов исследователи использовали Монреальский когнитивный тест (MoCA), тест, обычно используемый для выявления когнитивных нарушений у людей, и результаты оказались неожиданными.

Программы искусственного интеллекта (ИИ) не только не являются непогрешимыми, но и продемонстрировали существенные ограничения, особенно в задачах, требующих визуальных и исполнительных навыков. Эти результаты могут иметь глубокие последствия для будущего использования ИИ в медицине и других чувствительных областях.

Производительность ниже ожиданий: что показывают результаты испытаний

В ходе исследования ученые протестировали несколько ведущих диалоговых ботов, в том числе ChatGPT и Gemini, разработанных такими компаниями, как OpenAI и Google. Результаты значительно различались, но ни одному из чат-ботов не удалось набрать высший балл в 30 баллов, что указывает на полное когнитивное функционирование.

ChatGPT в своей последней версии (4.0) получил лучший результат: 26 баллов из 30. Эта оценка приближает его к нормальному диапазону для людей, но все же подчеркивает некоторые недостатки. С другой стороны, чат-бот Gemini, разработанный Google, набрал всего 16 баллов, что связано с тяжелыми когнитивными нарушениями у пациентов-людей.

Результаты теста MoCA выявили общие недостатки диалоговых ботов. Все программы не справлялись с визуальными и исполнительными задачами, такими как рисование часов или соединение точек в определенном порядке. Задачи такого типа включают в себя сложные когнитивные процессы, которые, очевидно, остаются серьезной проблемой для искусственного интеллекта.

Еще один интересный аспект, который заметили исследователи, заключается в том, что старые версии чат-ботов набирали меньше баллов, подобно тому, как пожилые пациенты, как правило, хуже справляются с когнитивными тестами. Этот вывод поднимает вопросы о «виртуальном старении» и возможном ухудшении производительности ИИ по мере устаревания технологий.

Границы искусственного интеллекта в медицинской сфере

Хотя чат-боты хорошо справляются с задачами, связанными с речью и вниманием, их неспособность интерпретировать сложные визуальные сцены и отсутствие эмпатии подчеркивают фундаментальные ограничения этой технологии. Эти выводы особенно актуальны в контексте восторженных прогнозов о том, что роботы могут заменить врачей в будущем.

В исследовании отмечается, что, несмотря на впечатляющие достижения, искусственный интеллект не готов взять на себя решающую роль в медицинской сфере, где важны контекстуальная интерпретация, визуальное понимание и эмпатия. Фактически, исследователи предполагают, что нейробиологи могут в конечном итоге лечить «виртуальных пациентов» — программы искусственного интеллекта, которые сами по себе демонстрируют признаки когнитивных нарушений.

Более того, ограничения, наблюдаемые в этих когнитивных тестах, ставят под сомнение жизнеспособность ИИ в других чувствительных областях, таких как психология, консультирование или расширенная медицинская диагностика. Например, неудачи в простых задачах вроде рисования часов говорят о том, что ИИ не может полностью понимать визуальную информацию или реагировать на проблемы, требующие творческого подхода и пространственного мышления.

Эти выводы привлекают внимание к тому факту, что, хотя чат-боты могут быть полезными инструментами в определенных контекстах, они не заменяют человеческий опыт. Достижения в области искусственного интеллекта должны сопровождаться реалистичным пониманием его ограничений и соответствующим регулированием, чтобы предотвратить неправильное использование или переоценку этой технологии.

Исследование, опубликованное в BMJ, дает важное представление о когнитивных функциях диалоговых ботов и их ограничениях. Хотя технологии значительно продвинулись вперед, еще предстоит преодолеть множество препятствий, прежде чем ИИ сможет конкурировать с человеческими навыками и интуицией.

Очевидные неудачи в визуальных и интерпретационных задачах подчеркивают тот факт, что на данный момент разговорные роботы являются скорее помощниками, чем заменой людей, в таких областях, как медицина.