Здравоохранение становится самым жестким испытанием для искусственного интеллекта

И OpenAI, и Anthropic объявили о больших планах по выходу в сферу здравоохранения с помощью соответствующего инструмента для потребителей под названием ChatGPT Health и версии чат-бота Claude, который может помочь врачам диагностировать и писать медицинские записи. Google явно отсутствует в этом потоке новостей. Чат-бот Gemini — один из самых популярных и способных, так почему бы не задействовать и прибыльный рынок здравоохранения? Возможно, потому, что Google знает по опыту, что такая попытка может иметь драматические последствия, пишет редактор Bloomberg Парми Олсон.

Консультации в сфере здравоохранения — это область, в которой генеративный искусственный интеллект (ИИ) имеет один из самых интересных потенциалов. Но новые компании, занимающиеся искусственным интеллектом, возможно, ослепленные бравадой и эйфорией, столкнутся с судьбой, аналогичной судьбе Google, если они не будут более прозрачными в отношении печально известных галлюцинаций своих технологий.

OpenAI постепенно внедряет новую функцию, которая позволяет пользователям задавать вопросы о своем здоровье, используя отдельную память и ссылки на данные из медицинских записей человека или его фитнес-приложений, если они разрешают их включать. Компания утверждает, что инструмент ChatGPT Health более безопасен и «не предназначен для диагностики», однако многие люди уже используют его для выявления заболеваний. По данным компании, каждую неделю более 230 миллионов человек ищут в приложении советы по вопросам здоровья. Она также анонсировала ChatGPT for Healthcare, версию бота для медицинских работников, которая проходит испытания в нескольких больницах, включая Бостонскую детскую больницу и Мемориальный онкологический центр Слоана-Кеттеринга.

Anthropic, которая добилась большего успеха, чем OpenAI, в продажах предприятиям, запустила чат-бота, ориентированного на врачей. Он выглядит так же, как пользовательская версия Claude, но обучен на базе данных медицинской информации, такой как коды диагнозов и сведения о поставщиках медицинских услуг (чтобы помочь генерировать разрешительные документы), а также научных статьях из PubMed, чтобы помочь врачам поставить потенциальный диагноз.

Компания представила интригующий взгляд на то, как такое обучение может сделать Клода более точным. Когда в пользовательской версии Claude спрашивают о кодах, которые врачи используют для классификации диагноза или процедуры, ответ правильный в 75 процентах случаев, сказал главный директор по продуктам Anthropic Майк Кригер на мероприятии, посвященном запуску продукта в начале этого месяца. Но версия Клода для врачей, обученных этим кодам, точна в 99,8% случаев.

Но какова степень точности, когда дело доходит до постановки диагноза? Этот конкретный показатель кажется более важным. «Когда я спросил Anthropic, компания не смогла дать исчерпывающего ответа», — написал Олсон. Компания заявила, что ее самая мощная модель рассуждения, Claude Opus 4.5, достигла точности 92,3 процента в MedCalc, который проверяет точность медицинских расчетов, и 61,3 процента в MedAgentBench, который измеряет, может ли искусственный интеллект выполнять клинические задачи в смоделированной электронной системе медицинских записей. Но ни один из них не показывает, насколько надежен ИИ в клинических рекомендациях. Первый относится к тесту на дозировку препарата и лабораторным показателям, и статистика в 61,3% является, скажем прямо, тревожно низким показателем.

В защиту Anthropic следует сказать, что ее модели более честны — более склонны признавать неопределенность, чем изобретать ответы, — чем модели, созданные OpenAI или Google, как показывают данные, собранные Scale, компанией по искусственному интеллекту, которую недавно купила Meta Platforms. Anthropic расхваливала эти цифры во время презентации на конференции JPMorgan Chase Healthcare Conference в Сан-Франциско, но такая похвала прозвучит пустословием для врачей, если они не смогут количественно оценить, насколько на самом деле точен диагностический инструмент.

Когда я спросил OpenAI о надежности ChatGPT с точки зрения здоровья, добавляет Олсон, пресс-секретарь сказала, что модели стали более надежными и точными в сценариях здоровья по сравнению с предыдущими версиями, но она также не предоставила конкретных цифр, показывающих частоту галлюцинаций при даче медицинских советов.

Компании, занимающиеся искусственным интеллектом, долгое время молчали о том, как часто их чат-боты допускают ошибки, отчасти потому, что это подчеркивает, насколько сложно решить эту проблему. Вместо этого они предоставляют контрольные данные, например, показывающие, насколько хорошо их модели ИИ сдают экзамен на получение медицинской лицензии. Но большая прозрачность в отношении надежности будет иметь решающее значение для укрепления доверия как среди врачей, так и среди общественности.

Google, часть Alphabet, усвоила это на собственном горьком опыте. В период с 2008 по 2011 год компания пыталась создать персональную медицинскую карту под названием Google Health, которая собирала бы медицинские данные человека от разных врачей и больниц в одном месте. Попытка провалилась отчасти потому, что Google столкнулся с огромной технической проблемой при сборе данных о здоровье из несовместимых систем. Более серьезная проблема заключалась в том, что люди боялись загружать свои медицинские записи в компанию, которая регулярно собирает личную информацию для рекламы.

Недоверие общественности было настолько сильным, что смелая инициатива лаборатории Google DeepMind по оповещению врачей в больницах о признаках острой почечной недостаточности была остановлена ​​в 2018 году после того, как выяснилось, что проект получил доступ к более чем 1 миллиону записей пациентов в Великобритании. Год спустя Wall Street Journal опубликовал еще одну инициативу Google, известную как Project Nightingale, по доступу к медицинским записям миллионов пациентов в США.

Оба инцидента были расценены как скандалы, и урок был ясен: люди воспринимали Google как ненадежную компанию. Это делает судьбу компаний, занимающихся искусственным интеллектом в здравоохранении, еще более неопределенной. Проблемы Google сводились к тому, как компания воспринималась общественностью, а не к ошибкам, допущенным ее системами при обработке медицинских записей. Цена будет выше, если ChatGPT или Клод допустят ошибку, помогая врачам принимать жизненно важные решения.

Возможно, наивность или ограниченность побудили Дарио Амодеи, генерального директора Anthropic, поднять именно этот вопрос во время презентации компании в области здравоохранения на прошлой неделе, хотя его компания не представила никаких данных, подтверждающих этот вопрос. По его словам, определение «безопасности» расширяется по мере того, как его компания выходит на новые рынки, такие как здравоохранение. «Здравоохранение — это та область, в которой нежелательно, чтобы модель выдумывала ошибки», — добавил он. «Это плохо».

Но отказываетесь сказать, как часто это происходит? Это тоже плохо.

Каждая новость – это актив, следите за Investor.bg и в Витрина новостей Google.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.