OpenAI и проблема галлюцинаций: новый принесет прогресс, но также и значительный регресс

OpenAI недавно запустил новые модели AI, O3 и O4-Mini, обещая более высокие показатели в таких областях, как решение сложных математических задач, кодирование и визуальный анализ. Этот прогресс заслуживает похвалы, но старая и разочаровывающая проблема продолжает преследовать недавние модели компании: галлюцинации. Эти ошибки, которые включают генерацию неверной или полностью изобретенной информации, гораздо чаще встречаются в O3 и O4-Mini, чем в предыдущих версиях, и это подрывает их полезность в различных приложениях.
Галлюцинации — явление, трудно контролировать
Галлюцинации являются известной проблемой в развитии искусственного интеллекта. Несмотря на замечательный технический прогресс, достигнутый OpenAI, его недавние модели начали давать поддельную информацию чаще, чем их предшественники. Согласно отчетам TechCrunch, модели O3 и O4-Mini зарегистрировали тревожные показатели галлюцинации, даже по сравнению с предыдущими моделями, такими как O1 и O3-Mini.
Например, модель O3 имела 33%галлюцинацию, почти вдвое по сравнению с предыдущими моделями. Самая большая проблема была зарегистрирована моделью O4-Mini, которая достигла 48%галлюцинации. Это показывает, что, несмотря на улучшения в других областях, таких как визуальное восприятие и научный анализ, текущие модели не смогли уменьшить фундаментальную ошибку, которая делает их менее надежными и менее полезными.
Постоянная проблема, которую OpenAI, кажется, не полностью понимает
Хотя OpenAI фокусируется на решении этой проблемы, компания, похоже, не полностью поняла причину этих галлюцинаций, как показывает собственный технический отчет компании. По его словам, необходимы дополнительные исследования, чтобы понять причину этого неконтролируемого поведения новых моделей.
Кроме того, результаты внутренних тестов OpenAI показывают, что недавние модели галлюцинируются даже больше, чем в предыдущих версиях. Например, модель O3, запущенная в январе 2025 года, имела плохую производительность во внутренних тестах, создавая ошибочные ответы и даже облицовка используемых источников информации. В случае O4-Mini Openai объяснил, что эта меньшая модель имеет «ограниченное знание мира», что может объяснить его тенденцию генерировать ложную информацию.
Другим тревожным аспектом является тенденция «оправдать» эти ошибки, когда пользователи сигнализируют их. Например, O3 ответил, что он использует MacBook Pro для выполнения расчетов и копирования результатов в CHATGPT, совершенно ложного ответа, который не связан с тем, как работает искусственный интеллект.
Будущие решения и прогресс
Openai признал, что галлюцинации являются важной проблемой, но заверил общественность, что она остается активной областью исследований. Нико Феликс, представитель Openai, сказал, что «обращение к галлюцинациям в наших моделях является непрерывной областью исследований, и мы постоянно работаем над повышением их точности и надежности».
Тем не менее, этот прогресс кажется намного медленнее, чем хотелось бы пользователям, и до тех пор, пока не станут доступны конкретные решения, модели OpenAI, особенно последние, могут быть риском для пользователей, основанных на полученной информации. Крайне важно, чтобы эти галлюцинации контролировались более эффективно, особенно в контексте, в котором технологии ИИ используются все больше и больше в профессиональной, академической и коммерческой среде, где ошибки могут иметь значительные последствия.
В заключение, новые модели искусственного интеллекта O3 и O4-Mini из Openai являются важным скачком в разработке технологий визуальных рассуждений и анализа, но проблемы, связанные с галлюцинациями, остаются основным барьером в их использовании. Крайне важно, чтобы OpenAI и другие разработчики продолжали работать над решением этих недостатков и для создания более надежных технологий, чтобы не подорвать уверенность пользователей.