Искусственный интеллект быстро устает и имеет тенденцию делать ошибки в простых задачах, новое исследование Apple Shows

Новое исследование исследователей Apple вызывает область искусственного интеллекта, показывая, что вы специализируетесь на рассуждениях, страдает от «полного коллапса точности», когда они перегружены сложными проблемами.
Модели рассуждений, такие как Claude от Meta, O3 от Openai или R1 от DeepSeek, представляют собой передовые версии моделей крупных языков (LLM), которые используют больше времени и ресурсов для предоставления более точных ответов.
Они подпитывали предположения о появлении общего искусственного интеллекта (AGI), автомобилей, способных преодолеть людей в большинстве задач.
Что показало ваше исследование Apple
Но исследование, опубликованное 7 июня на веб -сайте Apple Machine Learning Research, показывает, что эти модели не только не соотносятся, но и их производительность резко снижается по мере увеличения сложности проблем, пишет Live Science.
Более того, авторы подчеркивают явление, противоречащее ожиданиям: усилия рассуждения увеличиваются до определенной точки, после чего они уменьшаются, хотя распределение ресурсов (токени) достаточно.
Чтобы исследовать, исследователи протестировали несколько моделей искусственного интеллекта, в том числе от OpenAI, DeepSeek, Anpropic и Google, используя четыре классических головоломки с различными уровнями сложности: пересечение реки, прыжки на дамскую доску, складывание блоков и башню Ханой.
Результаты показали, что общие модели работали лучше, чем рассуждения для простых задач, и по мере увеличения сложности модели рассуждений имели временное преимущество. Однако для очень сложных проблем производительность обоих типов моделей снизилась до нуля.
Чем сложнее задачи, тем больше ИИ придает его бару более обычно
Более того, модели показали удивительную тенденцию выделять меньше токенов, поскольку задачи становятся более сложными, признак того, что их «рассуждения» ограничены и что они не могут поддерживать сложные логические цепочки. Даже когда им был предложен алгоритм решения для башни Ханои, производительность не улучшилась.
Результаты показывают, что текущие модели больше основаны на распознавании моделей и меньше на истинном процессе, что противоречит ожиданиям относительно быстрой близости к общему искусственному интеллекту.
Apple, которая остается за конкурентами в гонке ИИ, подчеркивает разработку эффективных решений на устройствах, таких как Siri, которые в некоторых анализах менее точны, чем CHATGPT.
Критики и эксперты в ИИ с хорошими глазами смотрели в исследование, считая, что это необходимая доза реализма в середине чрезмерной ажиотажа.
«Apple с научной точки зрения продемонстрировала, что языковые модели — это просто нейрональные сети с их неотъемлемыми ограничениями», — пишет эксперт Андрия Бурков, надеясь, что исследования будут продолжаться с более строгим и математическим подходом.