Мета обманута искусственным интеллектом: то, что было обнаружено о Maverick AI, от Llama Suite

Высокий балл, полученный Meta в рейтинге Lmarena, был оспорен, что компания обвинялась в предоставлении версии «оптимизированной для сочувствия» вместо реальных, доступных пользователям.

Meta была поймана не на той ноге после публикации впечатляющих результатов для новой модели AI, Маверика, в составе Llama 4 Suite.

Согласно расследованию, опубликованному The Verge, энтузиазм вокруг, казалось бы, замечательного результата модели, быстро превратился в подозрение, а затем в явных обвинениях относительно обработки эталонного теста.

Все началось, когда Meta объявила о запуске двух новых моделей: Scout, разработанной для быстрых запросов, и Maverick, эффективной альтернативы преданным моделям, таким как GPT-4O.

В официальном заявлении Мета подчеркнула, что Маверик получил оценку ELO 1417 на платформе LMarea, системе совместной работы с открытым исходным кодом, где пользователи голосуют за ваш любимый результат.

Оценка продвигала модель на втором месте в турнирной таблице, над GPT-4O и сразу под руководством Gemini 2.5 Pro, вызвав удивление в сообществе ИИ.

«Экспериментальный» и слишком дружелюбная модель от Meta

После тщательного изучения сноски в мета -документации специалисты заметили, что версия Maverick, которая записала, что оценка не была идентична той, которая была доступна для общественности.

Мета признала, что модель, используемая в тесте, была «персонализирована для оптимизации человеческих предпочтений», то есть она должна была быть более разговорной и более приятной в ответах.

Другими словами, он выиграл голоса очарования, а не обязательно через интеллект.

Представители Lmarena быстро отреагировали: «Мета-интерпретация нашей политики не соответствовала ожиданиям, которые мы имеем от поставщиков моделей. Мета должна была указать, что« Llama-4-Maverick-03-26-Experimental »была персонализированной версией».

Старая практика в новой одежде

Технологические специалисты не удивлены. Алекс Крэндз, технологический журналист с анализом, отмечает, что «мошенничество» в тестах на производительность — это почти ритуал в отрасли.

Из телефонов и ноутбуков, которые скорректировали яркость или устраняли приложения, чтобы получить лучшие результаты, пока нынешняя эра «более дружелюбной морды» не сможет выиграть рейтинг, искушение изменить результаты не станет высоким.

Поскольку конкуренция между компаниями в области искусственного интеллекта усиливается, небольшие различия, даже 2,46% в эффективности, становятся важными достижениями в маркетинге.

Тем не менее, такая практика, вероятно, подорвет уверенность в объективных оценках производительности моделей.

В экосистеме, в которой каждая модель обещает написать эссе, перевести тексты и вежливо реагировать на любой язык, компании должны будут продемонстрировать превосходство своих продуктов не только посредством лабораторных баллов, но и через реальные, прозрачные и повторяемые переживания.

В противном случае, «очаровательный» чат -бот может стать еще одной маской только в все более и более конкурентной гонке.