Искусственный интеллект уже загрязнял Интернет невообразимым способом. Как они могли «вернуться», но до тех пор мы страдаем

С момента запуска CHATGPT и появления в цепочке других аналогичных генеративных моделей, Интернет был автоматически вторгся контентом, ситуация, которая уже вызывает негативные последствия для эволюции искусственного интеллекта.
Текущие модели ИИ обучаются существующим данным в онлайн -среде, текстах, изображениях, кодах и других формах контента, но после того, как эти данные «загрязнены» другими результатами, генерируемыми ИИ, цикл обучения ухудшается, записывает футуризм.
Это накопление искусственного контента приводит к тому, что специалисты называют обрушение модели: вместо того, чтобы учиться на аутентичных источниках, оно заканчивается копированием ошибок и ограничений других автоматических систем. Результат? Своего рода вечное эхо собственной поверхностности, которое снижает качество результатов и преображает разработку игры «беспроводной телефон».
Конкретный эффект этой тенденции уже наблюдается в технологиях извлечения с аугментированным (RAG), где модели завершили внутренние знания с информацией в режиме реального времени в Интернете. Но эти онлайн -источники также становятся чаще обозначенными искусственным содержанием, что приводит к повышенному риску неправильных или даже неопределенных ответов.
Использование «чистых данных» и риска загрязненной цифровой эры
Морис Чиодо, исследователь в Центре изучения рисков существования в Кембриджском университете, указывает, что данные не затронуты ИИ, то есть до 2022 года, станут более ценными.
Он сравнивает эту ситуацию с спросом на сталь, произведенную перед первыми ядерными испытаниями 1945 года, использованными сегодня в чувствительном медицинском оборудовании. Наводящая параллель, которая иллюстрирует, насколько сложно будет в будущем найти неизменную цифровую информацию.
В совместной работе в 2024 году вместе с профессором Ру Ру!
В отсутствие четких правил ситуация станет все более и более серьезной
Без этого контроля только компании, которые имели доступ к данным, вы сможете создавать высокопроизводительные модели, в то время как другие должны будут «копать» в уже зараженном Интернете.
В то же время, очистка этих данных после 2012 года оказалась не только сложной, но и чрезвычайно дорогой в некоторых случаях, возможно, даже невозможно.
Маркировка содержания, полученного ИИ, может помочь, но применение таких правил остается основным препятствием, особенно в неохотном секторе для законодательных вмешательств.
В то время как технологическая промышленность продолжает продвигаться с большими шагами, риск самооттравления становится все более и более реальным. Цифровое загрязнение, вызванное ИИ, уже влияет на инструменты, которые должны быть лучшими.
И если не будет принято четких мер для отделения исходного содержания от искусственного контента, будущего развития искусственного интеллекта, может быть более хрупким, чем мы представляем.