Nvidia представила модель искусственного интеллекта, которая меняет голоса и может генерировать новые звуки

Компания пока не сообщила, когда выпустит модель.

Nvidia представила новую модель искусственного интеллекта для создания музыки и аудио, которая может изменять голоса и генерировать новые звуки. Эта технология предназначена для производителей музыки, фильмов и видеоигр, сообщает Reuters.

Nvidia, крупнейший в мире поставщик чипов и программного обеспечения, используемых для создания систем искусственного интеллекта (ИИ), заявила, что не планирует в ближайшем будущем выпускать технологию, которую она называет Fugatto, сокращенно от Foundational Generative Audio Transformer Opus 1.

Он дополняет другие технологии, представленные такими стартапами, как Runway, и более крупными игроками, такими как Meta Platforms, которые могут генерировать аудио или видео по текстовой подсказке.

Программное обеспечение Nvidia генерирует звуковые эффекты и музыку с помощью текстового описания, включая новые звуки, например, звук трубы, но лай, как у собаки.

Что отличает его от других технологий искусственного интеллекта, так это его способность брать и изменять существующий звук, например, беря строку, сыгранную на фортепиано, и преобразуя ее в человеческий голос, или записывая произнесенное слово и изменяя акцент. используется или выражается настроение.

«Если вы думаете об искусственном звуке за последние 50 лет, музыка теперь звучит по-другому из-за компьютеров и синтезаторов», — сказал Брайан Катандзаро, вице-президент по прикладным исследованиям глубокого обучения в Nvidia. «Я думаю, что генеративный искусственный интеллект откроет новые возможности для музыки, видеоигр и людей, которые хотят создавать вещи».

Хотя такие компании, как OpenAI, ведут переговоры с голливудскими студиями о том, можно ли и как использовать ИИ в индустрии развлечений, отношения между технологиями и Голливудом стали особенно напряженными, особенно после того, как голливудская звезда Скарлетт Йоханссон обвинила OpenAI в подражании ее голосу.

OpenAI и Meta также не сообщили, когда они планируют публично выпустить свои модели, способные генерировать аудио и видео.

Новая модель Nvidia была обучена на данных из открытых источников, и компания заявляет, что все еще обсуждает, стоит ли публиковать ее публично и если да, то как.

«Любая генеративная технология всегда несет в себе определенные риски, поскольку люди могут использовать ее для создания вещей, которые мы бы предпочли не делать», — прокомментировал Катандзаро. «Мы должны быть осторожны с этим, поэтому у нас нет ближайших планов по запуску».