Microsoft представила мощную сеть для генерации реалистичного видео из одной фотографии

Компания Microsoft продемонстрировала новую нейросеть VASA-1, способную генерировать реалистичные видео людей, произносящих любой текст, на основе всего одной фотографии и аудиозаписи.

Эта технология, основанная на передовых достижениях в области генеративных нейросетей, открывает новые возможности, но также несет потенциальные риски. В последние годы генеративные нейросети значительно усовершенствовались, став мощными инструментами для создания визуального контента по текстовому описанию, включая не только изображения, но и видео.

Однако алгоритм VASA-1 от Microsoft идет еще дальше – для его работы не требуется никакого текстового описания. Достаточно предоставить одну фотографию человека и аудиозапись, и нейросеть сгенерирует видео, на котором этот человек будет "оживлен" и естественно воспроизведет фразы из аудиодорожки с реалистичной мимикой и движениями головы. Результаты работы VASA-1 поражают своей правдоподобностью. Из единственного снимка лица и записи голоса алгоритм создает видео, на котором запечатленный человек словно оживает, а его мимика, артикуляция губ и движения головы выглядят совершенно естественными.

Отличить такие синтезированные видео от реальных бывает крайне сложно, что вызывает опасения по поводу возможного использования этой технологии для создания фейков в противоправных целях. Ключевым отличием VASA-1 от аналогичных алгоритмов является наличие целостной модели генерации мимики лица и движений головы. Специалисты Microsoft провели масштабную исследовательскую работу, включая разработку новых метрик оценки, и установили, что их алгоритм значительно превосходит предыдущие разработки по многим параметрам.

В Microsoft отмечают, что их метод "не только обеспечивает генерацию высококачественного видео с реалистичной мимикой и движениями головы, но также поддерживает онлайн-генерацию видео с разрешением 512x512 пикселей и частотой 40 кадров в секунду с минимальной задержкой. Это открывает путь к взаимодействию в реальном времени с реалистичными аватарами, имитирующими поведение человека во время разговора". Таким образом, нейросеть VASA-1 способна создавать качественные фейковые видео исключительно на основе одной фотографии.

Понимая потенциальные риски подобной технологии, в Microsoft называют VASA-1 "исследовательской демонстрацией" и не планируют выводить ее на коммерческий рынок, по крайней мере, в ближайшее время. Тем не менее, разработка наглядно демонстрирует стремительный прогресс в области генеративного искусственного интеллекта и ставит важные этические вопросы перед индустрией.

Изображение: Microsoft