Главная
Прогнозы
Графики
Главная
Прогнозы
Графики
Новости
Публикации
Комментарии
Авторы
Подписки
Справка
Вход
Регистрация
Настройки
Главная
Прогнозы
Графики
Новости
Публикации
Комментарии
Авторы
Подписки
Справка
Вход
Регистрация
Настройки
Avatar
Technopunk Subscribers4
Прочее
Microsoft представила мощную сеть для генерации реалистичного видео из одной фотографии

Компания Microsoft продемонстрировала новую нейросеть VASA-1, способную генерировать реалистичные видео людей, произносящих любой текст, на основе всего одной фотографии и аудиозаписи.

Эта технология, основанная на передовых достижениях в области генеративных нейросетей, открывает новые возможности, но также несет потенциальные риски. В последние годы генеративные нейросети значительно усовершенствовались, став мощными инструментами для создания визуального контента по текстовому описанию, включая не только изображения, но и видео.

Однако алгоритм VASA-1 от Microsoft идет еще дальше – для его работы не требуется никакого текстового описания. Достаточно предоставить одну фотографию человека и аудиозапись, и нейросеть сгенерирует видео, на котором этот человек будет "оживлен" и естественно воспроизведет фразы из аудиодорожки с реалистичной мимикой и движениями головы. Результаты работы VASA-1 поражают своей правдоподобностью. Из единственного снимка лица и записи голоса алгоритм создает видео, на котором запечатленный человек словно оживает, а его мимика, артикуляция губ и движения головы выглядят совершенно естественными.

Отличить такие синтезированные видео от реальных бывает крайне сложно, что вызывает опасения по поводу возможного использования этой технологии для создания фейков в противоправных целях. Ключевым отличием VASA-1 от аналогичных алгоритмов является наличие целостной модели генерации мимики лица и движений головы. Специалисты Microsoft провели масштабную исследовательскую работу, включая разработку новых метрик оценки, и установили, что их алгоритм значительно превосходит предыдущие разработки по многим параметрам.

В Microsoft отмечают, что их метод "не только обеспечивает генерацию высококачественного видео с реалистичной мимикой и движениями головы, но также поддерживает онлайн-генерацию видео с разрешением 512x512 пикселей и частотой 40 кадров в секунду с минимальной задержкой. Это открывает путь к взаимодействию в реальном времени с реалистичными аватарами, имитирующими поведение человека во время разговора". Таким образом, нейросеть VASA-1 способна создавать качественные фейковые видео исключительно на основе одной фотографии.

Понимая потенциальные риски подобной технологии, в Microsoft называют VASA-1 "исследовательской демонстрацией" и не планируют выводить ее на коммерческий рынок, по крайней мере, в ближайшее время. Тем не менее, разработка наглядно демонстрирует стремительный прогресс в области генеративного искусственного интеллекта и ставит важные этические вопросы перед индустрией.

Изображение: Microsoft
19 Апр 2024 11:11
1.2K
2
Комментарии (0)
Читайте так же в теме «Прочее»:
Loading...
Перейти в тему:
НовостиИнвестицииНедвижимостьЭкономикаБизнесПрочее
Читать в Telegram