|
Технологии |
Microsoft представила мощную сеть для генерации реалистичного видео из одной фотографии
Компания Microsoft продемонстрировала новую нейросеть VASA-1, способную генерировать реалистичные видео людей, произносящих любой текст, на основе всего одной фотографии и аудиозаписи.
Эта технология, основанная на передовых достижениях в области генеративных нейросетей, открывает новые возможности, но также несет потенциальные риски. В последние годы генеративные нейросети значительно усовершенствовались, став мощными инструментами для создания визуального контента по текстовому описанию, включая не только изображения, но и видео.
Однако алгоритм VASA-1 от Microsoft идет еще дальше – для его работы не требуется никакого текстового описания. Достаточно предоставить одну фотографию человека и аудиозапись, и нейросеть сгенерирует видео, на котором этот человек будет "оживлен" и естественно воспроизведет фразы из аудиодорожки с реалистичной мимикой и движениями головы. Результаты работы VASA-1 поражают своей правдоподобностью. Из единственного снимка лица и записи голоса алгоритм создает видео, на котором запечатленный человек словно оживает, а его мимика, артикуляция губ и движения головы выглядят совершенно естественными.
Отличить такие синтезированные видео от реальных бывает крайне сложно, что вызывает опасения по поводу возможного использования этой технологии для создания фейков в противоправных целях. Ключевым отличием VASA-1 от аналогичных алгоритмов является наличие целостной модели генерации мимики лица и движений головы. Специалисты Microsoft провели масштабную исследовательскую работу, включая разработку новых метрик оценки, и установили, что их алгоритм значительно превосходит предыдущие разработки по многим параметрам.
В Microsoft отмечают, что их метод "не только обеспечивает генерацию высококачественного видео с реалистичной мимикой и движениями головы, но также поддерживает онлайн-генерацию видео с разрешением 512x512 пикселей и частотой 40 кадров в секунду с минимальной задержкой. Это открывает путь к взаимодействию в реальном времени с реалистичными аватарами, имитирующими поведение человека во время разговора". Таким образом, нейросеть VASA-1 способна создавать качественные фейковые видео исключительно на основе одной фотографии.
Понимая потенциальные риски подобной технологии, в Microsoft называют VASA-1 "исследовательской демонстрацией" и не планируют выводить ее на коммерческий рынок, по крайней мере, в ближайшее время. Тем не менее, разработка наглядно демонстрирует стремительный прогресс в области генеративного искусственного интеллекта и ставит важные этические вопросы перед индустрией.
Изображение: Microsoft
19 Апр 2024 11:11 |
|
|
+100 ₽ |
|
Комментарии (0)
🙂
😂
🙁
🤬
😮
🙄
🤢
😜
😛
👀
🧡
💋
👍
👎
👉
👈
🙏
👋
🤝
📈
📉
💎
🏆
💰
💥
🚀
⚡
🔥
🎁
🌞
🌼
←
→
Читайте также
Перейти в тему: