|
|
Технологии |
Живые фотографии с помощью ИИ: ByteDance внедряет новую технологию
ByteDance, родительская компания TikTok, презентовала новую ИИ-технологию INFP, которая заставляет статичные портретные фотографии «говорить» и реагировать на звук аудио в автоматическом режиме.
Уникальность модели INFP в том, что она позволяет реагировать и распознавать роли «говорящего» и «слушающего» без предварительной настройки.
Процесс работы INFP выстроен следующим образом:
— Motion-Based Head Imitation — первый этап, во время которого ИИ-модель учитывает все нюансы человеческого поведения, включая мимику и повороты головы на основе видео.
Полученные данные INFP затем использует при анимировании статичного изображения.
— Audio-guided motion generation — второй этап, во время которого система INFP определяет, как сопоставлять звуки с естественными движениями.
Специально разработанный командой ByteDance инструмент motion guider помогает создать паттерны как для говорения, так и слушания. Таким образом модель INFP анализирует звуки с двух сторон одновременно.
В самом конце специальный AI-компонент — диффузионный трансформер — уточняет движения до плавных, естественных, максимально подходящих тому, что изображено на картинке.
Для правильного обучения в модель INFP внедрили коллекцию разговоров DyConv.
ByteDance утверждает, что создала модель, превосходящую по всем параметрам аналоги. INFP отлично сопоставляет движения губ с речью, сохраняет уникальные человеческие черты лица и создаёт широкий спектр естественных движений.
В ближайшее время в планах у рабочей команды расширить функционал INFP для соединения работы анимации с текстом. Это позволит расширить свободу творчества — оживлять можно будет все тело.
Принимаю заказы на написание текстов на бизнес-темы, про маркетинг, технологии и IT (кроме бухгалтерии, финучёта, традиционного инвестирования и классической биржевой торговле, про крипту обсуждаемо). По всем вопросам пишите в личку на этом сайте.
Ещё больше интересного контента из жизни общества, политики, бизнеса и технологий читайте в Telegram-канале «Политичка».
Уникальность модели INFP в том, что она позволяет реагировать и распознавать роли «говорящего» и «слушающего» без предварительной настройки.
— Motion-Based Head Imitation — первый этап, во время которого ИИ-модель учитывает все нюансы человеческого поведения, включая мимику и повороты головы на основе видео.
Полученные данные INFP затем использует при анимировании статичного изображения.
— Audio-guided motion generation — второй этап, во время которого система INFP определяет, как сопоставлять звуки с естественными движениями.
Специально разработанный командой ByteDance инструмент motion guider помогает создать паттерны как для говорения, так и слушания. Таким образом модель INFP анализирует звуки с двух сторон одновременно.
В самом конце специальный AI-компонент — диффузионный трансформер — уточняет движения до плавных, естественных, максимально подходящих тому, что изображено на картинке.
Для правильного обучения в модель INFP внедрили коллекцию разговоров DyConv.
В ближайшее время в планах у рабочей команды расширить функционал INFP для соединения работы анимации с текстом. Это позволит расширить свободу творчества — оживлять можно будет все тело.
Принимаю заказы на написание текстов на бизнес-темы, про маркетинг, технологии и IT (кроме бухгалтерии, финучёта, традиционного инвестирования и классической биржевой торговле, про крипту обсуждаемо). По всем вопросам пишите в личку на этом сайте.
Ещё больше интересного контента из жизни общества, политики, бизнеса и технологий читайте в Telegram-канале «Политичка».
09 Янв 2025 13:00 |
|
|
+100 ₽ |
|
Комментарии (1)
10 Янв 02:24 |
Благодарю Вас! Очень интересно!
|
![]() |
![]() |
![]() |
![]() |
![]() |
🙂
😂
🙁
🤬
😮
🙄
🤢
😜
😛
👀
🧡
💋
👍
👎
👉
👈
🙏
👋
🤝
📈
📉
💎
🏆
💰
💥
🚀
⚡
🔥
🎁
🌞
🌼
←
→
Читайте также

Перейти в тему: