Живые фотографии с помощью ИИ: ByteDance внедряет новую технологию

politichka Subscribers

ByteDance, родительская компания TikTok, презентовала новую ИИ-технологию INFP, которая заставляет статичные портретные фотографии «говорить» и реагировать на звук аудио в автоматическом режиме.

Уникальность модели INFP в том, что она позволяет реагировать и распознавать роли «говорящего» и «слушающего» без предварительной настройки.

Процесс работы INFP выстроен следующим образом:

— Motion-Based Head Imitation — первый этап, во время которого ИИ-модель учитывает все нюансы человеческого поведения, включая мимику и повороты головы на основе видео.

Полученные данные INFP затем использует при анимировании статичного изображения.

— Audio-guided motion generation — второй этап, во время которого система INFP определяет, как сопоставлять звуки с естественными движениями.

Специально разработанный командой ByteDance инструмент motion guider помогает создать паттерны как для говорения, так и слушания. Таким образом модель INFP анализирует звуки с двух сторон одновременно.

В самом конце специальный AI-компонент — диффузионный трансформер — уточняет движения до плавных, естественных, максимально подходящих тому, что изображено на картинке.

Для правильного обучения в модель INFP внедрили коллекцию разговоров DyConv.

ByteDance утверждает, что создала модель, превосходящую по всем параметрам аналоги. INFP отлично сопоставляет движения губ с речью, сохраняет уникальные человеческие черты лица и создаёт широкий спектр естественных движений.

В ближайшее время в планах у рабочей команды расширить функционал INFP для соединения работы анимации с текстом. Это позволит расширить свободу творчества — оживлять можно будет все тело.

Принимаю заказы на написание текстов на бизнес-темы, про маркетинг, технологии и IT (кроме бухгалтерии, финучёта, традиционного инвестирования и классической биржевой торговле, про крипту обсуждаемо). По всем вопросам пишите в личку на этом сайте.

Ещё больше интересного контента из жизни общества, политики, бизнеса и технологий читайте в Telegram-канале «Политичка».

09 Янв 2025 13:00