Компания Microsoft представила модель искусственного интеллекта VASA-1, предназначенную для генерирования реалистичных видео персонажей, произносящих заданный текст, по одной фотографии и аудиоклипу с речью. VASA-1, способна не только воспроизводить движения губ, синхронизированные со звуком, но и улавливать широкий спектр нюансов лица и естественных движений головы, которые способствуют реалистичному восприятию.
Пишут, что эта модель поддерживает онлайн-генерацию видео 512x512 с частотой до 40 кадров в секунду с незначительной задержкой.
Для чего это может применяться? Ну, например, для создания реалистичных аватаров, которые имитируют человеческий разговор.
На странице проекта выложено множество примеров работы VASA-1, вот один из них.
Ну и вот ролик, который показывает, как работает эта технология в реальном времени.
Подробнее https://exler.ru/blog/va...