HunyuanWorld-Voyager: AI модель для створення 3D-світів з фото

Компанія Tencent у вівторок представила нову модель штучного інтелекту HunyuanWorld-Voyager, яка дозволяє створювати 3D-послідовності відео з однієї фотографії. Ця інноваційна технологія дозволяє користувачам керувати шляхом камери, щоб “досліджувати” віртуальні сцени. Модель генерує RGB-відео та інформацію про глибину, що дозволяє без традиційних методів моделювання безпосередньо реконструювати 3D-об’єкти.

Хоча результати не є справжніми 3D-моделями, вони досягають подібного ефекту: штучний інтелект генерує 2D-кадри, що зберігають просторову узгодженість, як під час руху камери у реальному 3D-просторі. Кожне покоління виробляє лише 49 кадрів, що становить приблизно дві секунди відео, але кілька кліпів можна з’єднати для створення тривалих послідовностей.

Система працює на основі одного вхідного зображення та заданої користувачем траєкторії камери. Користувачі можуть визначати рухи камери вперед, назад, вліво, вправо або повороти через інтерфейс. Модель поєднує дані зображення та глибини з пам’яттю “світової кеш-пам’яті” для створення відеопослідовностей, що відображають заданий рух камери.

Серед основних обмежень моделей штучного інтелекту на основі архітектури Transformer є їхня здатність імітувати патерни, знайдені в навчальних даних. Для навчання Voyager дослідники використали понад 100,000 відеокліпів, включаючи комп’ютерно згенеровані сцени з Unreal Engine, вчачи модель імітувати, як камери рухаються в 3D-ігрових середовищах.