В создании визуального контента, который отвечает нуждам пользователя, часто требуется гибкое и точное управление позой, формой, выражением и компоновкой сгенерированных объектов. В данной работе исследуется более эффективный и малоизученный способ управления GAN, позволяющий "перетаскивать" любые точки изображения для точного достижения целевых точек в интерактивном режиме. Для этого предлагается DragGAN, состоящий из двух основных компонентов: 1) контроль движения на основе признаков, который направляет контрольную точку к целевой позиции, и 2) новый подход к отслеживанию точек, использующий дискриминативные признаки GAN для определения позиции контрольных точек.
С помощью DragGAN, любой может деформировать изображение с точным контролем над перемещением пикселей, тем самым меняя позу, форму, выражение и компоновку различных категорий, таких как животные, автомобили, люди, пейзажи и т.д. Поскольку эти манипуляции выполняются на обученном генеративном изображении GAN, они способны создавать реалистичные результаты даже в сложных сценариях, таких как воссоздание закрытого контента и деформация форм, которые последовательно следуют за жесткостью объекта.