Дополненная реальность (AR) стала горячей темой в индустрии развлечений, моды и макияжа. Хотя в этих областях существует несколько различных технологий, динамическое картографирование проекции лица (DFPM) является одной из самых сложных и визуально ошеломляющих. Вкратце, DFPM заключается в проецировании динамических визуальных эффектов на лицо человека в режиме реального времени с использованием расширенного отслеживания лиц, чтобы обеспечить плавную адаптацию проекций к движениям и выражениям лица.
Хотя в идеале воображение должно быть единственным, что ограничивает возможности DFPM в дополненной реальности, этому подходу препятствуют технические проблемы. Проецирование визуальных элементов на движущееся лицо подразумевает, что система DFPM может распознавать черты лица пользователя, такие как глаза, нос и рот, менее чем за миллисекунду. Даже незначительные задержки в обработке или незначительные расхождения между координатами изображения камеры и проектора могут привести к ошибкам проекции - или "артефактам рассогласования", - которые могут заметить зрители, нарушая погружение.
На этом фоне исследовательская группа из Токийского института науки, Япония, задалась целью найти решения существующих проблем в DFPM. Возглавляемая доцентом Йошихиро Ватанабе, а также аспирантом г-ном Хаолун Пенгом, команда внедрила ряд инновационных стратегий и методов и объединила их в современную высокоскоростную систему DFPM. Их выводы были опубликованы в журнале IEEE Transactions on Visualization and Computer Graphics 17 января 2025 года.
Во-первых, исследователи разработали гибридную технику под названием "высокоскоростной метод отслеживания лиц", которая сочетает в себе два различных параллельных подхода для обнаружения лицевых ориентиров в режиме реального времени. С одной стороны, они использовали метод, называемый ансамблем деревьев регрессии (ERT), для реализации быстрого обнаружения. Они также внедрили способ эффективной обрезки входящих изображений до лица пользователя, чтобы быстрее обнаруживать ориентиры; они достигли этого, используя временную информацию из предыдущих кадров, чтобы ограничить "область поиска". Чтобы помочь обнаружению на основе ERT восстанавливаться после ошибок или сложных ситуаций, они объединили его с более медленным вспомогательным методом, который обеспечивает высокую точность при меньшей скорости.
Используя эту оригинальную стратегию, исследователи достигли беспрецедентной скорости в DFPM. "Объединив результаты высокоточного, но медленного обнаружения и низкоточных, но быстрых методов обнаружения параллельно и компенсировав временные расхождения, мы достигли высокой скорости выполнения всего за 0,107 миллисекунды при сохранении высокой точности", - подчеркивает Ватанабе.
Команда также решила насущную проблему: ограниченную доступность наборов видеоданных о движениях лица для обучения моделей. Они создали инновационный метод имитации аннотаций к видео с высокой частотой кадров, используя существующие наборы данных о лицах неподвижных изображений. Это позволило их алгоритмам правильно изучать информацию о движении при высокой частоте кадров.
Наконец, исследователи предложили коаксиальную установку проектора и камеры со сдвигом объектива, чтобы помочь свести к минимуму артефакты выравнивания. "Механизм сдвига объектива, встроенный в оптическую систему камеры, выравнивает ее по направленной вверх проекции оптической системы проектора, что приводит к более точному выравниванию координат", - объясняет Ватанабе. Таким образом, команда добилась высокого оптического выравнивания с погрешностью всего в 1,274 пикселя для пользователей, находящихся на глубине от 1 до 2 метров.
В целом, различные методы, разработанные в этом исследовании, помогут продвинуть область DFPM вперед, что приведет к более убедительным и гиперреалистичным эффектам, которые преобразят выступления, показы мод и художественные презентации.
Комментарии