Новый метод повышает эффективность систем искусственного интеллекта "vision transformer"

  • Пользователь Алексей Коровин опубликовал
  • 5 июня 2023 г., 14:58:58 MSK
  • 0 комментариев
  • 36 просмотров
Vision transformers (ViTs) - это мощные технологии искусственного интеллекта (ИИ), которые могут идентифицировать или классифицировать объекты на изображениях, однако существуют значительные проблемы, связанные как с требованиями к вычислительной мощности, так и с прозрачностью принятия решений. В настоящее время исследователи разработали новую методологию, которая решает обе проблемы, а также улучшает способность ViT идентифицировать, классифицировать и сегментировать объекты на изображениях.

Vision transformers (ViTs) - это мощные технологии искусственного интеллекта (ИИ), которые могут идентифицировать или классифицировать объекты на изображениях, однако существуют значительные проблемы, связанные как с требованиями к вычислительной мощности, так и с прозрачностью принятия решений. В настоящее время исследователи разработали новую методологию, которая решает обе проблемы, а также улучшает способность ViT идентифицировать, классифицировать и сегментировать объекты на изображениях.

Трансформеры - одни из самых мощных существующих моделей искусственного интеллекта. Например, ChatGPT - это искусственный интеллект, который использует архитектуру transformer, но входные данные, используемые для его обучения, являются языковыми. ViTs - это искусственный интеллект на основе трансформаторов, который обучается с использованием визуальных входных данных. Например, VITS можно было бы использовать для обнаружения и категоризации объектов на изображении, например, для идентификации всех автомобилей или всех пешеходов на изображении.

Однако ViTs сталкиваются с двумя проблемами.

Во-первых, модели трансформаторов очень сложны. По сравнению с объемом данных, подключаемых к искусственному интеллекту, модели transformer требуют значительных вычислительных мощностей и используют большой объем памяти. Это особенно проблематично для ViTs, поскольку изображения содержат очень много данных.

Во-вторых, пользователям трудно точно понять, как ViTs принимают решения. Например, вы могли бы обучить ViT распознавать собак на изображении. Но не совсем ясно, как ViT определяет, что является собакой, а что нет. В зависимости от приложения понимание процесса принятия решений ViT, также известного как интерпретируемость его модели, может быть очень важным.

Новая методология ViT, получившая название "Внимание от участка к кластеру" (PaCa), решает обе проблемы.

"Мы решаем проблему, связанную с требованиями к вычислительной мощности и памяти, используя методы кластеризации, которые позволяют архитектуре transformer лучше идентифицировать объекты на изображении и фокусироваться на них", - говорит Тяньфу Ву, автор статьи о работе и доцент кафедры электротехники и вычислительной техники в Университете штата Северная Каролина. "Кластеризация - это когда искусственный интеллект объединяет фрагменты изображения вместе, основываясь на сходствах, которые он находит в данных изображения. Это значительно снижает вычислительные требования к системе. Перед кластеризацией вычислительные требования к ViT являются квадратичными. Например, если система разбивает изображение на 100 более мелких блоков, ей нужно будет сравнить все 100 блоков друг с другом, что составило бы 10 000 сложных функций.

"С помощью кластеризации мы можем сделать этот процесс линейным, где каждую меньшую единицу нужно только сравнить с заранее определенным количеством кластеров. Допустим, вы приказываете системе создать 10 кластеров; это будет всего лишь 1000 сложных функций", - говорит Ву.

"Кластеризация также позволяет нам повысить интерпретируемость модели, потому что мы можем посмотреть на то, как она создавала кластеры в первую очередь. Какие функции, по его мнению, были важны при объединении этих разделов данных? И поскольку искусственный интеллект создает лишь небольшое количество кластеров, мы можем довольно легко просмотреть их ".

Исследователи провели всестороннее тестирование PaCa, сравнив его с двумя самыми современными препаратами под названием SWin и PVT.

"Мы обнаружили, что PaCa превзошла SWin и PVT во всех отношениях", - говорит Ву. "PaCa лучше классифицировала объекты на изображениях, лучше идентифицировала объекты на изображениях и лучше справлялась с сегментацией - по сути, очерчивая границы объектов на изображениях. Он также был более эффективным, а это означало, что он мог выполнять эти задачи быстрее, чем другие VITS.

"Следующим шагом для нас является расширение масштабов PaCa путем обучения на более крупных базисных наборах данных".

Статья "PaCa-ViT: Обучение обращению внимания от патча к кластеру в Vision Transformers" будет представлена на конференции IEEE/CVF по компьютерному зрению и распознаванию образов, которая состоится 18-22 июня в Ванкувере, Канада. Первым автором статьи является Райан Грейнджер, аспирант университета Северной Каролины. Статья была написана в соавторстве Томасом Паниагуа, аспирантом университета Северной Каролины; Си Сонгом, независимым исследователем; и Нарешем Кунтуром и Мун Вай Ли из BlueHalo.

Работа была выполнена при поддержке Управления директора национальной разведки по контракту № 2021-21040700003; Исследовательского управления армии США по грантам W911NF1810295 и W911NF2210010; и Национального научного фонда по грантам 1909644, 1822477, 2024688 и 2013451.

Комментарии

0 комментариев