Более быстрый и совершенный способ обучения роботов общего назначения

  • Пользователь Алексей Коровин опубликовал
  • 31 октября 2024 г., 14:28:35 MSK
  • 0 комментариев
  • 47 просмотров
Вдохновленные большими языковыми моделями, исследователи разработали методику обучения, которая объединяет разнообразные данные для обучения роботов новым навыкам.

В классическом мультфильме "Джетсоны" робот-горничная Рози легко переключается с уборки дома пылесосом на приготовление ужина и вынос мусора. Но в реальной жизни обучение робота общего назначения остается серьезной проблемой.

Как правило, инженеры собирают данные, относящиеся к определенному роботу и задаче, которые они используют для обучения робота в контролируемой среде. Однако сбор этих данных является дорогостоящим и трудоемким процессом, и роботу, скорее всего, будет сложно адаптироваться к среде или задачам, с которыми он ранее не сталкивался.

Чтобы лучше обучать роботов общего назначения, исследователи Массачусетского технологического института разработали универсальную методику, которая объединяет огромное количество разнородных данных из многих источников в единую систему, способную обучить любого робота широкому спектру задач.

Их метод включает в себя согласование данных из различных областей, таких как моделирование и реальные роботы, а также различных средств, включая датчики зрения и датчики положения роботизированной руки, на общем "языке", который может обрабатывать генеративная модель искусственного интеллекта.

Объединяя такой огромный объем данных, этот подход может быть использован для обучения робота выполнению различных задач без необходимости каждый раз начинать его обучение с нуля.

Этот метод может быть более быстрым и менее дорогостоящим, чем традиционные методы, поскольку требует гораздо меньше данных, относящихся к конкретной задаче. Кроме того, он более чем на 20% превосходит обучение с нуля при моделировании и проведении реальных экспериментов.

"В робототехнике люди часто утверждают, что у нас недостаточно данных для обучения. Но, на мой взгляд, еще одна большая проблема заключается в том, что данные поступают из множества различных областей, модальностей и аппаратного обеспечения роботов. Наша работа показывает, как можно обучить робота, используя все это вместе", - говорит Лируи Ванг, аспирант кафедры электротехники и компьютерных наук (EECS) и ведущий автор статьи, посвященной этой методике.

Среди соавторов Вана - аспирант EECS Цзялянг Чжао (Jialiang Zhao), Синлэй Чен (Xinlei Chen), научный сотрудник Meta, и старший автор Каймин Хэ (Kaiming He), доцент EECS и сотрудник Лаборатории компьютерных наук и искусственного интеллекта (CSAIL). Результаты исследования будут представлены на конференции по нейронным системам обработки информации.

Вдохновленный LLMs

Роботизированная "политика" использует данные датчиков, такие как изображения с камер или проприоцептивные измерения, которые отслеживают скорость и положение роботизированной руки, а затем сообщают роботу, как и куда двигаться.

Политики обычно обучаются с использованием имитационного обучения, то есть человек демонстрирует действия или телеуправляет роботом для генерации данных, которые вводятся в модель искусственного интеллекта, которая изучает политику. Поскольку этот метод использует небольшое количество данных, относящихся к конкретной задаче, роботы часто выходят из строя, когда меняется их окружение или задача.

Чтобы разработать более совершенный подход, Ван и его коллеги черпали вдохновение в таких крупных языковых моделях, как GPT-4.

Эти модели предварительно обучаются с использованием огромного количества разнообразных языковых данных, а затем дорабатываются путем добавления небольшого количества данных, относящихся к конкретной задаче. Предварительное обучение на таком большом количестве данных помогает моделям адаптироваться для выполнения различных задач.

"В языковой сфере все данные - это просто предложения. В робототехнике, учитывая всю разнородность данных, если вы хотите проводить предварительное обучение аналогичным образом, нам нужна другая архитектура", - говорит он.

Роботизированные данные могут принимать различные формы - от изображений с камеры до языковых инструкций и карт глубины. В то же время каждый робот уникален с точки зрения механики, у него разное количество и ориентация рук, захватов и датчиков. Кроме того, условия, в которых собираются данные, сильно различаются.

Исследователи Массачусетского технологического института разработали новую архитектуру под названием Heterogeneous Pretrained Transformers (HPT), которая объединяет данные из этих различных модальностей и областей.

В основу своей архитектуры они поместили модель машинного обучения, известную как transformer, которая обрабатывает зрительные и проприоцептивные сигналы. Transformer - это модель того же типа, которая составляет основу больших языковых моделей.

Исследователи преобразуют данные, полученные от органов зрения и проприоцепции, в один и тот же тип входных данных, называемый токеном, который может обрабатывать преобразователь. Каждый вход представлен одним и тем же фиксированным количеством токенов.

Затем преобразователь отображает все входные данные в одном общем пространстве, превращаясь в огромную, предварительно обученную модель по мере обработки большего количества данных и обучения на их основе. Чем больше становится преобразователь, тем лучше он будет работать.

Пользователю нужно всего лишь предоставить HPT небольшой объем данных о конструкции, настройках и задаче, которую он хочет, чтобы робот выполнял. Затем HPT передает знания, полученные трансформером во время предварительной подготовки, для изучения новой задачи.

Обеспечение ловких движений

Одной из самых сложных задач при разработке HPT было создание массивного набора данных для предварительной подготовки трансформера, который включал 52 набора данных с более чем 200 000 траекторий движения робота в четырех категориях, включая демонстрационные видеоролики с участием человека и моделирование.

Исследователям также необходимо было разработать эффективный способ преобразования необработанных проприоцептивных сигналов от множества датчиков в данные, с которыми мог бы справиться трансформатор.

"Проприоцепция является ключом к выполнению множества ловких движений. Поскольку количество маркеров в нашей архитектуре всегда одинаковое, мы придаем одинаковое значение проприоцепции и зрению", - объясняет Ванг.

Когда они тестировали HPT, производительность робота при выполнении имитационных и реальных задач повышалась более чем на 20% по сравнению с обучением с нуля. Даже когда задача сильно отличалась от данных, полученных до обучения, HPT все равно повышал производительность.

В будущем исследователи хотят изучить, как разнообразие данных может повысить производительность HPT. Они также хотят усовершенствовать HPT, чтобы он мог обрабатывать немаркированные данные, такие как GPT-4 и другие крупные языковые модели.

"Наша мечта - создать универсальный роботизированный мозг, который вы могли бы загрузить и использовать для своего робота без какой-либо подготовки. Пока мы находимся только на ранних стадиях, мы собираемся продолжать упорно работать и надеемся, что масштабирование приведет к прорыву в роботизированной политике, как это произошло с большими языковыми моделями", - говорит он.

Комментарии

0 комментариев