Проектировать бытовых роботов, чтобы у них было немного здравого смысла

  • Пользователь Алексей Коровин опубликовал
  • 26 марта 2024 г., 16:49:42 MSK
  • 0 комментариев
  • 19 просмотров
Инженеры стремятся наделить роботов толикой здравого смысла, когда они сталкиваются с ситуациями, которые сбивают их с намеченного пути, чтобы они могли самостоятельно исправлять ошибки и продолжать выполнять свою работу по дому. Метод команды связывает данные о движении роботов со знанием здравого смысла больших языковых моделей, или LLMS.

Роботов учат выполнять все более сложные домашние задачи - от вытирания пролитой воды до подачи еды. Многие такие домашние роботы-стажеры учатся с помощью имитации; они запрограммированы копировать движения, которыми физически руководит человек.

Оказывается, роботы - отличные имитаторы. Но если инженеры не запрограммируют их приспосабливаться ко всем возможным ударам и толчкам, роботы не обязательно будут знать, как справляться с подобными ситуациями, если не начинать выполнение своей задачи с самого начала.

Теперь инженеры Массачусетского технологического института стремятся наделить роботов толикой здравого смысла, когда они сталкиваются с ситуациями, которые сбивают их с намеченного пути. Они разработали метод, который связывает данные о движении роботов со "знанием здравого смысла" больших языковых моделей, или LLMS.

Их подход позволяет роботу логически разбирать множество заданных домашних задач на подзадачи и физически приспосабливаться к сбоям в рамках подзадачи, чтобы робот мог двигаться дальше без необходимости возвращаться и начинать задачу с нуля - и без необходимости инженерам явно программировать исправления для каждого возможного сбоя на этом пути.

"Имитационное обучение - это основной подход, позволяющий использовать бытовых роботов. Но если робот слепо имитирует траектории движения человека, могут накапливаться крошечные ошибки, которые в конечном итоге приведут к срыву остальной части выполнения", - говорит Янвэй Ван, аспирант кафедры электротехники и компьютерных наук Массачусетского технологического института (EECS). "С помощью нашего метода робот может самостоятельно исправлять ошибки при выполнении и повышать общий успех выполнения задачи".

Ван и его коллеги подробно описывают свой новый подход в исследовании, которое они представят на Международной конференции по обучению репрезентациям (ICLR) в мае. Соавторами исследования являются аспиранты EECS Цунь-Суан Ван и Цзяюань Мао, Майкл Хагеноу, постдок факультета аэронавтики и астронавтики Массачусетского технологического института (AeroAstro), и Джули Шах, профессор Х.Н. Слейтера по аэронавтике и астронавтике в Массачусетском технологическом институте.

Языковая задача

Исследователи иллюстрируют свой новый подход простой работой: зачерпывают шарики из одной чаши и пересыпают их в другую. Для выполнения этой задачи инженеры обычно перемещают робота, выполняя движения зачерпывания и пересыпания - все по одной траектории движения жидкости. Они могли бы проделать это несколько раз, чтобы дать роботу возможность имитировать ряд человеческих демонстраций.

"Но демонстрация на людях - это одна длинная непрерывная траектория", - говорит Ван.

Команда поняла, что, хотя человек может продемонстрировать выполнение одной задачи за один раз, эта задача зависит от последовательности подзадач, или траекторий. Например, робот должен сначала дотянуться до миски, прежде чем он сможет зачерпнуть, и он должен зачерпнуть шарики, прежде чем перейти к пустой миске, и так далее. Если робота подталкивают совершить ошибку во время выполнения любой из этих подзадач, его единственным выходом является остановка и запуск с самого начала, если только инженеры не должны были явно обозначить каждую подзадачу и запрограммировать или собрать новые демонстрации для робота, чтобы он мог восстановиться после указанного сбоя, чтобы робот мог самостоятельноправильно в данный момент.

"Такой уровень планирования очень утомителен", - говорит Ван.

Вместо этого он и его коллеги обнаружили, что часть этой работы может быть выполнена LLMS автоматически. Эти модели глубокого обучения обрабатывают огромные библиотеки текста, которые они используют для установления связей между словами, предложениями и абзацами. Благодаря этим связям магистр права может затем генерировать новые предложения, основываясь на том, что он узнал о типе слова, которое, вероятно, последует за последним.

Со своей стороны, исследователи обнаружили, что в дополнение к предложениям и абзацам LLM может быть предложено составить логический список подзадач, которые будут задействованы в данной задаче. Например, если запросить список действий, связанных с перекладыванием шариков из одной чаши в другую, LLM может выдать последовательность глаголов, таких как "достать", "зачерпнуть", "транспортировать" и "налить".

"У LLM есть способ рассказать вам, как выполнять каждый шаг задачи, на естественном языке. Непрерывная демонстрация человеком - это воплощение этих шагов в физическом пространстве", - говорит Ван. "И мы хотели соединить эти два фактора, чтобы робот автоматически знал, на какой стадии находится выполнение задачи, и мог самостоятельно перепланировать и восстановиться".

Картографические шарики

Для своего нового подхода команда разработала алгоритм, позволяющий автоматически связывать метку на естественном языке LLM для конкретной подзадачи с положением робота в физическом пространстве или изображением, кодирующим состояние робота. Сопоставление физических координат робота или изображения состояния робота с меткой на естественном языке известно как "заземление". Новый алгоритм команды разработан для изучения базового "классификатора", что означает, что он учится автоматически определять, в какой семантической подзадаче находится робот - например, "достичь" или "зачерпнуть" - учитывая его физические координаты или вид изображения.

"Классификатор заземления облегчает этот диалог между тем, что робот делает в физическом пространстве, и тем, что LLM знает о подзадачах, а также об ограничениях, на которые вы должны обращать внимание в рамках каждой подзадачи", - объясняет Ван.

Команда продемонстрировала этот подход в экспериментах с роботизированной рукой, которую они натренировали на задаче зачерпывания мрамора. Экспериментаторы обучали робота, физически направляя его в выполнении задачи: сначала дотянуться до чаши, зачерпнуть шарики, перенести их через пустую чашу и высыпать в нее. После нескольких демонстраций команда использовала предварительно обученный LLM и попросила модель перечислить шаги, связанные с перекладыванием шариков из одной чаши в другую. Затем исследователи использовали свой новый алгоритм, чтобы связать определенные LLM подзадачи с данными траектории движения робота. Алгоритм автоматически научился сопоставлять физические координаты робота в траекториях и соответствующий вид изображения с заданной подзадачей.

Затем команда позволила роботу самостоятельно выполнить задачу по зачерпыванию, используя недавно изученные классификаторы заземления. По мере того, как робот выполнял этапы задания, экспериментаторы подталкивали робота с его пути и сбивали шарики с его ложки в различных точках. Вместо того чтобы останавливаться и начинать все сначала или продолжать вслепую, не имея шариков на ложке, бот смог выполнить самокорректировку и выполнил каждую подзадачу, прежде чем перейти к следующей. (Например, он убедился бы, что успешно зачерпнул шарики, прежде чем переносить их в пустую чашу.)

"С помощью нашего метода, когда робот совершает ошибки, нам не нужно просить людей программировать или проводить дополнительные демонстрации того, как восстанавливаться после сбоев", - говорит Ван. "Это очень интересно, потому что сейчас прилагаются огромные усилия для обучения бытовых роботов данным, собранным в системах телеуправления. Теперь наш алгоритм может преобразовать эти обучающие данные в надежное поведение робота, способного выполнять сложные задачи, несмотря на внешние возмущения".

Комментарии

0 комментариев