Обучение ИИ с помощью человеческих взаимодействий вместо наборов данных

  • Пользователь Алексей Коровин опубликовал
  • 4 декабря 2024 г., 16:24:24 MSK
  • 0 комментариев
  • 12 просмотров
Исследователи разработали платформу, которая поможет ИИ научиться выполнять сложные задачи так, как это делают люди. Она называется "РУКОВОДСТВО" и позволяет людям наблюдать за действиями ИИ в режиме реального времени и обеспечивать постоянную обратную связь с учетом всех нюансов. Вместо того чтобы полагаться на огромные массивы данных, инструкторы-люди предлагают подробные рекомендации, способствующие постепенным улучшениям и более глубокому пониманию. В своем дебютном исследовании GUIDE помогает ИИ научиться наилучшим образом играть в прятки.

Во время вашего первого занятия по вождению инструктор, вероятно, сидел рядом с вами, давая незамедлительные советы по каждому повороту, остановке и незначительным корректировкам. Если бы это был кто-то из родителей, он, возможно, даже несколько раз хватался за руль и кричал "Тормози!". Со временем эти исправления и озарения развили опыт и интуицию, превратив вас в независимого и способного водителя.

Несмотря на то, что достижения в области искусственного интеллекта (ИИ) сделали самоуправляемые автомобили реальностью, методы обучения, используемые для их обучения, по-прежнему далеки от понимания даже самого нервного водителя, сидящего на боковом сиденье. Вместо нюансов и обучения в режиме реального времени искусственный интеллект учится в основном с помощью массивных наборов данных и обширного моделирования, независимо от области применения.

Теперь исследователи из Университета Дьюка и Армейской исследовательской лаборатории разработали платформу, которая поможет ИИ научиться выполнять сложные задачи, более похожие на человеческие. Платформа искусственного интеллекта, которую для краткости называют GUIDE, будет представлена на предстоящей конференции по нейронным системам обработки информации (NeurIPS 2024), которая пройдет 9-15 декабря в Ванкувере, Канада.

"ИИ по-прежнему сложно справляться с задачами, требующими быстрого принятия решений на основе ограниченной учебной информации", - пояснил Боюань Чен, профессор машиностроения и материаловедения, электротехники и вычислительной техники, а также компьютерных наук в Duke, где он также руководит лабораторией общей робототехники Duke.

"Существующие методы обучения часто ограничены из-за того, что они опираются на обширные ранее существовавшие наборы данных, а также из-за ограниченной адаптивности традиционных подходов с обратной связью", - сказал Чен. "Мы стремились преодолеть этот пробел, включив непрерывную обратную связь с людьми в режиме реального времени".

Функции управления позволяют людям наблюдать за действиями ИИ в режиме реального времени и обеспечивать постоянную обратную связь с учетом всех нюансов. Это похоже на то, как опытный тренер по вождению не просто кричит "налево" или "направо", а предлагает подробные рекомендации, способствующие постепенному улучшению и более глубокому пониманию.

В своем дебютном исследовании GUIDE помогает ИИ научиться наилучшим образом играть в прятки. В игре участвуют два игрока в форме жука, один красный, другой зеленый. Хотя оба игрока управляются компьютерами, только красный игрок работает над улучшением своего ИИ-контроллера.

Игра проходит на квадратном игровом поле с С-образным барьером в центре. Большая часть игрового поля остается черной и неизвестной до тех пор, пока красный искатель не войдет в новые области, чтобы показать, что там находится.

По мере того, как игрок red AI преследует другого, тренер-человек дает обратную связь о стратегии поиска. В то время как предыдущие попытки использовать такую стратегию обучения допускали только три варианта действий человека - хорошие, плохие или нейтральные - в GUIDE люди наводят курсор мыши на шкалу градиента, чтобы обеспечить обратную связь в режиме реального времени.

В эксперименте приняли участие 50 взрослых участников без предварительной подготовки или специальных знаний, что на сегодняшний день является самым масштабным исследованием в своем роде. Исследователи обнаружили, что всего 10 минут обратной связи с человеком привели к значительному улучшению работы искусственного интеллекта. РУКОВОДСТВО добилось увеличения показателей успешности до 30% по сравнению с современными методами обучения с подкреплением, управляемыми человеком.

"Эти убедительные количественные и качественные данные подчеркивают эффективность нашего подхода", - сказал Лингю Чжан, ведущий автор и аспирант первого курса лаборатории Чена. "Это показывает, как GUIDE может повысить адаптивность, помогая ИИ самостоятельно ориентироваться и реагировать на сложные, динамичные условия".

Исследователи также продемонстрировали, что инструкторы-люди действительно нужны только на короткий период времени. После того, как участники предоставили свои отзывы, команда создала искусственный интеллект-тренажер, основанный на их мнениях в рамках конкретных сценариев в определенные моменты времени. Это позволяет ИИ seeker непрерывно тренироваться еще долгое время после того, как человек устанет помогать ему в обучении. Обучение "тренера" ИИ, который не так хорош, как ИИ, которого он тренирует, может показаться нелогичным, но, как объясняет Чен, на самом деле это очень по-человечески.

"Несмотря на то, что кому-то очень трудно справиться с определенной задачей, для кого-то не так уж сложно судить о том, становится ли он лучше в этом", - сказал Чен. "Многие тренеры могут направлять игроков на чемпионаты, не будучи сами чемпионами".

Еще одним интересным направлением для GUIDE является изучение индивидуальных различий между людьми-тренерами. Когнитивные тесты, проведенные для всех 50 участников, показали, что определенные способности, такие как пространственное мышление и быстрое принятие решений, значительно влияют на то, насколько эффективно человек может управлять ИИ. Эти результаты высвечивают интригующие возможности, такие как развитие этих способностей с помощью целенаправленного обучения и выявление других факторов, которые могут способствовать успешному управлению с помощью искусственного интеллекта.

Эти вопросы указывают на захватывающий потенциал для разработки более адаптивных систем обучения, которые ориентированы не только на обучение ИИ, но и на расширение возможностей человека для формирования будущих команд человек-ИИ. Отвечая на эти вопросы, исследователи надеются создать будущее, в котором ИИ будет обучаться не только более эффективно, но и более интуитивно, устраняя разрыв между человеческой интуицией и машинным обучением и позволяя ИИ работать более автономно в условиях ограниченной информации.

"По мере того как технологии искусственного интеллекта становятся все более распространенными, крайне важно разрабатывать системы, которые были бы интуитивно понятны и доступны обычным пользователям", - сказал Чен. "РУКОВОДСТВО открывает путь к созданию более умного и отзывчивого ИИ, способного автономно функционировать в динамичных и непредсказуемых средах".

Команда планирует будущие исследования, которые будут включать в себя различные коммуникационные сигналы с использованием языка, мимики, жестов рук и многого другого, чтобы создать более всеобъемлющую и интуитивно понятную структуру, позволяющую ИИ извлекать уроки из человеческих взаимодействий. Их работа является частью миссии лаборатории по созданию интеллектуальных систем нового уровня, которые совместно с людьми будут решать задачи, которые ни искусственный интеллект, ни люди в одиночку решить не смогут.

Эта работа частично поддерживается Армейской исследовательской лабораторией (W911NF2320182, W911NF2220113).

Комментарии

0 комментариев