Главная Технологическая индустрия DrEureka от Nvidia превосходит людей в обучении ро...

DrEureka от Nvidia превосходит людей в обучении робототехнических систем

Большие языковые модели (LLM) могут ускорить обучение робототехнических систем сверхчеловеческим способом, говорится в новом исследовании ученых из Nvidia, Пенсильванского университета и Техасского университета в Остине.

В исследовании представлена технология DrEureka, позволяющая автоматически создавать функции вознаграждения и распределения рандомизации для робототехнических систем. DrEureka расшифровывается как Domain Randomization Eureka. DrEureka требует только высокоуровневого описания целевой задачи и быстрее и эффективнее, чем разработанные человеком вознаграждения, переносит выученные политики из симулированной среды в реальный мир.

Это может иметь огромное значение для быстро развивающегося мира робототехники, который в последнее время получил новый толчок к развитию благодаря достижениям в области языковых и зрительных моделей.При разработке робототехнических моделей для решения новых задач обычно проводится обучение в симулированной среде, а затем они внедряются в реальный мир. Разница между симуляцией и реальной средой, называемая «разрывом между симуляцией и реальностью», является одной из главных проблем любой робототехнической системы. Конфигурирование и тонкая настройка политики для достижения оптимальной производительности обычно требуют переключения между симуляцией и реальной средой.Недавние работы показали, что LLM могут объединить свои обширные знания о мире и способность рассуждать с физическими движками виртуальных симуляторов для обучения сложным низкоуровневым навыкам. Например, LLM можно использовать для разработки функций вознаграждения - компонентов, которые направляют робототехническую систему обучения с подкреплением (RL) на поиск правильных последовательностей действий для выполнения поставленной задачи.

Однако после того, как политика выучена в симуляции, ее перенос в реальный мир требует много ручной настройки функций вознаграждения и параметров симуляции. DrEureka основана на технологии Eureka, которая была представлена в октябре 2023 года. Eureka берет описание роботизированной задачи и использует LLM для генерации программных реализаций функций вознаграждения, которые измеряют успех в выполнении задачи. Затем эти функции вознаграждения запускаются в симуляции, и результаты возвращаются в LLM, который анализирует результат и изменяет его в соответствии с функцией вознаграждения. Преимущество этой техники в том, что она может выполняться параллельно с сотнями функций вознаграждения, генерируемых LLM. Затем он может выбрать лучшие функции и продолжить их совершенствование.

Хотя функции вознаграждения Eureka отлично подходят для обучения RL-политик в симуляции, они не учитывают беспорядочность реального мира и поэтому требуют ручного переноса из симуляции в реальность. DrEureka устраняет этот недостаток, автоматически настраивая параметры рандомизации домена (DR).

Методы DR рандомизируют физические параметры среды моделирования таким образом, чтобы политика RL могла обобщать непредсказуемые возмущения, с которыми она встречается в реальном мире. Одной из важных задач DR является выбор правильных параметров и диапазона возмущений. Настройка параметров требует здравого физического смысла и знания целевого робота.«Эти особенности проектирования параметров ДР делают его идеальной задачей для LLM, поскольку они хорошо разбираются в физических знаниях и эффективно генерируют гипотезы, обеспечивая хорошие инициализации для сложных задач поиска и оптимизации „черного ящика“ в нулевой манере», - пишут исследователи.