Робот-пёс Spot от Boston Dynamics теперь может «играть в апорт».

Робот-пёс Spot от Boston Dynamics теперь может «играть в апорт».

1 мин


В будущем роботы, напоминающие собак (вроде робота Spot), смогут научиться играть в «апорт» благодаря сочетанию искусственного интеллекта (ИИ) и компьютерного зрения, которое помогает им фокусироваться на нужных объектах.

В новом исследовании, опубликованном 10 октября в журнале IEEE Robotics and Automation Letters, учёные разработали метод под названием «Clio». Он позволяет роботам с помощью камер, установленных на корпусе, быстро составлять карту окружающего пространства и выявлять самые важные объекты для выполнения задания, полученного по голосовой команде.

Робот-пёс Spot от Boston Dynamics теперь может «играть в апорт».
Изображение: Andy Ryan

Clio использует теорию «информационного узкого места», при которой информация сжимается так, чтобы нейронная сеть — система машинного обучения, имитирующая работу человеческого мозга — выбирала и сохраняла только релевантные сегменты. Робот, оснащённый этой системой, сможет воспринимать команды, например, «принеси аптечку», и будет анализировать лишь те части окружения, которые имеют отношение к задаче, игнорируя всё остальное.

«Например, представьте, что в поле зрения находится куча книг, а моя задача — взять только зеленую книгу. В этом случае мы пропускаем всю информацию о сцене через это узкое место, и в итоге у нас остается кластер сегментов, представляющих зеленую книгу, — объяснил в пресс-релизе соавтор исследования Доминик Маджио (Dominic Maggio), аспирант MIT (Massachusetts Institute of Technology). — Все остальные сегменты, не имеющие отношения к задаче, просто объединяются в отдельный кластер, который мы можем легко исключить. И в итоге у нас остается объект с нужной степенью детализации, необходимой для выполнения задачи.»

Чтобы продемонстрировать работу Clio, исследователи использовали робота Spot от Boston Dynamics, который с помощью Clio исследовал офисное здание и выполнял ряд заданий. В реальном времени Clio создавал виртуальную карту, отображая только те объекты, которые были важны для выполнения задач, что позволяло Spot эффективно достигать своих целей.

Видеть, понимать, действовать

Исследователи добились такой точности работы Clio, объединив крупные языковые модели (LLMs) — несколько нейронных сетей, которые составляют основу ИИ-инструментов, систем и сервисов — с компьютерным зрением.

Нейронные сети значительно продвинулись в точном определении объектов в локальных или виртуальных средах, но эти среды часто тщательно контролируются и содержат ограниченное количество объектов, которые робот или система ИИ заранее обучены распознавать. Прорыв, который обеспечивает Clio, заключается в способности выбирать в реальном времени именно те объекты, которые актуальны для конкретной задачи.

Ключевым элементом Clio стала интеграция инструмента картографирования, который позволяет разбивать сцену на множество мелких сегментов. Затем нейронная сеть выделяет сегменты, которые семантически похожи — то есть выполняют ту же функцию или представляют схожие объекты.

Фактически, идея заключается в создании роботов на базе ИИ, которые могут интуитивно и избирательно принимать решения, ориентированные на конкретные задачи в реальном времени, вместо того чтобы сначала обрабатывать всю сцену или окружающую среду.

В будущем исследователи планируют адаптировать Clio для выполнения более сложных задач.

«Мы пока даем Clio довольно конкретные задания, например, «найти колоду карт», — пояснил Маджио. — Для поиска и спасения понадобятся задания более высокого уровня, такие как «найти выживших» или «восстановить подачу электроэнергии». Поэтому, чтобы справляться с более комплексными задачами, мы хотим приблизить Clio к человеческому уровню понимания.»

В любом случае, Clio может стать ключом к созданию роботов-собак, которые действительно смогут играть в «апорт» — вне зависимости от того, в каком парке они бегают.


Понравилось? Поделитесь с друзьями!

Комментарии

- комментариев

Включить уведомления Да Спасибо, не надо