Исследователи Facebook, Технологического института Джорджии и Орегонского государственного университета описывают в статье, опубликованной на этой неделе, новое задание для искусственного интеллекта – навигацию в трехмерной среде с прослушиванием указаний на естественном языке (например, «Идите по коридору и поворачивайте налево к деревянному столу»). Они утверждают, что это может заложить основу для помощников роботов, которые следуют инструкциям на естественном языке.

Задача исследователей, которую они называют зрительно-языковой навигацией в непрерывных средах (VLN-CE), происходит в симуляторе Facebook – Habitat, который может обучать агентов ИИ работать в настройках, имитирующих реальные среды, пишет Venturebeat. Агенты, представленные цилиндрами высотой 1,5 метра диаметром 20 сантиметров, размещаются во внутренностях, полученных из набора данных Matterport3D, представляющего собой коллекцию из 90 сред, захваченных с помощью более 10 800 панорам и соответствующих трехмерных сеток. Агенты должны выполнить одно из четырех действий (продвинуться на 25 сантиметров, повернуть влево или вправо на 15 градусов или остановиться на позиции цели) вдоль пути и научиться избегать застревания в препятствиях, таких как стулья и столы.

Команда разделила окружающую среду на 4475 траекторий, состоящих из 4-6 узлов, что соответствовало 360-градусным панорамным снимкам.

Исследователи утверждают, что в экспериментах наиболее эффективные агенты могли следовать инструкциям, таким как «Поверните налево и войдите в коридор». Однако они требовали, чтобы агенты поворачивали неизвестное количество раз, пока не заметят визуальные ориентиры. Приблизительно в каждом третьем случае они достигали цели в невидимых условиях, выполняя в среднем 88 действий.

Читайте также: Python: тред о плюсах и минусах языка

Между тем, агенты иногда терпели неудачу. По словам соавторов, сбои часто были результатом того, что роботы визуально пропускали объекты, упомянутые в инструкциях.

«Важно отметить, что VLN-CE… предоставляет [исследовательскому] сообществу испытательный стенд, на котором возможны подобные интегративные эксперименты, изучающие интерфейс управления высокого и низкого уровня», – пишут соавторы.

Напомним, компания Facebook в 2018 году открыла ИИ, который может перемещаться по улицам Нью-Йорка с помощью изображений с 360-градусным обзором.