В настоящее время все большее развитие получают мобильные интеллектуальные роботы, которые могут самостоятельно ориентироваться в окружающем пространстве и принимать решения на основе полученных данных. В таких устройствах для систем позиционирования и навигации применяют мультимодальные карты.
Эти карты сохраняют и обрабатывают информацию об окружающей среде в разных модальностях. Например, каждый объект в машинном «мировосприятии» может быть описан одновременно с помощью изображений, текста, цвета, звука, а также посредством определения его отношения к другим объектам. Это позволяет устройствам лучше ориентироваться и выполнять сложные задачи.
Анализу современных методов создания мультимодальных 3D-карт посвящено исследование Дмитрия Юдина, заведующего лабораторией интеллектуального транспорта Центра когнитивного моделирования МФТИ. Работа выполнена при поддержке Российского научного фонда. Статья опубликована в Докладах Российской Академии Наук по отделению математики, информатики и процессов управления (Том 520 (2), 2024 год).
В работе приведен анализ подходов, которые используют запросы к интеллектуальным машинам на естественном языке. В исследовании ученый предлагает разделить их на две категории: плотные и разреженные. Первая группа объединяет методы, которые детально описывают объекты окружающего пространства. К ним, в частности, относятся способы на основе таких представлений, как облака точек, воксельные сетки («воксель» — объемный пиксель), нейронные поля яркости или Гауссовский сплатинг. В свою очередь разреженные методы представляют окружающее пространство схематически, что упрощает вычисления. Например, такие подходы могут опираться на иерархию объектов, на графы объектов или на онтологии.
Как объяснил ученый, согласно результатам тестирования, приведенным в статье, плотные методы, например Open-Fusion, демонстрируют высокую точность при выполнении простых запросов, в то время как разреженные методы, такие как BBQ-Deductive, лучше справляются со сложными вопросами, которые особенно важны для управления современными роботами. Плотные методы также сложно масштабировать на большие пространства, поскольку они требуют сохранения очень большого количества информации на карте.
«Новизна исследования заключается в систематизации современных подходов к построению мультимодальных карт и формировании рекомендаций по их использованию в робототехнике. При этом отмечено, что разреженные карты в виде графов сцены наиболее компактны и эффективны для навигации до объектов, задаваемых пользователем на естественном языке», — пояснил Дмитрий Юдин.
Вместе с тем, добавил он, плотные методы построения карт больше пригодны для трехмерной реконструкции сцены и ее дальнейшей загрузки в фотореалистичные симуляторы. В них модели роботов можно обучать без применения дорогих натурных экспериментов, а затем переносить результаты в реальный мир. В то же время разреженные методы полезнее на борту робота в связке с моделями, которые должны им управлять.
«Результаты исследования демонстрируют, например, преимущество представления мультимодальных карт в виде графов. Мы сейчас активно развиваем этот подход совместно с Центром Робототехники Сбера. Наша совместная статья по применению карт такого рода BeyonBareQueries была принята на ведущую роботехническую конференцию ICRA2025», — сообщил Дмитрий Юдин.
В статье также отмечены ограничения для представленных методов. В частности, по мнению автора, при обработке данных интеллектуальными системами возникают сложности с динамичными (изменяющимися) сценами и уличным пространством. Поэтому дальнейшее развитие требует совершенствования технологий адаптации различных типов данных.
Еще одно узкое место современных мультимодальных карт — в необходимости обращаться то к одному, то к другому типу методов. Из-за чего приходится жертвовать либо скоростью, либо гибкостью машинного «мышления». Поиск универсальных решений для обработки разноформатной информации — перспективное направление исследований, отметил ученый.