Пассивный акустический мониторинг — один из наиболее эффективных современных методов исследования популяций морских млекопитающих. Он позволяет оценить встречаемость животных и характер использования ими исследуемых акваторий. Однако большие объемы данных, получаемые в ходе мониторинга, значительно осложняют их оперативных анализ. Для оптимизации этого трудоемкого процесса ученые Института океанологии им. П. П. Ширшова РАН и МФТИ разработали нейросетевой алгоритм обнаружения тональных сигналов китообразных в подводных звукозаписях. Результат работы опубликован в журнале Moscow University Physics Bulletin.
Китообразные, к которым относятся, например, киты, дельфины и морские свиньи, играют важную и прежде всего стабилизирующую роль в функционировании морских экосистем. Регулярная оценка их численности, возрастно-половой структуры популяций, определение путей миграций, а также выявление связи распределения китообразных с условиями окружающей среды имеют решающее значение для исследований. Однако визуальный мониторинг морских млекопитающих чрезвычайно трудоемок, затратен и зачастую довольно жестко ограничен погодными условиями. В связи с этим в последние десятилетия широкое распространение получает пассивный акустический мониторинг — альтернативный метод изучения встречаемости и распределения морских млекопитающих, лишенный ряда существенных недостатков визуальных методов учета и наблюдений.
Акустические сигналы большинства видов зубатых китообразных можно разделить на две большие категории: эхолокационные щелчки и тональные сигналы или свисты. Тональные сигналы менее направлены и не столь быстро затухают при распространении в воде из-за более низких частот, но, с другой стороны, они гораздо более изменчивы, чем щелчки, и требует более сложных алгоритмов для обнаружения и классификации. В итоге первое исследование ученые посвятили обнаружению только тональных сигналов.
«За время наблюдений Институт океанологии собрал большую фонотеку подводных акустических записей, для обработки которых требуется новый универсальный метод автоматического обнаружения сигналов. С этой целью мы обучили нейросеть находить звуки черноморских дельфинов на подводных аудиозаписях. Почему возникла необходимость в их применении? Дело в том, что метод пассивного акустического мониторинга имеет некоторые ограничения. В удобной для исследований акватории устанавливается подводный микрофон — гидрофон. Там же активно плавают китообразные, выясняя, где вкусно, а где весело, тепло или, наоборот, прохладно, но в целом они не привязаны к гидрофону и, как следствие, звуки на аудиозаписи появляются очень редко — раз в 3–4 дня, а иногда в 10–20 дней. И здесь возникает вопрос, как найти надежный способ обнаружения сигналов дельфинов, чтобы не тратить несколько дней на прослушивание, а запустить автоматический алгоритм поиска», — рассказал о проекте Михаил Криницкий, старший научный сотрудник Института океанологии им. П. П. Ширшова РАН и заведующий лабораторией машинного обучения в науках о Земле МФТИ.
Для обнаружения сигналов морских млекопитающих в данных подводных аудиозаписей уже существуют классические алгоритмы, основанные на пороговых значениях, по энтропии в звуке или заданному соотношению «сигнал — шум», но у всех них есть свои недостатки. Гидрофоны обычно устанавливаются в не слишком удаленных местах, в активно используемых человеком акваториях. В итоге шумовое загрязнение присутствует на записях очень часто. С резким ростом популярности нейронных сетей для решения задач такого типа все чаще используются сверточные нейронные сети. Эти модели автоматически учатся извлекать нужные закономерности в данных без необходимости вручную настраивать необходимые для этого вычисления. При этом применение более сложных архитектур обычно повышает способность правильного обнаружения и снижает частоту ложных срабатываний. Результаты современных исследований показывают, что сверточные нейронные сети способны с высокой точностью обнаруживать сигналы даже в зашумленных аудиозаписях.
Модель ученых основана на сверточной нейронной сети архитектуры ResNet152. Потенциально нейросеть может анализировать записи, учитывая множество нюансов, но сначала ее нужно ознакомить со звуками, издаваемыми дельфинами. Модель обучалась на коротких участках спектрограмм различной длины, извлеченных из длинных записей, содержащих свисты дельфинов. Эти тональные сигналы изменяются в рамках определенного диапазона частот, и они проще всего дались нейросети. После обучения она их обнаруживает с очень высокой точностью.
Всего база данных для обучения состояла из девяти аудиофайлов. Записи содержали 3208 сигналов дельфинов, размеченных экспертами. Данные подвергались полосовой фильтрации в диапазоне частот 5–45 кГц, в котором обычно содержатся сигналы дельфинов рода афалин. Спектрограммы рассчитывались с использованием оконного преобразования Фурье.
Анализ показателей производительности и точности в определении сигналов показал превосходство нейросетевой модели по сравнению с широко используемыми подходами, основанными на акустической энергии или энтропийных критериях.
«В большинстве исследований сейчас нейросети применяют для анализа сигналов крупных морских млекопитающих, например китов. Их сигналы выделить гораздо проще, и на самом деле для них даже не нужен ИИ. Они обычно громче, и проблема зашумления записи стоит не так остро. Для исследований сигналов дельфинов нейросети также применялись ранее, но пока на уровне классических алгоритмов качество обнаружения было не таким высоким. Мы разработали более совершенный алгоритм и добились более высокого результата: 67% по сравнению с обычными 56–60% точности выделения звуков. Мы продолжаем эту работу, и сейчас, после публикации, мы достигли даже более высокого качества алгоритма», — подчеркнул Михаил Криницкий.
Благодаря универсальности подхода модель с некоторой доработкой можно успешно использовать для обнаружения тональных сигналов других видов морских млекопитающих. Это уже подтвердили предварительные результаты ее применения для обработки архива записей беломорских белух. Сложность перехода к анализу этих записей связана с существенными отличиями вокализаций белух и афалин. В вокальном репертуаре белух намного больше импульсных коммуникативных сигналов. Зачастую она имеет сложную комбинированную структуру, когда одно животное одновременно излучает сразу два звука, обычно разной физической природы: серию импульсов и звучащий синхронно свист. Получается, для каждого вида китообразных потребуется своя адаптация, то есть дополнительная настройка уже созданного алгоритма.
Ученые планируют с помощью разработанной программы пролить свет на историю популяций дельфинов и белух, живущих в Черном и Белом морях, в акваториях, где много лет велась аудиозапись их подводной жизни. Динамику изменения популяций китообразных, являющихся видами-индикаторами, можно использовать для оценки благополучия экологического состояния морских экосистем.
«Сейчас мы планируем адаптировать алгоритм для использования на более зашумленных записях невысокого качества и, таким образом, более широко изучить богатую фонотеку записей Института океанологии. Пассивный акустический мониторинг ведется в Черном море многие годы, но архивы никто не обрабатывал с помощью ИИ. А затем, возможно, примемся и за расшифровку вокальных сигналов морских млекопитающих как механизма их социального взаимодействия. Обычно животные очень активны в период брачных игр и охоты, и мы пока что исходим из понимания о том, что есть три классических формы взаимодействия: сотрудничество, соперничество и конфликт. Работа по анализу назначения отдельных сигналов или их серий подобна расшифровке языка общения птиц или анализу малоресурсных человеческих языков. Но для начала необходимо выделить характерные паттерны сигналов, назначение которых мы пока знаем не до конца. Впереди много работы: выделить такие группы и посмотреть, соответствуют ли они нашему пониманию или там намного больше значений. При исследовании с помощью новых технологий ИИ вполне возможно обнаружить и совершенно новые категории сигналов», — заключил Михаил Криницкий.