Исследователи из МФТИ изучили зависимость показателей скорости и других параметров интернет-соединения от провайдера и версии устройства системы RIPE Atlas, которая используется для анализа качества связи. Результат важен для правильной предварительной обработки данных и предсказания нагрузок Всемирной сети. Работа опубликована в IEEE Xplore.
RIPE Atlas — децентрализованная система измерений состояния интернета: задержки сигнала (пинга), маршрутов передачи данных (трейсороута), анализа DNS-серверов и других. Датчики компании RIPE свободно распространяются по миру, их можно устанавливать и на домашний компьютер, и в больших серверных. Информация с датчиков, их характеристики и местоположение доступны каждому пользователю Atlas, что упрощает исследования качества интернет-соединения. По сути, RIPE — единственный крупный открытый проект, который позволяет анализировать глобальную и локальную сетевую инфраструктуру и имеет банк данных, собираемый в течение многих лет. Научные работы по этой системе основаны на обработке результатов и предсказании с помощью машинного обучения различных параметров, например нагрузок на сеть. При этом исследователи зачастую игнорируют, как версии устройств влияют на различия в данных, и не учитывают, что нужно правильно объединять информацию с разных приборов в единый датасет.
Александр Ивченко, преподаватель кафедры мультимедийных технологий и телекоммуникаций МФТИ, комментирует: «В изрядном количестве статей, использующих данные RIPE ATLAS, исследователи просто накидывают все в кучу без разбора, получают какой-то результат и публикуют это. Тот самый момент, когда дата-саентисты полностью игнорируют предметную часть вопроса. Появилась даже крылатое выражение об этом: “Shit in — shit out”, мусор на входе — мусор на выходе [модели]. А из-за того, что на кафедре [мультимедийных технологий и телекоммуникаций МФТИ] все же учат связистов, получается совмещать модный ML/DL с реальным миром».
Чтобы исключить искажения данных, важна предварительная обработка данных. Александр Ивченко и Павел Изюмов углубились в эту более техническую часть, касающуюся предобработки, и проверили, как зависят интернет-показатели от версии устройства и прошивки софта. Также исследователи сравнили качество соединения у разных провайдеров в разных городах.
Павел Изюмов, аспирант Физтех-школы радиотехники и компьютерных технологий МФТИ, поясняет: «Работа с трафиком — это тематика моей диссертации. Сейчас я работаю в системе RIPE Atlas. В ней пользователь сам кастомизирует свое измерение: открывается страничка создания измерения, на которой можно установить дату проведения замера, какой конкретно ресурс проверять и так далее. Я делал измерения в этой системе и исследовал, как показатели зависят от различных параметров, в частности, от аппаратной версии устройства. Сравнивал показания, которые приходят от устройств, установленных в разных сетях у разных провайдеров. Есть еще различные версии прошивок, от них тоже могут вноситься различные искажения».
Оказалось, что старые версии устройств вносят искажения в интернет-показатели и дополнительные задержки времени при передаче сигнала. Эти ошибки систематические, и исследователи предложили способ их устранения, откалибровав показатели маршрутов передачи информации и пинга по эталонному — самому быстрому — устройству. Такая предварительная обработка данных нужна для корректного учета показателей интернет-соединения, чтобы устранить зависимость от версии устройства и программного обеспечения.
Павел Изюмов добавляет: «Дополнительные задержки и искажения вносятся преимущественно старыми версиями устройств, у которых, возможно, чуть более слабое железо или менее оптимизированный код у прошивок. Мы предлагаем определенные методы калибровки данных, чтобы получить более достоверные значения измерений. Для этого наборы выборок разделяем на версии устройств и дальше смотрим, как у них медианные значения различаются. Выявленная разница устраняется просто как систематическая ошибка».
По результатам измерений разница между провайдерами МГТС и «Ростелеком» в скорости сигнала оказалась незначительна по сравнению с искажениями из-за различных версий устройств. Аналогично исследователи сравнили также скорости соединения в Москве и Петербурге, разница тоже оказалась совсем маленькой.
В дальнейшем ученые планируют усложнить и улучшить метод калибровки и расширить анализ, а также моделировать и предсказывать нагрузки сети с помощью системы RIPE Atlas.
Павел Изюмов делится планами: «Мы хотим сделать более расширенный анализ на большем количестве данных и за больший период. Также реализовать более осмысленный вариант калибровки с трансформированием одного распределения в другое и использовать это в дальнейшей работе по моделированию и предсказанию нагрузок в сети».