Tor-трафик приложений для Android можно распознать с точностью 97%

19.02.2019 12:03

Рекомендуем почитать:

Xakep #238. Забытый Android

Содержание выпуска
Подписка на «Хакер»

Эксперты Римского университета Ла Сапиенца представили доклад, посвященный созданному ими алгоритму, способному с высокой точностью определять, каким именно приложением пользовался человек, даже если речь идет о Tor-трафике.

Исследователи подчеркивают, что их инструмент не помогает деанонимизировать пользователя, то есть узнать его реальный IP-адрес и иные детали. Однако возможно установить, какое именно Android-приложение скрывает Tor-трафик.

Работа специалистов опирается на другой научный доклад, в котором эксперты описывали анализ TCP-пакетов в Tor-трафике и научились определять восемь категорий трафика: браузинг, email, аудио- или видеостриминг, передача файлов, VoIP и P2P.

Итальянские исследователи применили ту же концепцию анализа TCP-пакетов к трафику, однако изучали паттерны присущие известным приложениям для Android. Для этого был создан специальный алгоритм машинного обучения, который тренировали на Tor-трафике Tor Browser для Android, Instagram, Facebook, Skype, uTorrent, Spotify, Twitch, YouTube, DailyMotion и Replaio Radio. В итоге специалисты научились распознавать, какой именно приложение использует человек с точностью 97,3%.

Впрочем, если вдаваться в детали, эти цифры выглядят уже не столь пугающе. Дело в том, что таких результатов алгоритм может добиться лишь в том случае, если от устройства не исходит никакого фонового трафика вообще. То есть пользователь должен работать только с одним приложением. Если на устройстве запущено много приложений, паттерны TCP меняются, и эффективность алгоритма падает.

Кроме того, исследователи отмечают большой процент ложноположительных срабатываний от работы похожих сервисов. К примеру, алгоритм может перепутать Spotify и YouTube, так как эти приложения имеют схожий «рисунок» трафика. Также для распознавания Facebook, Instagram и других похожих продуктов может потребоваться немало времени, так как в работе алгоритма возникают вынужденные «простои», во время которых пользователь уже добрался до нужного контента и попросту читает.

Ознакомиться с докладом специалистов можно здесь (PDF). В будущем исследователи планируют опубликовать код своего алгоритма в открытом доступе.

Источник

Читайте также