Fraud in mobile applications: how to define and detect / Вадим Антонюк (IPONWEB)

Вадим Антонюк
Anti-fraud Team Lead
IPONWEB
Fraud in mobile
applications:
how to define and
detect

➔ Особенности In-App сегмента
➔ Определяем и детектируем: метод #1 “Backgroundness”
➔ Определяем и детектируем: метод #2 “Entropy score”
➔ Сравнение результатов, реализация и next steps
➔ Заключение
Детекция фрода в рекламных запросах в
сегменте мобильных приложений

статус доля
✓ PC web (display & video) verified 36%
✓ Mobile web (display & video) verified 26%
❏ Mobile Applications not verified 38%
❏ Digital Out of Home not verified 0%
❏ TV not verified 0%
Структура RTB-трафика по сегментам и статус
анти-фрод верификации, 1H 2017

Ad Stacking
Bots
Ghost SitesDomain spoofing
Основные типы рекламного фрода в веб-сегменте

Основные типы рекламного фрода в сегменте
мобильных приложений

в индустрии нет единого мнения
Основные типы рекламного фрода в сегменте
мобильных приложений

➔ “Invalid traffic is [that, which] does not result from genuine user interest.”
(Google)
перефразируем:
➔ “Traffic which is a-priori non-viewable can be defined as fraudulent.”
(IPONWEB)
➔ критерий “a-priori non-viewability” работает для:
✓ “обычных” видов фрода в веб-сегменте;
✓ показов в фоновом режиме приложения (background mode);
Определяем App Fraud через non-Viewability

➔ в потоке входящих бид-реквестов находим пары [app + user], которые
шлют сигнал в непрерывном режиме;
➔ как минимум, часть этих реквестов приходит из фонового режима
приложения;
0:00 24:00 time
t2
t1
T2
T1
➔ определим “непрерывность” сигнала через (время между соседями) < t;
➔ для каждого t мы получим значение “непрерывного” интервала T (и
проанализируем на реалистичность);
Backgroundness: слушаем поток бид-реквестов

➔ определим поток, для которого измеренное T > Tthreshold
как фоновый;
➔ просуммируем по всем users и заблокируем приложения с большой долей
такого трафика;
➔ полученный результат будет зависеть от t и Tthreshold
;

;
overfitting?

;
overfitting?
a way to simplify?

“Silence
isn’t empty,
it’s full of answers.”

➔ тот же датасет, находим “максимальный период тишины” Tmax
(= T3
на рис.);
➔ ...и проанализируем на реалистичность (одного T достаточно);
0:00
24:00
T1
T2
T3
Backgroundness: слушаем паузы между бид-
реквестами

1) для каждой комбинации [app + publisher_id + user] находим Tmax
по
данным полного дневного лога бид-реквестов;
2) агрегируем по всем users, получаем плотность распределения Tmax
для каждой пары [app + publisher_id] ;
3) выбираем пороговое значение Tmax
, блокируем пары [app +
publisher_id] со значимой долей трафика ниже порога;
___
(1) also works for compressed logs with minor calibration
Методология детектирования backgroundness

➔ 99.9% трафика с Tmax
больше 6 часов;
Распределение Tmax
: пример “хорошего” трафика
приложение: surpax.ledflashlight
Tmax200 5 10 15

приложение: gau.go.launcherex
Tmax200 5 10 15
: пример “плохого” трафика
меньше 6 часов;

приложение: rewardable.rewardabletv
: пример “OMFG” трафика
Tmax200 5 10 15
меньше 6 часов;

Определяем App Fraud через аномальную
энтропию (#1)

Shannon’s entropy: H(x) = ∑ pi
log2
(1/pi
)

log2
(1/pi
)
●
app1
●
●●
●
user1
user2user3
user4

log2
(1/pi
)
●
app1
●
●●
●
user1
user2user3
user4
H1
= 0

log2
(1/pi
)
●
app1
●
●●
●
user1
user2user3
user4
●
app2
●
●●
●
user1
user2user3
user4
H1
= 0

log2
(1/pi
)
●
app1
●
●●
●
user1
user2user3
user4
●
app2
●
●●
●
user1
user2user3
user4
H1
= 0 H2
= 3/2

log2
(1/pi
)
●
app1
●
●●
●
user1
user2user3
user4
●
app2
●
●●
●
user1
user2user3
user4
●
app3
●
●●
●
user1
user2user3
user4
H1
= 0 H2
= 3/2

log2
(1/pi
)
●
app1
●
●●
●
user1
user2user3
user4
●
app2
●
●●
●
user1
user2user3
user4
●
app3
●
●●
●
user1
user2user3
user4
H1
= 0 H2
= 3/2 H3
= 2

log2
(1/pi
)
●
app1
●
●●
●
user1
user2user3
user4
●
app2
●
●●
●
user1
user2user3
user4
●
app3
●
●●
●
user1
user2user3
user4
H1
= 0 H2
= 3/2 H3
= 2
entropy
maxmin

log2
(1/pi
)
●
app1
●
●●
●
user1
user2user3
user4
●
app2
●
●●
●
user1
user2user3
user4
●
app3
●
●●
●
user1
user2user3
user4
H1
= 0 H2
= 3/2 H3
= 2
entropy
maxmin
app ↔ user

entropy
score
low high
user
юзер использует
(создает трафик в)
мало приложений
юзер использует
(создает трафик в)
много приложений
app
приложение получает
трафик от нескольких
пользователей
приложение получает
трафик от многих
пользователей
normalized entropy score:
H{user, app} = (1/log2
C) ∑ pi
log2
(1/pi
), где pi
= Ci
/C, C = ∑ Ci
✓ ✓
✓!
справедливость
к маленьким
объектам

Распределение бид запросов по entropy score
75%25%
score
доля бид-
реквестов
0 20 40 60 80 100

Распределение бид запросов по entropy score
75%25%
score
доля бид-
реквестов
0 20 40 60 80 100
bad actors’ range

Сравнение методов “backgroundness” и “entropy score”
➔ при одинаково подобранных
уровнях достоверности,
“backgroundness” (14%) ловит на
порядок больше app-трафика,
чем “entropy score” (1.5-2%)
➔ методы дополняют друг друга с
минимальным пересечением
(~0.1%)
entropy score
backgroundness

Что нового ловит “entropy score” в дополнение к
“backgroundness” и что можно ловить еще?
➔ bundle_id names:
juteralabs.perktv
rewardable.rewardabletv
swagbuckstvmobile.views
yoorewards
incentivised traffic

Что нового ловит “entropy score” в дополнение к
“backgroundness” и что можно ловить еще?
➔ bundle_id names:
juteralabs.perktv
rewardable.rewardabletv
swagbuckstvmobile.views
yoorewards
incentivised traffic
непрерывный поток
бид-запросов с одного
устройства
концентрация бид-
запросов c малого
числа устройств
большое число
запросов с одного
устройства
✓ "backgroundness” ✓ “entropy score” ± “high frequency uuid”

● В результате анализа бид-запросов, генерируемых мобильными
приложениями, на большом объеме данных были обнаружены
паттерны “backgroundness” и “low entropy score”, несовместимые с
нормальным пользовательским поведением.
● Обнаруженные паттерны могут являться основанием для
фильтрации мошеннического трафика в сегменте мобильных
приложений.
Заключение

Fraud in mobile applications: how to define and detect / Вадим Антонюк (IPONWEB)

✓ Полный дневной или выборочный недельный лог бид-реквестов
(>150 млрд. in-app запросов);
✓ Ночной batch-процесс считает метрики и готовит кэш с блок-
листами
✓ Раскатка кэша в продакшн в начале рабочего дня (есть
возможность вмешательства)
✓ “Backgroundness” 一 вывод на проектную мощность Nov-2017
❏ “Entropy score” 一 плановый запуск 1Q-2018
Appendix I: Техническая реализация

Fraud in mobile applications: how to define and detect / Вадим Антонюк (IPONWEB)

More Related Content

Similar to Fraud in mobile applications: how to define and detect / Вадим Антонюк (IPONWEB) (20)

More from Ontico (20)

Fraud in mobile applications: how to define and detect / Вадим Антонюк (IPONWEB)