Применение классических методов
математической статистики с примерами
на задачах web-аналитики
Евгений Завьялов
28 февраля 2014 г.
Многие задачи data sciense и web-
аналитики можно решать
используя методы
математической статистики:
Прогнозирование
Эксперименты
(A/B тесты, etc)
Выяснение факторов
и их вклада в
наблюдаемый эффект
Прогнозирование
Прогнозирование
Временной ряд:
, где
величина
- значение некой статистики в
момент времени
Известен набор:
Требуется найти:
Прогнозирование
Временной ряд может быть:
 Стационарным
 Нестационарным
Может иметь:
Сезонность
Тренд
Случайную составляющую
Прогнозирование
Прогнозирование
Модель ARIMA(p, d, k):
Интегрированная модель авторегрессии — скользящего среднего
- кол-во единичных корней
- параметры авторегрессионной части модели
- параметры скользящего среднего
- белый шум
- конечная разность порядка d
Прогнозирование
Автокорреляция:
, где
Частичная автокорреляция:
,
где
-- линейная регрессия на
Прогнозирование
Коррелограмма
В R выводится так: acf(data)
Прогнозирование
В R выводится так: pacf(data)
Коррелограмма
Прогнозирование
– Для определения d (порядка разности) используем:
Kwiatkowski–Phillips–Schmidt–Shin (KPSS) тест
– Нужно проверить остатки на:
Нормальность — критерий Шапиро-Уилка
Несмещенность — критерий Стьюдента
Неавтокоррелированность — коррелограмма
Стационарность — KPSS - тест
– Не забыть учесть сезонную составляющую: модель SARIMA
Прогнозирование
Как оценить правильность выбора параметров модели?
– По информационным критериям:
, где и
и
– По SSE
Прогнозирование
В R, испульзуя пакет {forecast}: plot( forecast( auto.arima(d), h=60) )
Прогнозирование
plot(forecast(model), h=60))
model = arima(d, order=c(14,1,14), seasonal=list(order=c(1,0,0), period=7);
Эксперименты
Как проводить эксперимент, если нужно измерить не CTR?
Эксперименты
Как проводить эксперимент, если нужно измерить не CTR?
Будем использовать:
 Критерий Стьюдента (t-test)
 Критерий Уилкоксона
 Статический Бутстреп (bootstrap)
Эксперименты
Что такое ошибка первого и второго рода?
Пусть - гипотеза о том, что значение некой статистики в выборке полностью
соответствует распределению
Тогда, - гипотеза обратная ей.
Эксперименты
Эксперименты
Одновыборочный t-тест
- Нуливая гипотеза
- t-статистика
Эксперименты
Когда можно использовать?
1) Выборка должна иметь нормальное распределение
Для того, чтобы в этом убедиться нужно выполнить проверку одним из тестов на
нормальность распределения:
1. Критерий Шапиро-Уилка
2. Критерий Колмогорова-Смирнова
3. Хи-квадрат
4. etc
Когда лучше всего использовать?
Когда у нас относительно небольшая выборка. В случае «больших данных»
(от 100,000 значений) начинает работать не так, как ожидается.
Причина - большая мощность за счет предположения о распределении
Эксперименты
Еще несколько модификаций t-критерия:
Сравнение двух независимых выборок:
- Нуливая гипотеза
- t-статистика
Ограничения:
1. Сравниваемые выборки должны происходить из нормально распределенных
совокупностей
2. Дисперсии сравниваемых генеральных совокупностей должны быть равны
(проверяется F-тестом)
3. Выборки должны быть независимыми
Эксперименты
Пример:
t.test(data, mu = mean_old_value)
t.test(f_sample, s_sample, paired = TRUE)
- Классический одновыборочный t-test
- Парный двухвыборочный t-test
power.t.test(delta = 3.0, sd = 1.8, sig.level = 0.05,power = 0.8)
А вот так можно определить необходимое число наблюдений для требуемой
мощности:
Эксперименты
Основное отличие статического бутстрепа от «классических методов» состоит в том,
что не требуется делать предположения о распределении случайной величины.
По факту, такое предположение заменяется вычислительной мощностью.
Статический Бутстреп (bootstrap)
Основной принцип:
1. Берем нашу выборку
2. Генерируем из нее еще кучу выборок поменьше (например, jackknife)
3. На основе данных выборок считаем интересующую нас статистику
4. Находим ее доверительные интервалы
5. …
6. PROFIT!!!
Эксперименты
Основные плюсы:
1. Не нужно делать предположений о распределении
2. При больших объемах выборки не становится «сверхчувствительным»
3. «Универсальный», т.е. подходит для вычисления распределения
практически любой статистики
Основные минусы:
1. При малых объемах выборок сильно хуже критериев, основанных
на предположениях о распределении случайной величины
Спасибо за внимание!
Евгений Завьялов
evgeny@zavyalov.org

More Related Content

PPTX
Weather forecast
PPTX
ПРИМЕНЕНИЕ МАТЕМАТИКА - СТАТИСТИЧЕСКИХ МЕТОДОВ В УПРАВЛЕНИЯ КАЧЕСТВОМ
PPTX
история(сошка д)
PPT
тема 3 Механические характеристики материалов
PPT
Технология строительства энергоэффективных домов из натуральных материалов
PDF
математическая статистика с элементами теории вероятностей
PPT
Loige
PPTX
Бесплатные завтраки в школьной столовой с позиции математической статистики
Weather forecast
ПРИМЕНЕНИЕ МАТЕМАТИКА - СТАТИСТИЧЕСКИХ МЕТОДОВ В УПРАВЛЕНИЯ КАЧЕСТВОМ
история(сошка д)
тема 3 Механические характеристики материалов
Технология строительства энергоэффективных домов из натуральных материалов
математическая статистика с элементами теории вероятностей
Loige
Бесплатные завтраки в школьной столовой с позиции математической статистики

Similar to Классические методы математической статистики в задачах web-аналитики (20)

PPTX
!Predictive analytics part_2
PPTX
123eeewefeefefeffewfwefwefwefwef9475.pptx
PPT
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
PDF
Методы машинного обучения в физике элементарных частиц
PDF
284.прогноз ключевых параметров при помощи искусственных нейронных сетей
PPT
Михаил Александров. Индуктивное моделирование.
PPT
Михаил Александров. Индуктивное моделирование.
PDF
Data Mining - lecture 6 - 2014
DOC
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
PPT
Razinkov
PPT
Razinkov
PDF
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
PPTX
4 azure 24 04
PDF
Stat 4 alpha
PDF
Yurii Gavrilin | ML Interpretability: From A to Z | Kazan ODSC Meetup
PPT
Нечеткие знания в экспертных системах
PPT
Михаил Александров, Индуктивное моделирование
PPTX
Представление результатов психологических исследований: рекомендации APA и в...
PPTX
Практика машинного обучения: вопросы и проблемы при работе над ML-проектом
PPTX
Python-for-Data-Analysis, Pandas, Numpy,Seaborn
!Predictive analytics part_2
123eeewefeefefeffewfwefwefwefwef9475.pptx
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Методы машинного обучения в физике элементарных частиц
284.прогноз ключевых параметров при помощи искусственных нейронных сетей
Михаил Александров. Индуктивное моделирование.
Михаил Александров. Индуктивное моделирование.
Data Mining - lecture 6 - 2014
МЕТОДИКА ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
Razinkov
Razinkov
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
4 azure 24 04
Stat 4 alpha
Yurii Gavrilin | ML Interpretability: From A to Z | Kazan ODSC Meetup
Нечеткие знания в экспертных системах
Михаил Александров, Индуктивное моделирование
Представление результатов психологических исследований: рекомендации APA и в...
Практика машинного обучения: вопросы и проблемы при работе над ML-проектом
Python-for-Data-Analysis, Pandas, Numpy,Seaborn
Ad

Классические методы математической статистики в задачах web-аналитики