SlideShare a Scribd company logo
Поиск шаблонов и машинное обучение
для демографических событий
(Pattern Mining and Machine Learning
for Demographic Sequences)
Баев Олег Дмитриевич
Москва, 2015
Содержание
• Демографические данные
• Машинное обучение: деревья решений
• Деревья решений для предсказания
– первого события
– последующего события
– пола человека
• Анализ последовательностей
2
Задача
Dmitry I. Ignatov, Ekaterina Mitrofanova, Anna Muratova, Danil Gizdatullin:
Pattern Mining and Machine Learning for Demographic Sequences (2015)
• Исследование демографических данных с
помощью методов машинного обучения и
интеллектуального анализа данных
• Цель - выявление шаблонов (закономерностей)
значимых событий в жизни людей и
приобретение знаний
3
Демографические данные
Независимый институт социальной политики (НИСП):
Обследование «Родители и дети, мужчины и
женщины в семье и обществе»
• 4857 человек: 1545 мужчин и 3312 женщин
• 11 поколений: каждое по 5 лет с 1930 по 1984 гг.
4
Информация о человеке
5
• дата рождения
• пол (мужской, женский)
• поколение
• уровень образования (общее,
высшее, профессиональное)
• место жительства (город,
городок, село)
• религиозность (да, нет)
• частота посещения церкви (раз в
неделю, несколько раз в неделю,
минимум раз в месяц, несколько
раз в год, никогда)
• даты значимых событий в жизни:
– завершение обучения
– первый опыт работы
– отделение от родителей
– первые отношения
– первый брак
– рождение первого ребёнка
– расставание
– развод
Исследуемые вопросы
• Какие наиболее характерные для различных
групп людей первые значимые события в жизни?
• Какие различия между мужчинами и женщинами
с точки зрения демографического поведения?
• Какие нетривиальные, но устойчивые шаблоны
(закономерности) можно выделить в жизни
людей?
• Какое наиболее ожидаемое последующее
событие в жизни людей после определённых
событий?
6
Фрагмент данных
7
Предобработка данных
• разделение событий на атомарные события
• получение примерно одинакового количества
мужчин и женщин при помощи WEKA: SMOTE
(Synthetic Minority Oversampling TEchnique)
• в итоге: сбалансированные данные
8
Машинное обучение
9
• Сравнение классификаторов:
– Classification Tree
– kNN
– SVM
• Предсказание первого события
• Примерно одинаковая точность (0.40 – 0.45)
• Выбран метод деревьев решений
Почему деревья принятия
решений?
• представление в виде “если-то” правил
• простота интерпретации результатов
• модель “белого ящика”
10
Предсказание первого события
Дерево решений (построено в системе Orange)
11
Анализ последовательностей событий
Кодирование информации о событиях и их
временной взаимосвязи
• BE – двоичное кодирование
(‘0’ - событие не произошло, ‘1’ - произошло)
• TE – временное кодирование
(возраст в месяцах, когда произошло событие)
• PE – попарное кодирование
(для двух событий a и b:
‘<‘ - a предшествует b или b ещё не произошло,
‘>’ - a следует за b или a ещё не произошло,
‘=‘ - a и b произошли в одно время
‘n/a’ - a и b ещё не произошли)
12
Предсказание последующего события
Сравнение типов кодирования
Тип кодирования
Точность классификации
Несбалансированные
данные
Сбалансированные
данные
BE (двоичное) 0.8498 0.8780 (*)
TE (временное) 0.3516 0.3591
PE (попарное) 0.7176 0.7013
BE + TE 0.7293 0.7459
BE + PE 0.8407 0.8438
TE + PE 0.5465 0.4959
BE + TE + PE 0.7295 0.7503
13
(*) - наилучший результат
Предсказание последующего события
Матрица несоответствий
14
предсказано
соответствие с
исходными данными
Предсказание последующего события
Примеры правил
15
Предсказание пола
Сравнение типов кодирования
Тип кодирования
Точность классификации
Несбалансированные
данные
Сбалансированные
данные
BE (двоичное) 0.6838 0.5824
TE (временное) 0.6827 0.6758
PE (попарное) 0.6817 0.5896
BE + TE 0.6842 0.6647
BE + PE 0.6815 0.5923
TE + PE 0.6827 0.6743
BE + TE + PE 0.6842 0.6915 (*)
16
(*) - наилучший результат
Предсказание пола
Примеры правил
Мужчина:
Женщина:
17
Premise (path in the tree) Confidence
First job after 19.9 years, marriage in 20.6-22.4, education before 20.7,
break-up after 27.6, divorce before 30.5
65.9%
First job after 19.9, marriage in 20.6-22.4, break-up before 27.6 61.1%
First job before 17.2, marriage in 20.6-22.4, break-up before 27.6 61.3%
First job after 21, marriage after 29.5 70.2%
Premise (path in the tree) Confidence
First job in 18.2-19.9, marriage in 20.6-22.4, break-up after 27.6,
divorce after 30.5
71.9%
First job in 18.2-19.9, marriage in 20.6-22.4, break-up after 27.6,
divorce before 30.5
70.9%
First job in 17.2-19.9, marriage in 20.6-22.4, break-up before 27.6 62.8%
First job in 17.7-21, marriage after 29.5 62.8%
Анализ последовательностей
(Sequence Mining)
• Предметный набор (itemset) – непустой набор предметов (атомарных
событий)
𝑒 = 𝑎1, 𝑎2, … , 𝑎 𝑛
• Последовательность (sequence) – упорядоченный список предметных
наборов (событий)
𝑠 = 𝑒1, 𝑒2, … , 𝑒 𝑚
• α = 𝑎1, 𝑎2, … , 𝑎 𝑛 называется подпоследовательностью (subsequence)
𝛽 = 𝑏1, 𝑏2, … , 𝑏 𝑚 и обозначается
α ⊑ 𝛽 ⟺ ∃ 1 ≤ 𝑗1 < 𝑗2 < ⋯ < 𝑗 𝑛 ≤ m ∶ 𝑎1 ⊆ 𝑏𝑗1, 𝑎2 ⊆ 𝑏𝑗2, … , 𝑎 𝑛 ⊆ 𝑏𝑗𝑛
• Поддержка (support) последовательности α в базе данных D – количество
последовательностей в D, содержащих α:
𝑠𝑢𝑝 𝐷 𝛼 = # 𝑠|𝑠 ∈ 𝐷 & 𝛼 ⊑ 𝑠
18
Последовательностный шаблон
(sequential pattern)
Это:
• Максимальная (closed) последовательность –
последовательность, не содержащаяся в
какой-либо другой последовательности с той же
поддержкой
И
• Частая (frequent) последовательность –
последовательность, имеющая поддержку выше
заданного порога (minsup)
19
Поиск последовательностных шаблонов
event1 event2 event3 event4 support
education 4857
job 4812
separation 4723
child 4399
marriage 4201
job child 3828
marriage child 3568
job marriage child 2762
education marriage child 2183
partner 1839
separation marriage child 1800
education job marriage child 1091
marriage child education 941
separation job marriage child 822
job education marriage child 687
partner marriage child 676
20
Средство поиска – SPMF: BIDE (BI-Directional Extension)
Возникающий шаблон
(emergent pattern)
• Возникающая (emergent) последовательность – частая
последовательность, которая чаще встречается в одном
конкретном классе, чем в других
• Уровень роста (growth rate) последовательности s для
двух классов:
• Последовательность является возникающей, если её
уровень роста выше заданного порога
21
Поиск возникающих шаблонов
• Средство поиска – SPMF: PrefixSpan
(Prefix-projected Sequential pattern mining)
• Два класса: мужчины и женщины
• Вклад (contribution) последовательности s в
класс Ci :
22
Поиск возникающих шаблонов
Мужчина
sequence contribution
𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛 , 𝑗𝑜𝑏 , {𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒} 0.0124
𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑗𝑜𝑏 , 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , {𝑐ℎ𝑖𝑙𝑑} 0.0079
𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛 , 𝑗𝑜𝑏 , 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒 , {𝑐ℎ𝑖𝑙𝑑} 0.0074
𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛 , 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒 , {𝑐ℎ𝑖𝑙𝑑} 0.0065
𝑗𝑜𝑏 , 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒, 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , {𝑑𝑖𝑣𝑜𝑟𝑐𝑒, 𝑏𝑟𝑒𝑎𝑘−𝑢𝑝} 0.0057
𝑑𝑖𝑣𝑜𝑟𝑐𝑒, 𝑏𝑟𝑒𝑎𝑘−𝑢𝑝 , {𝑐ℎ𝑖𝑙𝑑} 0.0055
𝑗𝑜𝑏 , 𝑑𝑖𝑣𝑜𝑟𝑐𝑒, 𝑏𝑟𝑒𝑎𝑘−𝑢𝑝 , {𝑐ℎ𝑖𝑙𝑑} 0.0055
𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒 , {𝑗𝑜𝑏, 𝑐ℎ𝑖𝑙𝑑} 0.005
𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , 𝑑𝑖𝑣𝑜𝑟𝑐𝑒, 𝑏𝑟𝑒𝑎𝑘−𝑢𝑝 , {𝑐ℎ𝑖𝑙𝑑} 0.005
𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒 , 𝑑𝑖𝑣𝑜𝑟𝑐𝑒, 𝑏𝑟𝑒𝑎𝑘−𝑢𝑝 , {𝑐ℎ𝑖𝑙𝑑} 0.005
𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , 𝑑𝑖𝑣𝑜𝑟𝑐𝑒 , {𝑐ℎ𝑖𝑙𝑑} 0.005
23
Поиск возникающих шаблонов
Женщина
sequence contribution
𝑝𝑎𝑟𝑡𝑛𝑒𝑟, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑐ℎ𝑖𝑙𝑑 , {𝑏𝑟𝑒𝑎𝑘−𝑢𝑝} 0.0147
𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛 , 𝑐ℎ𝑖𝑙𝑑 , 𝑗𝑜𝑏 , {𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛} 0.0121
𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛, 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒 , {𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛} 0.0106
𝑗𝑜𝑏, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛, 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒 , {𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛} 0.0102
𝑗𝑜𝑏, 𝑝𝑎𝑟𝑡𝑛𝑒𝑟, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , {𝑏𝑟𝑒𝑎𝑘−𝑢𝑝} 0.0098
𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛, 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , 𝑐ℎ𝑖𝑙𝑑 , 𝑗𝑜𝑏 0.0092
𝑝𝑎𝑟𝑡𝑛𝑒𝑟, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒 , {𝑏𝑟𝑒𝑎𝑘−𝑢𝑝} 0.008
𝑗𝑜𝑏 , 𝑝𝑎𝑟𝑡𝑛𝑒𝑟, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , {𝑏𝑟𝑒𝑎𝑘−𝑢𝑝} 0.008
𝑗𝑜𝑏, 𝑝𝑎𝑟𝑡𝑛𝑒𝑟, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑐ℎ𝑖𝑙𝑑 , {𝑏𝑟𝑒𝑎𝑘−𝑢𝑝} 0.008
𝑗𝑜𝑏, 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , 𝑐ℎ𝑖𝑙𝑑 , {𝑑𝑖𝑣𝑜𝑟𝑐𝑒} 0.008
𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛, 𝑝𝑎𝑟𝑡𝑛𝑒𝑟, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , {𝑏𝑟𝑒𝑎𝑘−𝑢𝑝} 0.0072
24
Заключение
• Методы интеллектуального анализа
данных не ограничены конкретной
областью применения
• Они предназначены для поиска
неочевидных, объективных и полезных
на практике закономерностей, которые
скрыты в больших объёмах данных
25
Спасибо за внимание!
26

More Related Content

PDF
Муромцев. Методы анализа социальных графов и поиска сообществ
PDF
Рой. Аспектный анализ тональности отзывов
PDF
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
PDF
Котиков Простые методы выделения ключевых слов и построения рефератов
PPTX
Мищенко. Методы автоматического определения наиболее частотного значения слова.
PDF
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
PPTX
Иванов. Автоматизация построения предметных указателей
PDF
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Муромцев. Методы анализа социальных графов и поиска сообществ
Рой. Аспектный анализ тональности отзывов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Котиков Простые методы выделения ключевых слов и построения рефератов
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Иванов. Автоматизация построения предметных указателей
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.

Viewers also liked (20)

PDF
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
PPTX
Можарова Тематические модели: учет сходства между униграммами и биграммами.
PDF
Баев Системы для обучения программированию
PDF
Савостин. Системы и методы научного поиска и мониторинга
PDF
Лукьяненко. Извлечение коллокаций из текста
PDF
Сапин. Интеллектуальные агенты и обучение с подкреплением
PPTX
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
PPTX
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
PPT
Автоматическое составление обзорного реферата на основе кластеризации предлож...
PPT
Моделирование поведения сложных динамических систем
PPT
комунікації в менеджменті
PDF
Managerial Fails
PDF
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
PPTX
Игорь Любин - Кандидатская диссертация
PDF
Защита диссертации
PPTX
роль комунікацій в управлінні іт проектами
PPTX
к защите диссертации
PPTX
презентация к диссертации Третьяк Н. А.
PPT
управління ризиками(Ppt)
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Баев Системы для обучения программированию
Савостин. Системы и методы научного поиска и мониторинга
Лукьяненко. Извлечение коллокаций из текста
Сапин. Интеллектуальные агенты и обучение с подкреплением
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Автоматическое составление обзорного реферата на основе кластеризации предлож...
Моделирование поведения сложных динамических систем
комунікації в менеджменті
Managerial Fails
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
Игорь Любин - Кандидатская диссертация
Защита диссертации
роль комунікацій в управлінні іт проектами
к защите диссертации
презентация к диссертации Третьяк Н. А.
управління ризиками(Ppt)
Ad

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (13)

PDF
Панфилов. Корпусы текстов и принципы их создания
PDF
Муромцев. Обзор библиографических менеджеров
PDF
Тодуа. Методы разработки интерпретатора языка Рефал-2
PDF
рогова обзор средств поддержки обучения программированию
PDF
кулагин поиск близких по смыслу языковых выражений
PDF
борисенкова методы визуализации для анализа зависящих от времени данных
PDF
бицоев сравнение систем анализа тональности на русском языке
Панфилов. Корпусы текстов и принципы их создания
Муромцев. Обзор библиографических менеджеров
Тодуа. Методы разработки интерпретатора языка Рефал-2
рогова обзор средств поддержки обучения программированию
кулагин поиск близких по смыслу языковых выражений
борисенкова методы визуализации для анализа зависящих от времени данных
бицоев сравнение систем анализа тональности на русском языке
Ad

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern Mining and Machine Learning for Demographic Sequences)

  • 1. Поиск шаблонов и машинное обучение для демографических событий (Pattern Mining and Machine Learning for Demographic Sequences) Баев Олег Дмитриевич Москва, 2015
  • 2. Содержание • Демографические данные • Машинное обучение: деревья решений • Деревья решений для предсказания – первого события – последующего события – пола человека • Анализ последовательностей 2
  • 3. Задача Dmitry I. Ignatov, Ekaterina Mitrofanova, Anna Muratova, Danil Gizdatullin: Pattern Mining and Machine Learning for Demographic Sequences (2015) • Исследование демографических данных с помощью методов машинного обучения и интеллектуального анализа данных • Цель - выявление шаблонов (закономерностей) значимых событий в жизни людей и приобретение знаний 3
  • 4. Демографические данные Независимый институт социальной политики (НИСП): Обследование «Родители и дети, мужчины и женщины в семье и обществе» • 4857 человек: 1545 мужчин и 3312 женщин • 11 поколений: каждое по 5 лет с 1930 по 1984 гг. 4
  • 5. Информация о человеке 5 • дата рождения • пол (мужской, женский) • поколение • уровень образования (общее, высшее, профессиональное) • место жительства (город, городок, село) • религиозность (да, нет) • частота посещения церкви (раз в неделю, несколько раз в неделю, минимум раз в месяц, несколько раз в год, никогда) • даты значимых событий в жизни: – завершение обучения – первый опыт работы – отделение от родителей – первые отношения – первый брак – рождение первого ребёнка – расставание – развод
  • 6. Исследуемые вопросы • Какие наиболее характерные для различных групп людей первые значимые события в жизни? • Какие различия между мужчинами и женщинами с точки зрения демографического поведения? • Какие нетривиальные, но устойчивые шаблоны (закономерности) можно выделить в жизни людей? • Какое наиболее ожидаемое последующее событие в жизни людей после определённых событий? 6
  • 8. Предобработка данных • разделение событий на атомарные события • получение примерно одинакового количества мужчин и женщин при помощи WEKA: SMOTE (Synthetic Minority Oversampling TEchnique) • в итоге: сбалансированные данные 8
  • 9. Машинное обучение 9 • Сравнение классификаторов: – Classification Tree – kNN – SVM • Предсказание первого события • Примерно одинаковая точность (0.40 – 0.45) • Выбран метод деревьев решений
  • 10. Почему деревья принятия решений? • представление в виде “если-то” правил • простота интерпретации результатов • модель “белого ящика” 10
  • 11. Предсказание первого события Дерево решений (построено в системе Orange) 11
  • 12. Анализ последовательностей событий Кодирование информации о событиях и их временной взаимосвязи • BE – двоичное кодирование (‘0’ - событие не произошло, ‘1’ - произошло) • TE – временное кодирование (возраст в месяцах, когда произошло событие) • PE – попарное кодирование (для двух событий a и b: ‘<‘ - a предшествует b или b ещё не произошло, ‘>’ - a следует за b или a ещё не произошло, ‘=‘ - a и b произошли в одно время ‘n/a’ - a и b ещё не произошли) 12
  • 13. Предсказание последующего события Сравнение типов кодирования Тип кодирования Точность классификации Несбалансированные данные Сбалансированные данные BE (двоичное) 0.8498 0.8780 (*) TE (временное) 0.3516 0.3591 PE (попарное) 0.7176 0.7013 BE + TE 0.7293 0.7459 BE + PE 0.8407 0.8438 TE + PE 0.5465 0.4959 BE + TE + PE 0.7295 0.7503 13 (*) - наилучший результат
  • 14. Предсказание последующего события Матрица несоответствий 14 предсказано соответствие с исходными данными
  • 16. Предсказание пола Сравнение типов кодирования Тип кодирования Точность классификации Несбалансированные данные Сбалансированные данные BE (двоичное) 0.6838 0.5824 TE (временное) 0.6827 0.6758 PE (попарное) 0.6817 0.5896 BE + TE 0.6842 0.6647 BE + PE 0.6815 0.5923 TE + PE 0.6827 0.6743 BE + TE + PE 0.6842 0.6915 (*) 16 (*) - наилучший результат
  • 17. Предсказание пола Примеры правил Мужчина: Женщина: 17 Premise (path in the tree) Confidence First job after 19.9 years, marriage in 20.6-22.4, education before 20.7, break-up after 27.6, divorce before 30.5 65.9% First job after 19.9, marriage in 20.6-22.4, break-up before 27.6 61.1% First job before 17.2, marriage in 20.6-22.4, break-up before 27.6 61.3% First job after 21, marriage after 29.5 70.2% Premise (path in the tree) Confidence First job in 18.2-19.9, marriage in 20.6-22.4, break-up after 27.6, divorce after 30.5 71.9% First job in 18.2-19.9, marriage in 20.6-22.4, break-up after 27.6, divorce before 30.5 70.9% First job in 17.2-19.9, marriage in 20.6-22.4, break-up before 27.6 62.8% First job in 17.7-21, marriage after 29.5 62.8%
  • 18. Анализ последовательностей (Sequence Mining) • Предметный набор (itemset) – непустой набор предметов (атомарных событий) 𝑒 = 𝑎1, 𝑎2, … , 𝑎 𝑛 • Последовательность (sequence) – упорядоченный список предметных наборов (событий) 𝑠 = 𝑒1, 𝑒2, … , 𝑒 𝑚 • α = 𝑎1, 𝑎2, … , 𝑎 𝑛 называется подпоследовательностью (subsequence) 𝛽 = 𝑏1, 𝑏2, … , 𝑏 𝑚 и обозначается α ⊑ 𝛽 ⟺ ∃ 1 ≤ 𝑗1 < 𝑗2 < ⋯ < 𝑗 𝑛 ≤ m ∶ 𝑎1 ⊆ 𝑏𝑗1, 𝑎2 ⊆ 𝑏𝑗2, … , 𝑎 𝑛 ⊆ 𝑏𝑗𝑛 • Поддержка (support) последовательности α в базе данных D – количество последовательностей в D, содержащих α: 𝑠𝑢𝑝 𝐷 𝛼 = # 𝑠|𝑠 ∈ 𝐷 & 𝛼 ⊑ 𝑠 18
  • 19. Последовательностный шаблон (sequential pattern) Это: • Максимальная (closed) последовательность – последовательность, не содержащаяся в какой-либо другой последовательности с той же поддержкой И • Частая (frequent) последовательность – последовательность, имеющая поддержку выше заданного порога (minsup) 19
  • 20. Поиск последовательностных шаблонов event1 event2 event3 event4 support education 4857 job 4812 separation 4723 child 4399 marriage 4201 job child 3828 marriage child 3568 job marriage child 2762 education marriage child 2183 partner 1839 separation marriage child 1800 education job marriage child 1091 marriage child education 941 separation job marriage child 822 job education marriage child 687 partner marriage child 676 20 Средство поиска – SPMF: BIDE (BI-Directional Extension)
  • 21. Возникающий шаблон (emergent pattern) • Возникающая (emergent) последовательность – частая последовательность, которая чаще встречается в одном конкретном классе, чем в других • Уровень роста (growth rate) последовательности s для двух классов: • Последовательность является возникающей, если её уровень роста выше заданного порога 21
  • 22. Поиск возникающих шаблонов • Средство поиска – SPMF: PrefixSpan (Prefix-projected Sequential pattern mining) • Два класса: мужчины и женщины • Вклад (contribution) последовательности s в класс Ci : 22
  • 23. Поиск возникающих шаблонов Мужчина sequence contribution 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛 , 𝑗𝑜𝑏 , {𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒} 0.0124 𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑗𝑜𝑏 , 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , {𝑐ℎ𝑖𝑙𝑑} 0.0079 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛 , 𝑗𝑜𝑏 , 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒 , {𝑐ℎ𝑖𝑙𝑑} 0.0074 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛 , 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒 , {𝑐ℎ𝑖𝑙𝑑} 0.0065 𝑗𝑜𝑏 , 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒, 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , {𝑑𝑖𝑣𝑜𝑟𝑐𝑒, 𝑏𝑟𝑒𝑎𝑘−𝑢𝑝} 0.0057 𝑑𝑖𝑣𝑜𝑟𝑐𝑒, 𝑏𝑟𝑒𝑎𝑘−𝑢𝑝 , {𝑐ℎ𝑖𝑙𝑑} 0.0055 𝑗𝑜𝑏 , 𝑑𝑖𝑣𝑜𝑟𝑐𝑒, 𝑏𝑟𝑒𝑎𝑘−𝑢𝑝 , {𝑐ℎ𝑖𝑙𝑑} 0.0055 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒 , {𝑗𝑜𝑏, 𝑐ℎ𝑖𝑙𝑑} 0.005 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , 𝑑𝑖𝑣𝑜𝑟𝑐𝑒, 𝑏𝑟𝑒𝑎𝑘−𝑢𝑝 , {𝑐ℎ𝑖𝑙𝑑} 0.005 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒 , 𝑑𝑖𝑣𝑜𝑟𝑐𝑒, 𝑏𝑟𝑒𝑎𝑘−𝑢𝑝 , {𝑐ℎ𝑖𝑙𝑑} 0.005 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , 𝑑𝑖𝑣𝑜𝑟𝑐𝑒 , {𝑐ℎ𝑖𝑙𝑑} 0.005 23
  • 24. Поиск возникающих шаблонов Женщина sequence contribution 𝑝𝑎𝑟𝑡𝑛𝑒𝑟, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑐ℎ𝑖𝑙𝑑 , {𝑏𝑟𝑒𝑎𝑘−𝑢𝑝} 0.0147 𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛 , 𝑐ℎ𝑖𝑙𝑑 , 𝑗𝑜𝑏 , {𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛} 0.0121 𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛, 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒 , {𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛} 0.0106 𝑗𝑜𝑏, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛, 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒 , {𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛} 0.0102 𝑗𝑜𝑏, 𝑝𝑎𝑟𝑡𝑛𝑒𝑟, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , {𝑏𝑟𝑒𝑎𝑘−𝑢𝑝} 0.0098 𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛, 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , 𝑐ℎ𝑖𝑙𝑑 , 𝑗𝑜𝑏 0.0092 𝑝𝑎𝑟𝑡𝑛𝑒𝑟, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑚𝑎𝑟𝑟𝑖𝑎𝑔𝑒 , {𝑏𝑟𝑒𝑎𝑘−𝑢𝑝} 0.008 𝑗𝑜𝑏 , 𝑝𝑎𝑟𝑡𝑛𝑒𝑟, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , {𝑏𝑟𝑒𝑎𝑘−𝑢𝑝} 0.008 𝑗𝑜𝑏, 𝑝𝑎𝑟𝑡𝑛𝑒𝑟, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , 𝑐ℎ𝑖𝑙𝑑 , {𝑏𝑟𝑒𝑎𝑘−𝑢𝑝} 0.008 𝑗𝑜𝑏, 𝑝𝑎𝑟𝑡𝑛𝑒𝑟 , 𝑐ℎ𝑖𝑙𝑑 , {𝑑𝑖𝑣𝑜𝑟𝑐𝑒} 0.008 𝑠𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛, 𝑝𝑎𝑟𝑡𝑛𝑒𝑟, 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛 , {𝑏𝑟𝑒𝑎𝑘−𝑢𝑝} 0.0072 24
  • 25. Заключение • Методы интеллектуального анализа данных не ограничены конкретной областью применения • Они предназначены для поиска неочевидных, объективных и полезных на практике закономерностей, которые скрыты в больших объёмах данных 25