Data are never good but they are good enough:
або пробуємо прогнозувати непрогнозоване
Ярослав Притула, керівник CS@UCU
Про що будем говорити
 Економічне/бізнес прогнозування та його різновиди
 Проект побудови довготермінових демографічних та
економічних прогнозів в США:
 Задача
 Рішення
 Проект надбудови над існуючим проектом:
 Задача
 Рішення
 Висновки
Прогнозиста образити може кожен
 Рим, 357 д.н.е. : Імператор Константіус заборонив
консультуватись з віщунами, математиками та
прогнозистами….. щоб цікавість передбачень
замовкла назавжди.
 В наші дні роль Константіуса виконують юристи, є
кейси судових розглядів (і засуджень!) через погані
передбаченя погоди, землетрусів, ураганів, паводків,
засух, снігопадів.
 Економічні прогнози
 Тенденція до усереднення
 The Economist: I never forecast a recession. If I’m right, no-one
will thank me; if I’m wrong, I’ll be fired
Прогнозиста образити може кожен
 Короткострокові v.s. довгострокові прогнози
Прогнозиста образити може кожен
Гібрид І типу
Гібрид ІІ типу
Рівень теоретичної
обґрунтованості
Рівень емпіричної обґрунтованості
DSGE
IDSGE
VAR
Класифікація Пагана макроекономічних моделей за ступенем
теоретичної та емпіричної обґрунтованості.
Джерело: Pagan, A. (2003). Report on Modelling and Forecasting at the Bank of
England. Bank of England Quarterly Bulletin (Spring), 1-29.
Різниця між Projection та Forecasting
 Projections – це прогноз зроблений на основі
заявленої моделі та заявлених припущень. Він вірний
настільки, наскільки вірна модель прогнозування та
зроблені припущення.
 Forecasting не вимагає оприлюднення детальної
моделі, на основі якої робиться прогноз.
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Коротко про економічну географію США
 Країна США – одна
 9 Multi-State Regions,
 51 States (including DC),
 179 Multi-County U.S. Economic Areas,
 361 Multi-County Metropolitan Statistical Areas
 29 Multi-County Metropolitan Divisions, and
 3099 (or 3142) Counties or County Equivalents.
 Разом 3729 географічних одиниць.
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Задача проекту
 Побудувати прогнози для 3729 географічних одиниць
 На 2005-2030 роки
 По 54 економічній та 51 демографічній змінній
 Іншими словами
 На основі понад 21 млн одиниць інформації
 Видати близько 2.5 млн одиниць інформації
 З яких понад 1 млн - прогнози
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Кому це потрібно
 Державні контрактори
 Рітейл
 Будівельні компанії
 Бібліотеки/університети
 Власне використання для побудови інших прогнозів
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Коротко про статистичну інформацію в США:
problems & opportunities
 Розподіл сфер та відповідальностей – Census, BEA,
Department of Justice, OFHEO, Office of the President….
 Різні терміни виходу нових даних
 Різні географічні поділи у різних агентствах
 Доступні стандартизовані дані з 1969 року, але
 Різні географічні поділи і класифікації
 Різні означення галузей: SIC vs NAICS
 Згрупована (схована) частина даних, через законодавство
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Етапи прогнозу: макрорівень
Макро прогноз базового року, як правило базується на даних від
Chief Economic Advisor to the President
Будуємо економічний прогноз до 2030 року виходячи з припущень
(прогнозів) зростання продуктивності –
Productivity isn't everything, but in the long run it is almost
everything @Paul Krugman
Прогноз демографічний залежить від коефіцієнтів народжуваності,
смертності та чистої імміграції, що в свою чергу залежить від
економічних чинників, на які впливає продуктивність і демографія.
Отже маємо систему одночасних рівнянь, яка дає нам
макропрогноз, до якого можна буде підтасовувати все інше.
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Етапи прогнозу: мікрорівень – ми любимо проблеми!
 Згідно законодавства США, не можна розголошувати дані по
тих галузях, де є менше рівно трьох компаній – Gap-filling
algorithm
 Gap-filling algorithm - the iterative proportion fitting (IPF)
algorithm (a.k.a. RAS algorithm), застосовується для контролю
сумування даних, як по галузі, так і по географічній одиниці.
Робимо це на рівні штатів, потім на рівні county.
 Деталі тут: M.H. Schneider and S.A. Zenios (1990), “A Comparative
Study of Algorithms for Matrix Balancing,” Operations Research,
38: 439-455.
 Проблеми/покращення: IPFRAS алгоритм передбачає внесення
початкових даних, що суттєво впливає на час та точність
кінцевого результату. Експериментування з різними
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Етапи прогнозу: мікрорівень – ми любимо проблеми!
 Зміни з галузевій класифікації, уніфікація географічних одиниць на
рівні county. Переводимо всі грошові дані в сталі долари
 Прогнозуємо основні економічні змінні (дохід та кількість
працюючих) виходячи з (і) темпів зростання County, (іі) темпів
зростання Economic Area, (iii) національного зростання.
Прогнозуємо та балансуємо дохід та кількість працюючих по
галузях.
 Демографія залежить від економіки, народжуваності/ смертності
та внутрішньої міграції. Частина counties мають специфічний
прогноз (військові бази, великі тюрми, тощо)
 Далі округлюються дані по людях – Rounding algorithm.
 Агрегуємо до бажаного рівня.
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Який output очікує клієнт (+/- 2005 рік)?
 Дані на сайті?
 Диск з даними?
 Дані надіслані емейлом?
 Дані надіслані факсом?
 Дані надіслані друкованим листом?
 Надрукована книжка з прогнозами?
 Графіки та візуалізації даних?
Використання базових прогнозів для
творення більш специфічних продуктів
 Construction Economics projections:
 Number of new housing units authorized by permits
 Number of new single-family units
 Average cost of construction of new housing unit
 Median Prices of Houses projections
 Projections of Building Permit Activity by Category of
Construction
 Специфічні прогнози для індивідуального замовника
Median Prices of Houses projections
 Початок проекту – 2004 рік, початок housing boom.
 Пошук даних
 Чи добрі дані?
 Case–Shiller Home Price Indices для порівняння
 Пошук замовників
Median Prices of Houses projections
Median Prices of Houses projections
Панельна регресія з фіксованими ефектами
HPRICEP = Ci
+ 3.69 YHH (high skew) + 1.55 YHH (medium skew) + 1.40 YHH (low skew)
- 3.42 MGRATE * valueSF/UnitsSF - 0.24 surplus 5 year
+ 270 899.30 Pop/Density, R2 = .95, DW =.60
YHH – income per household
MGRATE – monthly mortgage rate per single family unit
Surplus 5 year - surplus of new houses cumulated over the past five years
(comes as a difference between actual and estimates number of new
housing units available)
Pop/Density - indicator of limitations of building land availability.
Як вимірювати якість прогнозу при
мільйоні зроблених прогнозів?
 Якщо вибрана методика залежить від
побажань/преференцій споживача, то точність
прогнозу не варто вимірювати звичними методами.
 Окрім того, як виміряти якість прогнозу на 2020 чи
2030 рік?
Пропозиція 1: якщо клієнт задоволений і прийшов
знову (за наявності конкурентів), то якість є
задовільною.
Пропозиція 2: якщо ви можете переконати
муніципального регулятора зменшити ваш податок
виходячи з ваших оцінок (прогнозів), то якість є
задовільною.
Висновки
 Data are never good but they are good enough
 Бажаю всім працювати в information rich environment
 Data Science є (чи має бути) настільки Science в
прикладних дослідженнях, наскільки замовники
цього бажають
 Якщо ви працюєте з економічними даними, то важко
переносити методику прогнозу з однієї країни на
іншу, оскільки інститути, соціум та культура сильно
впливають як на економіку, так і на самі дані. Є
приємні виключення.
?Питання !Відповіді
11 червня 2016 – День відкритих дверей,
Львів, вул. Козельницька 2а, 13.00.
csds.ucu.edu.ua, cs.ucu.edu.ua

More Related Content

PPTX
Тема 5. Основи статистики та аналізу даних
PPTX
Основи статистики та аналізу даних. Представлення даних.
PPT
Soloviev cherkassy (vladimir soloviev's conflicted copy 2013 07-08)
PDF
Data Analysys for Smart City - IT Team
PPT
тема 5.3. прогнозн¦ досл¦дження збуту
PPTX
ЛК05. Дерева рішень в SAS Enterprise Miner.pptx
DOCX
Устимчук Павло ІН-203.docx
PPT
мпр т 1
Тема 5. Основи статистики та аналізу даних
Основи статистики та аналізу даних. Представлення даних.
Soloviev cherkassy (vladimir soloviev's conflicted copy 2013 07-08)
Data Analysys for Smart City - IT Team
тема 5.3. прогнозн¦ досл¦дження збуту
ЛК05. Дерева рішень в SAS Enterprise Miner.pptx
Устимчук Павло ІН-203.docx
мпр т 1

Similar to AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое. (20)

PDF
Yelyzaveta Tymoshenko: Практичні приклади використання Random Forest для вирі...
PPTX
ПЕТема 1.pptx
PPT
презентац я
DOCX
Lesson # 6. computer based tools for planning, executing and forecasting lear...
PPT
Презентація курсу з аналізу даних
PPTX
Михайло Згуровський. «Форсайт Економіки України: 2015-2030 роки»
PDF
Консенсус-прогноз на 2017-2018 рік
PDF
Рекомендації для оприлюднення наборів відкритих даних
PPTX
kuzmenko 2014
PDF
Багатофакторний регресійний аналіз за допомогою інструментарію статистики
PDF
Sergiy Potapov⁩: Інструменти різних стадій планування або скільки разів ми на...
PPTX
tkachenko 2014
PPT
Математичне програмування Alla
DOCX
Lesson #12. basics of statistical data analysis. data series
PDF
Консенсус-прогноз Мінекономрозвитку на 2015-2019 роки
PPTX
Візуалізація інформації
PPTX
Анна Ососінська "Управління проектним циклом"
Yelyzaveta Tymoshenko: Практичні приклади використання Random Forest для вирі...
ПЕТема 1.pptx
презентац я
Lesson # 6. computer based tools for planning, executing and forecasting lear...
Презентація курсу з аналізу даних
Михайло Згуровський. «Форсайт Економіки України: 2015-2030 роки»
Консенсус-прогноз на 2017-2018 рік
Рекомендації для оприлюднення наборів відкритих даних
kuzmenko 2014
Багатофакторний регресійний аналіз за допомогою інструментарію статистики
Sergiy Potapov⁩: Інструменти різних стадій планування або скільки разів ми на...
tkachenko 2014
Математичне програмування Alla
Lesson #12. basics of statistical data analysis. data series
Консенсус-прогноз Мінекономрозвитку на 2015-2019 роки
Візуалізація інформації
Анна Ососінська "Управління проектним циклом"
Ad

More from GeeksLab Odessa (20)

PDF
DataScience Lab2017_Коррекция геометрических искажений оптических спутниковых...
PDF
DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...
PDF
DataScience Lab 2017_Блиц-доклад_Турский Виктор
PDF
DataScience Lab 2017_Обзор методов детекции лиц на изображение
PDF
DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...
PDF
DataScienceLab2017_Блиц-доклад
PDF
DataScienceLab2017_Блиц-доклад
PDF
DataScienceLab2017_Блиц-доклад
PDF
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
PDF
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...
PDF
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
PDF
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
PDF
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
PDF
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
PDF
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
PDF
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
PDF
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
PDF
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
PDF
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
PPTX
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
DataScience Lab2017_Коррекция геометрических искажений оптических спутниковых...
DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...
DataScience Lab 2017_Блиц-доклад_Турский Виктор
DataScience Lab 2017_Обзор методов детекции лиц на изображение
DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...
DataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-доклад
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
Ad

AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое.

  • 1. Data are never good but they are good enough: або пробуємо прогнозувати непрогнозоване Ярослав Притула, керівник CS@UCU
  • 2. Про що будем говорити  Економічне/бізнес прогнозування та його різновиди  Проект побудови довготермінових демографічних та економічних прогнозів в США:  Задача  Рішення  Проект надбудови над існуючим проектом:  Задача  Рішення  Висновки
  • 3. Прогнозиста образити може кожен  Рим, 357 д.н.е. : Імператор Константіус заборонив консультуватись з віщунами, математиками та прогнозистами….. щоб цікавість передбачень замовкла назавжди.  В наші дні роль Константіуса виконують юристи, є кейси судових розглядів (і засуджень!) через погані передбаченя погоди, землетрусів, ураганів, паводків, засух, снігопадів.  Економічні прогнози  Тенденція до усереднення  The Economist: I never forecast a recession. If I’m right, no-one will thank me; if I’m wrong, I’ll be fired
  • 4. Прогнозиста образити може кожен  Короткострокові v.s. довгострокові прогнози
  • 5. Прогнозиста образити може кожен Гібрид І типу Гібрид ІІ типу Рівень теоретичної обґрунтованості Рівень емпіричної обґрунтованості DSGE IDSGE VAR Класифікація Пагана макроекономічних моделей за ступенем теоретичної та емпіричної обґрунтованості. Джерело: Pagan, A. (2003). Report on Modelling and Forecasting at the Bank of England. Bank of England Quarterly Bulletin (Spring), 1-29.
  • 6. Різниця між Projection та Forecasting  Projections – це прогноз зроблений на основі заявленої моделі та заявлених припущень. Він вірний настільки, наскільки вірна модель прогнозування та зроблені припущення.  Forecasting не вимагає оприлюднення детальної моделі, на основі якої робиться прогноз.
  • 7. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Коротко про економічну географію США  Країна США – одна  9 Multi-State Regions,  51 States (including DC),  179 Multi-County U.S. Economic Areas,  361 Multi-County Metropolitan Statistical Areas  29 Multi-County Metropolitan Divisions, and  3099 (or 3142) Counties or County Equivalents.  Разом 3729 географічних одиниць.
  • 8. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Задача проекту  Побудувати прогнози для 3729 географічних одиниць  На 2005-2030 роки  По 54 економічній та 51 демографічній змінній  Іншими словами  На основі понад 21 млн одиниць інформації  Видати близько 2.5 млн одиниць інформації  З яких понад 1 млн - прогнози
  • 9. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Кому це потрібно  Державні контрактори  Рітейл  Будівельні компанії  Бібліотеки/університети  Власне використання для побудови інших прогнозів
  • 10. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Коротко про статистичну інформацію в США: problems & opportunities  Розподіл сфер та відповідальностей – Census, BEA, Department of Justice, OFHEO, Office of the President….  Різні терміни виходу нових даних  Різні географічні поділи у різних агентствах  Доступні стандартизовані дані з 1969 року, але  Різні географічні поділи і класифікації  Різні означення галузей: SIC vs NAICS  Згрупована (схована) частина даних, через законодавство
  • 11. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Етапи прогнозу: макрорівень Макро прогноз базового року, як правило базується на даних від Chief Economic Advisor to the President Будуємо економічний прогноз до 2030 року виходячи з припущень (прогнозів) зростання продуктивності – Productivity isn't everything, but in the long run it is almost everything @Paul Krugman Прогноз демографічний залежить від коефіцієнтів народжуваності, смертності та чистої імміграції, що в свою чергу залежить від економічних чинників, на які впливає продуктивність і демографія. Отже маємо систему одночасних рівнянь, яка дає нам макропрогноз, до якого можна буде підтасовувати все інше.
  • 12. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Етапи прогнозу: мікрорівень – ми любимо проблеми!  Згідно законодавства США, не можна розголошувати дані по тих галузях, де є менше рівно трьох компаній – Gap-filling algorithm  Gap-filling algorithm - the iterative proportion fitting (IPF) algorithm (a.k.a. RAS algorithm), застосовується для контролю сумування даних, як по галузі, так і по географічній одиниці. Робимо це на рівні штатів, потім на рівні county.  Деталі тут: M.H. Schneider and S.A. Zenios (1990), “A Comparative Study of Algorithms for Matrix Balancing,” Operations Research, 38: 439-455.  Проблеми/покращення: IPFRAS алгоритм передбачає внесення початкових даних, що суттєво впливає на час та точність кінцевого результату. Експериментування з різними
  • 13. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Етапи прогнозу: мікрорівень – ми любимо проблеми!  Зміни з галузевій класифікації, уніфікація географічних одиниць на рівні county. Переводимо всі грошові дані в сталі долари  Прогнозуємо основні економічні змінні (дохід та кількість працюючих) виходячи з (і) темпів зростання County, (іі) темпів зростання Economic Area, (iii) національного зростання. Прогнозуємо та балансуємо дохід та кількість працюючих по галузях.  Демографія залежить від економіки, народжуваності/ смертності та внутрішньої міграції. Частина counties мають специфічний прогноз (військові бази, великі тюрми, тощо)  Далі округлюються дані по людях – Rounding algorithm.  Агрегуємо до бажаного рівня.
  • 14. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Який output очікує клієнт (+/- 2005 рік)?  Дані на сайті?  Диск з даними?  Дані надіслані емейлом?  Дані надіслані факсом?  Дані надіслані друкованим листом?  Надрукована книжка з прогнозами?  Графіки та візуалізації даних?
  • 15. Використання базових прогнозів для творення більш специфічних продуктів  Construction Economics projections:  Number of new housing units authorized by permits  Number of new single-family units  Average cost of construction of new housing unit  Median Prices of Houses projections  Projections of Building Permit Activity by Category of Construction  Специфічні прогнози для індивідуального замовника
  • 16. Median Prices of Houses projections  Початок проекту – 2004 рік, початок housing boom.  Пошук даних  Чи добрі дані?  Case–Shiller Home Price Indices для порівняння  Пошук замовників
  • 17. Median Prices of Houses projections
  • 18. Median Prices of Houses projections Панельна регресія з фіксованими ефектами HPRICEP = Ci + 3.69 YHH (high skew) + 1.55 YHH (medium skew) + 1.40 YHH (low skew) - 3.42 MGRATE * valueSF/UnitsSF - 0.24 surplus 5 year + 270 899.30 Pop/Density, R2 = .95, DW =.60 YHH – income per household MGRATE – monthly mortgage rate per single family unit Surplus 5 year - surplus of new houses cumulated over the past five years (comes as a difference between actual and estimates number of new housing units available) Pop/Density - indicator of limitations of building land availability.
  • 19. Як вимірювати якість прогнозу при мільйоні зроблених прогнозів?  Якщо вибрана методика залежить від побажань/преференцій споживача, то точність прогнозу не варто вимірювати звичними методами.  Окрім того, як виміряти якість прогнозу на 2020 чи 2030 рік? Пропозиція 1: якщо клієнт задоволений і прийшов знову (за наявності конкурентів), то якість є задовільною. Пропозиція 2: якщо ви можете переконати муніципального регулятора зменшити ваш податок виходячи з ваших оцінок (прогнозів), то якість є задовільною.
  • 20. Висновки  Data are never good but they are good enough  Бажаю всім працювати в information rich environment  Data Science є (чи має бути) настільки Science в прикладних дослідженнях, наскільки замовники цього бажають  Якщо ви працюєте з економічними даними, то важко переносити методику прогнозу з однієї країни на іншу, оскільки інститути, соціум та культура сильно впливають як на економіку, так і на самі дані. Є приємні виключення.
  • 21. ?Питання !Відповіді 11 червня 2016 – День відкритих дверей, Львів, вул. Козельницька 2а, 13.00. csds.ucu.edu.ua, cs.ucu.edu.ua