цели



Digital Society Laboratory

ЛЦО
Направления исследований
Направления исследований
                                         Экономика внимания



                                    Исследования интернет сообществ



                                     Информационная вирусология



                                     Анализ вкусовых предпочтений



                                      Топология социальных сетей
Модель работы
Направления исследований


                                                       Developers




                                            Data
                                          Scientists


                                                               Sociologists



                               OpenSNAP
концепция и перспектива



Digital Society Laboratory

OpenSNAP
Идея платформы OpenSNAP




Идея

Мы хотим построить универсальную систему работы с данными
социальных сетей. Систему, ориентированную на накопление и
параллельную обработку данных о взаимодействиях пользователей
ряда соцсетей. Эта система станет ядром платформы для упрощения
социального анализа и осуществления сложных аналитических запросов
к социальным графам.
Примеры вопросов на которые поможет ответить OpenSNAP


Примеры аналитических запросов:

• «Найти ТОП2000 социально влиятельной аудитории, которая
  проводит в соцсетях более 2 часов в день со следующими
  параметрами < мужчины>,<30-45>,<средний достаток>.В ответе
  указать статистику временной и тематической активности в
  различных СС.»

• «Показать как изменялась структура сети и модель общения за
  последний год в русскоязычном facebook и сравнить эти изменения с
  тем, что происходило в “моем мире”

• «Провести подсчет индикаций вкусовых предпочтений в Вконтакте
  по кино и книгам у заданной списком имен и доп. параметров
  аудитории»
Стратегия монетизации монетизация




Бизнес модель:

Предоставление вычислительных и информационных услуг
исследователям, рекламным компаниям и компаниям
развивающим интернет проекты. Мы дадим возможность
исследователям и стартапам анализировать данные
социальных сетей на универсальной площадке с готовой
инфраструктурой.                       4 ступеней модели>>
Четыре ступени бизнес модели


                                                              👬
        👬               👬               👬

        👬               👬               👬

        👬               👬
        👬                          Среда работы         Аналитический
                                     внешних              инструмент
        👬                         исследователей         маркетологов
                                         +
                     Инструмент   Рынок данных и
 Программируемая      социолога     алгоритмов
полуавтоматическая
    платформа
Общий вид площадки




                     ⊛= Vis( M,a,b,c)

                                        4   1

                                        3   2

                      OpenSNAP
Сценарий площадки


                    4     1
         �
      «Социомат»    3     2




Библиотека          OpenSNAP
операторов
Данные и форматы




                   ⨋
                         ℀
         ETL       ETL




         1         2
Операторы и преобразования



   ETL1       ETL1        op           Vis




                     ⊙
                     ◉☉


                          ⊙= op n( M,a,b,c)
                          ◉☉
OpenSNAP в конкурентном ландшафте: данные


                                  Небольшие,   1000    «Плоские» файлы в памяти
                   собранные в ручную данные   узлов


                        Средние данные,                       SQL базы данных
                                               10^6
                   Снимки сетей через API

                           Big Data                                 Big Data технологии
              Данные для обработки             10^9
        в реальном времени




Наборы данных собранные в ручную или результаты предварительных
выборок могут поместиться в памяти. Графы в 1,000 узлов (с
вероятностью связности 0.8 = 800,000 связей) потребуют 100MB без учета
атрибутов. Такой же граф в 2,000 узлов (и почти 2М связей) потребует
500MB. В общем случае связность оценивается в O(n)=n +n2=n(n+1).
OpenSNAP зачем нам нужны Big Data решения?

  1. Средства анализа и визуализации графов существуют уже в большом количестве и
     разнообразии
  2. Мы можем занять нишу коллекторов больших объемов данных с возможностями
     ретроспективных временных срезов
  3. Мы также можем построить технологии запуска вычислительных задач на наших
     системах и это будет единственным живым решением для аналитиков во всем мире, т.к.
     скачать их будет невозможно, если конечно они не инвестируют значительное время и
     ресурсы для того, чтобы сделать ту работу, которую хотим взять на себя мы. Это также
     обычно не задача исследователей + на инфраструктурные работы у них нет ресурсов

“…Going back to Twitter as an example, we can scan the 1% sample stream for general
trends and topics—anything important enough to generate at least a hundred messages
will probably show up. Or, since we are interested in networks, the very active people
will make a blip on our radar and we can even see some connections. If that is all we
want, storing even a few hundred gigs worth of traffic (in this example, equivalent to a
few months time) is no big deal. But what if we wanted to explore trends among the
lesser active participants over a few years? The answers would lie in some pretty big
data, and to get them, we would have to store and process it somehow.
Now that we have some idea of the scope of the problem, what do we do with a
terabyte of social chatter a day?
                                            –Maksim Tsvetovat
Collaboration
Сотрудничество + платформа, дадут
возможность широкому кругу
исследователей сосредоточиться на
научных задачах вместо того, чтобы тратить
свое время на инфраструктуру вычислений
и работу с данными
I2 Social Network Analysis

Примеры того что сейчас есть   Позволяет визуально представить структуру взаимоотношений в социальных
                               сетях путем расчета betweenness, closeness, degree and eigenvector hubs and
                               authorities centrality measures.
                               >video
DataSift

Примеры того что сейчас есть
                               Позволяет получить базу Твитов или подключиться к онлайн потоку, настроить фильтр и
                               визуализировать информацию. Для сторонних разработчиков выступает в роли
                               платформы для написания и встраивания своих фильтров.
                               >video
NetworkX
Примеры того что сейчас есть   Библиотека на Python для анализа графов
                               >http://networkx.github.com
NodeXL
Примеры того что сейчас есть   Приложение + Excel plugin для анализа графов
                               визуализации.
                               http://nodexl.codeplex.com
                               http://www.smrfoundation.org
Stanford Large Network Dataset Collection
Примеры того что сейчас есть
                               Коллекция данных Лесковца
                               http://snap.stanford.edu/data/
Nodus Lab
Примеры того что сейчас есть
                               Лаборатория типа того что мы хотели бы стать)
                               http://noduslabs.com/about/
                               http://www.facebook.com/noduslabs

More Related Content

PPTX
Ispras (трудаков, коршунов)
PPTX
презентация экбсон 2014(мгу)
PPT
Информационно поисковые системы
PPT
Поиск информации в интернете при помощи поисковых систем
PPT
ИКТ в гуманитарных науках
PPT
поисковые системы
PPTX
Поисковая система
POT
Algorithms overview for content discovery and distribution (on russian)
Ispras (трудаков, коршунов)
презентация экбсон 2014(мгу)
Информационно поисковые системы
Поиск информации в интернете при помощи поисковых систем
ИКТ в гуманитарных науках
поисковые системы
Поисковая система
Algorithms overview for content discovery and distribution (on russian)

What's hot (12)

PPT
информационные и информационно поисковые системы интернет
PPTX
Brands.i look v5-n4
PPTX
20150129 минобороны презентация v02
PDF
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
PPT
Search systems
PPTX
Разновидности поисковых систем в Интернете
PPTX
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
PDF
Ainl 2013 bogatyrev_математическая и лингвистическая
PPT
Структура и алгоритмы Q&A сервиса на примере Aardvark
PPTX
Современное программное обеспечение в работе психолога
PPT
Поиск информации в Интернете
информационные и информационно поисковые системы интернет
Brands.i look v5-n4
20150129 минобороны презентация v02
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
Search systems
Разновидности поисковых систем в Интернете
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Ainl 2013 bogatyrev_математическая и лингвистическая
Структура и алгоритмы Q&A сервиса на примере Aardvark
Современное программное обеспечение в работе психолога
Поиск информации в Интернете
Ad

Viewers also liked (20)

PPTX
Second Language Acquisition and Schizophrenia
PDF
Could Martial Arts Improve Your Life
PPTX
Lalu pleelu
PDF
Kredyty, finanse, doradztwo w Wroclaw
DOCX
Generalized capital investment planning of oil-refineries using CPLEX-MILP an...
PDF
植物生理学第13回
PDF
Dsl public
PPTX
Arthst2 mat techniques_porcelainlacqueredwood_final
PPT
影像好日子隨手拍
PDF
Intropdf
PPTX
Lalalalalallalaa
PDF
Time Series Estimation of Gas Furnace Data in IMPL and CPLEX Industrial Model...
PDF
Reimagine your enterprise: Make Human Centered Design the Heart of Your Digit...
PPTX
소셜 네트워크
PDF
Modeling Multimodal Process Operations
PPT
Moo cs digitalisation_book-mooc_cmg
PPTX
о компании
PPTX
The walking dead
Second Language Acquisition and Schizophrenia
Could Martial Arts Improve Your Life
Lalu pleelu
Kredyty, finanse, doradztwo w Wroclaw
Generalized capital investment planning of oil-refineries using CPLEX-MILP an...
植物生理学第13回
Dsl public
Arthst2 mat techniques_porcelainlacqueredwood_final
影像好日子隨手拍
Intropdf
Lalalalalallalaa
Time Series Estimation of Gas Furnace Data in IMPL and CPLEX Industrial Model...
Reimagine your enterprise: Make Human Centered Design the Heart of Your Digit...
소셜 네트워크
Modeling Multimodal Process Operations
Moo cs digitalisation_book-mooc_cmg
о компании
The walking dead
Ad

Similar to Digital Society Laboratory (Аршавский) (20)

PPTX
зао «эвентос»
PDF
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
PPTX
Сколково. Кластер ИТ
PPTX
Одна лекция из мира Big Data: тренды, кейсы и технологии
PDF
QueryHunter project overview for lenovo
PPTX
Логическая витрина данных
PDF
Программа семинара
PPTX
Графовый грааль (GraphGrail) - презентация проекта для фондов (2013)
PDF
Профессия Data Scientist
PPTX
Взгляд на Data Science
PPTX
графовый грааль для фрии (2014)
PPT
Графовый Грааль - для ФРИИ (2014)
PPTX
презентация оо субд сколково
PPTX
Графовый Грааль - для ФРИИ (09.07.2014)
PPTX
Презентация Сколково на конференции Перспективные системы и задачи упралвления
PDF
брошюра сколково кластер ит
PPTX
графовый грааль 2мин. demo day (2014)
PDF
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
PPTX
Основы концептуального проектирования
зао «эвентос»
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Сколково. Кластер ИТ
Одна лекция из мира Big Data: тренды, кейсы и технологии
QueryHunter project overview for lenovo
Логическая витрина данных
Программа семинара
Графовый грааль (GraphGrail) - презентация проекта для фондов (2013)
Профессия Data Scientist
Взгляд на Data Science
графовый грааль для фрии (2014)
Графовый Грааль - для ФРИИ (2014)
презентация оо субд сколково
Графовый Грааль - для ФРИИ (09.07.2014)
Презентация Сколково на конференции Перспективные системы и задачи упралвления
брошюра сколково кластер ит
графовый грааль 2мин. demo day (2014)
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Основы концептуального проектирования

More from Andzhey Arshavskiy (10)

PDF
dsl & bigdata
PPTX
BigData in Banking
PPTX
Digital Society Lab (about)
PDF
Digital Society Laboratory (DSL)
PDF
WHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETING
PDF
Dmitry Gubanov presentation for ФИSNA
PDF
Дмитрий Игнатов для ФИSNA
PPS
мосты
PPS
Japan creativity.pps
PDF
Big data, Clouds & HPC
dsl & bigdata
BigData in Banking
Digital Society Lab (about)
Digital Society Laboratory (DSL)
WHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETING
Dmitry Gubanov presentation for ФИSNA
Дмитрий Игнатов для ФИSNA
мосты
Japan creativity.pps
Big data, Clouds & HPC

Digital Society Laboratory (Аршавский)

  • 2. Направления исследований Направления исследований Экономика внимания Исследования интернет сообществ Информационная вирусология Анализ вкусовых предпочтений Топология социальных сетей
  • 3. Модель работы Направления исследований Developers Data Scientists Sociologists OpenSNAP
  • 5. Идея платформы OpenSNAP Идея Мы хотим построить универсальную систему работы с данными социальных сетей. Систему, ориентированную на накопление и параллельную обработку данных о взаимодействиях пользователей ряда соцсетей. Эта система станет ядром платформы для упрощения социального анализа и осуществления сложных аналитических запросов к социальным графам.
  • 6. Примеры вопросов на которые поможет ответить OpenSNAP Примеры аналитических запросов: • «Найти ТОП2000 социально влиятельной аудитории, которая проводит в соцсетях более 2 часов в день со следующими параметрами < мужчины>,<30-45>,<средний достаток>.В ответе указать статистику временной и тематической активности в различных СС.» • «Показать как изменялась структура сети и модель общения за последний год в русскоязычном facebook и сравнить эти изменения с тем, что происходило в “моем мире” • «Провести подсчет индикаций вкусовых предпочтений в Вконтакте по кино и книгам у заданной списком имен и доп. параметров аудитории»
  • 7. Стратегия монетизации монетизация Бизнес модель: Предоставление вычислительных и информационных услуг исследователям, рекламным компаниям и компаниям развивающим интернет проекты. Мы дадим возможность исследователям и стартапам анализировать данные социальных сетей на универсальной площадке с готовой инфраструктурой. 4 ступеней модели>>
  • 8. Четыре ступени бизнес модели 👬 👬 👬 👬 👬 👬 👬 👬 👬 👬 Среда работы Аналитический внешних инструмент 👬 исследователей маркетологов + Инструмент Рынок данных и Программируемая социолога алгоритмов полуавтоматическая платформа
  • 9. Общий вид площадки ⊛= Vis( M,a,b,c) 4 1 3 2 OpenSNAP
  • 10. Сценарий площадки 4 1 � «Социомат» 3 2 Библиотека OpenSNAP операторов
  • 11. Данные и форматы ⨋ ℀ ETL ETL 1 2
  • 12. Операторы и преобразования ETL1 ETL1 op Vis ⊙ ◉☉ ⊙= op n( M,a,b,c) ◉☉
  • 13. OpenSNAP в конкурентном ландшафте: данные Небольшие, 1000 «Плоские» файлы в памяти собранные в ручную данные узлов Средние данные, SQL базы данных 10^6 Снимки сетей через API Big Data Big Data технологии Данные для обработки 10^9 в реальном времени Наборы данных собранные в ручную или результаты предварительных выборок могут поместиться в памяти. Графы в 1,000 узлов (с вероятностью связности 0.8 = 800,000 связей) потребуют 100MB без учета атрибутов. Такой же граф в 2,000 узлов (и почти 2М связей) потребует 500MB. В общем случае связность оценивается в O(n)=n +n2=n(n+1).
  • 14. OpenSNAP зачем нам нужны Big Data решения? 1. Средства анализа и визуализации графов существуют уже в большом количестве и разнообразии 2. Мы можем занять нишу коллекторов больших объемов данных с возможностями ретроспективных временных срезов 3. Мы также можем построить технологии запуска вычислительных задач на наших системах и это будет единственным живым решением для аналитиков во всем мире, т.к. скачать их будет невозможно, если конечно они не инвестируют значительное время и ресурсы для того, чтобы сделать ту работу, которую хотим взять на себя мы. Это также обычно не задача исследователей + на инфраструктурные работы у них нет ресурсов “…Going back to Twitter as an example, we can scan the 1% sample stream for general trends and topics—anything important enough to generate at least a hundred messages will probably show up. Or, since we are interested in networks, the very active people will make a blip on our radar and we can even see some connections. If that is all we want, storing even a few hundred gigs worth of traffic (in this example, equivalent to a few months time) is no big deal. But what if we wanted to explore trends among the lesser active participants over a few years? The answers would lie in some pretty big data, and to get them, we would have to store and process it somehow. Now that we have some idea of the scope of the problem, what do we do with a terabyte of social chatter a day? –Maksim Tsvetovat
  • 15. Collaboration Сотрудничество + платформа, дадут возможность широкому кругу исследователей сосредоточиться на научных задачах вместо того, чтобы тратить свое время на инфраструктуру вычислений и работу с данными
  • 16. I2 Social Network Analysis Примеры того что сейчас есть Позволяет визуально представить структуру взаимоотношений в социальных сетях путем расчета betweenness, closeness, degree and eigenvector hubs and authorities centrality measures. >video
  • 17. DataSift Примеры того что сейчас есть Позволяет получить базу Твитов или подключиться к онлайн потоку, настроить фильтр и визуализировать информацию. Для сторонних разработчиков выступает в роли платформы для написания и встраивания своих фильтров. >video
  • 18. NetworkX Примеры того что сейчас есть Библиотека на Python для анализа графов >http://networkx.github.com
  • 19. NodeXL Примеры того что сейчас есть Приложение + Excel plugin для анализа графов визуализации. http://nodexl.codeplex.com http://www.smrfoundation.org
  • 20. Stanford Large Network Dataset Collection Примеры того что сейчас есть Коллекция данных Лесковца http://snap.stanford.edu/data/
  • 21. Nodus Lab Примеры того что сейчас есть Лаборатория типа того что мы хотели бы стать) http://noduslabs.com/about/ http://www.facebook.com/noduslabs

Editor's Notes

  • #17: http://jarens.ru/анализ-социальных-сетей-в-i2-analyst-notebook/:Продукция компании i2 является весьма популярной в различных аналитических службах. И как следствие — дорогой. Особенно распиарена их платформа Analyst Notebook, предназначенная для анализа связей (Link Analysis). А также в неё есть некоторый функционал для анализа социальных сетей (Social Network Analysis). Предлагаемый по ссылке вебинар смотреть я не стал и, так как инструмент был под руками, решил его опробовать.Для начала построил картинку по данным диссера:На вид она весьма читаема за счёт удачного расположения узлов. Однако, если приглядеться, то можно увидеть, что веса исходящих и входящих связей на ней отображены отдельно. Возможно, в каких-то ситуациях это и является преимуществом, если бы не одно “но”. Суммировать эти веса AnalystNotebook не умеет. Вроде бы и тривиальная вещь, а тем не менее.Из сетевых метрик есть только классические показатели центральности: degree, closeness, betweenness и eigenvector. Всё. На этом функционал сетевого анализа заканчивается. Разве что масштабирование размеров узлов есть в зависимости от центральности. Но это уже больше к визуализации относится.Вообще, меня не покидает ощущение, что программы подобного класса по сути продают воздух. Вся их ценность, на мой взгляд, заключается только в семантическом слое, который позволяет создавать запросы к БД перетаскиванием иконок. Кстати, функционал БД у них тоже дублируется приложением iBase, смысл которого мне тем более не понятен, т.к. AnalystNotebook умеет подключаться к MS SQL Server напрямую.Впрочем, такую бедность инструментария AnalystNotebook можно списать на основные цели программы. Всё таки LinkAnalysis предназначен в основном для поиска связей между сущностями, в то время как анализ социальных сетей предназначен для изучения уже имеющихся связей. Поэтому вполне разумно использовать эти методологии и соответствующие им инструменты последовательно, в связке: LA -&gt; SNA. Если у меня получится подобный кейс — расскажу.