SlideShare a Scribd company logo
Организационные и технологические подходы 
к публикации информации 
в форме открытых данных 
Радченко Ирина Алексеевна 
кандидат технических наук, доцент 
http://about.me/Irina.Radchenko 
http://iRadche.ru 
Высшая школа экономики, Москва, 2013 
www.hse.ru
Методические рекомендации 
по публикации открытых данных 
2 
Источник: http://data.gov.ru/metodicheskie-rekomendacii-po-publikacii-otkrytyh-dannyh-versiya-30
Факторы, которые необходимо учитывать 
3 
Востребованность соответствующих наборов 
открытых данных потенциальными 
потребителями информации 
Степень готовности, характеризующуюся наличием 
необходимых данных в электронном виде 
Затраты на публикацию (финансовые, временные, 
трудовые)
Валидация и очистка наборов данных 
4 
Одна из важных проблем 
при публикации наборов данных – 
наличие ошибок
Типичные ошибки в наборах данных 
5 
1. Смешивание различных форматов 
(временных, географических и т.д.)
Типичные ошибки в наборах данных 
6 
2. Различное представление одних 
и тех же значений (г., гор., город)
Типичные ошибки в наборах данных 
7 
3. Дублирование записей
Типичные ошибки в наборах данных 
8 
4. Использование разных 
размерностей
Типичные ошибки в наборах данных 
9 
5. Ошибки аббревиатур
10 
Решение – использование 
инструментария для очистки данных 
OpenRefine
Преимущества OpenRefine 
11 
Бесплатное программное обеспечение 
Совместим со всеми браузерами 
Существует возможность работать в оффлайне 
Нет необходимости в пересылке данных по интернету 
Существует возможность работать с историей внесенных 
изменений 
Существует возможность визуализации различных 
характеристик наборов данных 
Существует возможность работать с данными различных 
машиночитаемых форматов
Форматы открытых данных 
12
Формат PDF (Portable Document Format) 
13 
Представление в электронном виде полиграфической продукции 
Достоинства Недостаток 
Представление документов 
в электронном виде 
Мало пригоден 
для машинной 
обработки 
Кроссплатформенность 
Стандарт ISO 32000-1:2008 
Много программного 
обеспечения (в том числе, 
свободного) для работы 
с данным форматом
Excel-формат 
14 
Представление данных в табличной форме 
Представление данных в табличной форме 
Пригодность для машинной обработки 
Много программного обеспечения для работы 
с данным форматом
Формат CSV 
15 
Представление данных в табличной форме 
Представление данных в табличной форме 
Пригодность для машинной обработки, 
понятен человеку 
Открытый формат данных 
Много программного обеспечения (в том числе, 
онлайн-сервисов) для работы с данным 
форматом
Формат JSON (JavaScript Object Notation) 
16 
Текстовый формат обмена данными 
Читается как компьютерами, так и людьми 
(хотя людям понять его сложнее, чем CSV) 
Пригодность для машинной обработки 
Может использоваться с любым языком 
программирования 
Подходит для сериализации сложных структур 
данных
Формат XML (eXtensible Markup Language) 
17 
Читается как компьютерами, так и людьми 
Рекомендован консорциумом W3C 
Пригодность для машинной обработки 
Удобен для обмена данными (а также 
документами) в интернете
Модель представления данных RDF 
18 
Пригодность для машинной обработки 
Является частью Семантического веба 
(Semantic Web) 
Используемые форматы данных: RDF/XML, 
RDF/JSON, RDFa, N-Triples, Turtle, N3 
Использует словари, таксономии и онтологии
General Transit Feed Specification (GTFS) 
19 
Источник: http://www.gtfs-data-exchange.com/how-to-provide-open-data
Формат GeoJSON (спецификация) 
20 
Источник: http://geojson.org/
Формат GeoJSON (спецификация) 
21 
Источник: http://gis-lab.info/docs/geojson_ru.html
Спасибо за внимание! 
http://iRadche.ru 
http://about.me/Irina.Radchenko 
@iRadche 
http://iRadche.livejournal.com/ 
https://www.facebook.com/iRadche 
http://www.slideshare.net/iRadche

More Related Content

PDF
Предварительная подготовка данных к публикации и оценка качества открытых данных
PDF
Виталий Власов
PDF
Открытые данные: мировые тенденции и ситуация в России
PDF
Инструменты визуализации
PDF
Open data: quality and values
PDF
Open data-and-data-journalism women
PDF
Your research as open science
PPTX
Open Data
Предварительная подготовка данных к публикации и оценка качества открытых данных
Виталий Власов
Открытые данные: мировые тенденции и ситуация в России
Инструменты визуализации
Open data: quality and values
Open data-and-data-journalism women
Your research as open science
Open Data

Viewers also liked (16)

PPTX
Open Data
PDF
Open Science concept in its implementation
PPTX
Open Data
PPTX
УИС РОССИЯ: информационная инфраструктура для поддержки инновационных учебн...
PPTX
"Data Visualization in Europe" for Open Data School
PDF
Обработка данных для построения цифровой истории в журналистике данных
PDF
Работа с открытыми данными (Open GeoData)
PDF
Russian Open Educational Resource dedicated Data Journalism
PDF
Open Knowledge Foundation Russia
PDF
Some Russian Open data and Data Journalism projects
PDF
Введение в журналистику данных (Data Journalism)
PDF
Open data in biology
PDF
Open science platforms
PDF
Мастер-класс по журналистике данных (Data Journalism workshop)
PPTX
Система контроля версий Github не для итишников
PDF
Open Data and Data Journalism in Russia
Open Data
Open Science concept in its implementation
Open Data
УИС РОССИЯ: информационная инфраструктура для поддержки инновационных учебн...
"Data Visualization in Europe" for Open Data School
Обработка данных для построения цифровой истории в журналистике данных
Работа с открытыми данными (Open GeoData)
Russian Open Educational Resource dedicated Data Journalism
Open Knowledge Foundation Russia
Some Russian Open data and Data Journalism projects
Введение в журналистику данных (Data Journalism)
Open data in biology
Open science platforms
Мастер-класс по журналистике данных (Data Journalism workshop)
Система контроля версий Github не для итишников
Open Data and Data Journalism in Russia
Ad

Similar to Open Data (20)

PDF
Open Data aspects
PDF
Форматы открытых данных и работа с открытыми данными
PDF
Технические аспекты открытых данных
PDF
Мастер класс по открытым данным
PPTX
Открытые данные, как инструмент создания собственных коммерческих приложений ...
PPTX
Стандартизация форматов семантических данных (машиностроение)
PDF
Cодержание и публикация наборов данных
PDF
Введение в открытые данные (Open Data introduction)
PDF
Открытые данные: мировые тенденции, предпосылки возникновения и основные напр...
PDF
Как и где искать открытые данные?
PPTX
Семантические информационные модели и ISO 15926
PDF
Антон Полухин, Данные «Портала открытых данных правительства Москвы» в формат...
PDF
Введение в открытые данные. Первое занятие Школы открытых данных
PDF
9946
PDF
Open data
PDF
Информационно-справочная онлайн база социальных результатов и показателей
PDF
Где и как хранить данные в процессе их анализа:  SQL и не только…
PDF
Современная система управления порталом для создания сервисов в интернет ново...
PDF
Моделирование для NoSQL БД
PPTX
Интеграция данных компании
Open Data aspects
Форматы открытых данных и работа с открытыми данными
Технические аспекты открытых данных
Мастер класс по открытым данным
Открытые данные, как инструмент создания собственных коммерческих приложений ...
Стандартизация форматов семантических данных (машиностроение)
Cодержание и публикация наборов данных
Введение в открытые данные (Open Data introduction)
Открытые данные: мировые тенденции, предпосылки возникновения и основные напр...
Как и где искать открытые данные?
Семантические информационные модели и ISO 15926
Антон Полухин, Данные «Портала открытых данных правительства Москвы» в формат...
Введение в открытые данные. Первое занятие Школы открытых данных
9946
Open data
Информационно-справочная онлайн база социальных результатов и показателей
Где и как хранить данные в процессе их анализа:  SQL и не только…
Современная система управления порталом для создания сервисов в интернет ново...
Моделирование для NoSQL БД
Интеграция данных компании
Ad

More from Irina Radchenko (20)

PDF
Аналитик, данные и джаз
PDF
Open access as is
PDF
Дата-экспедиции. Data Expeditions
PDF
Data expedition
PDF
Data Expeditions Eduthon
PDF
Анализ 
и визуализация данных
PDF
Data management syllabus
PDF
Data journalist
PDF
Solving Data Integration Problems in Medical Imaging System: A Case Study in ...
PDF
FREYA project
PDF
How to become a Data Scientist
PDF
Вебинар по статистике
PDF
Программа CATT
PDF
Introduction to Data Journalism
PDF
Introduction to Open Data
PDF
Open Data hackathons in Russia
PDF
Working with Open Data
PDF
Introduction to Data Journalism
PDF
Open science as a cultural basis in Digital economy
PDF
THOR: Technical and Human infrastructure for Open Research
Аналитик, данные и джаз
Open access as is
Дата-экспедиции. Data Expeditions
Data expedition
Data Expeditions Eduthon
Анализ 
и визуализация данных
Data management syllabus
Data journalist
Solving Data Integration Problems in Medical Imaging System: A Case Study in ...
FREYA project
How to become a Data Scientist
Вебинар по статистике
Программа CATT
Introduction to Data Journalism
Introduction to Open Data
Open Data hackathons in Russia
Working with Open Data
Introduction to Data Journalism
Open science as a cultural basis in Digital economy
THOR: Technical and Human infrastructure for Open Research

Open Data

  • 1. Организационные и технологические подходы к публикации информации в форме открытых данных Радченко Ирина Алексеевна кандидат технических наук, доцент http://about.me/Irina.Radchenko http://iRadche.ru Высшая школа экономики, Москва, 2013 www.hse.ru
  • 2. Методические рекомендации по публикации открытых данных 2 Источник: http://data.gov.ru/metodicheskie-rekomendacii-po-publikacii-otkrytyh-dannyh-versiya-30
  • 3. Факторы, которые необходимо учитывать 3 Востребованность соответствующих наборов открытых данных потенциальными потребителями информации Степень готовности, характеризующуюся наличием необходимых данных в электронном виде Затраты на публикацию (финансовые, временные, трудовые)
  • 4. Валидация и очистка наборов данных 4 Одна из важных проблем при публикации наборов данных – наличие ошибок
  • 5. Типичные ошибки в наборах данных 5 1. Смешивание различных форматов (временных, географических и т.д.)
  • 6. Типичные ошибки в наборах данных 6 2. Различное представление одних и тех же значений (г., гор., город)
  • 7. Типичные ошибки в наборах данных 7 3. Дублирование записей
  • 8. Типичные ошибки в наборах данных 8 4. Использование разных размерностей
  • 9. Типичные ошибки в наборах данных 9 5. Ошибки аббревиатур
  • 10. 10 Решение – использование инструментария для очистки данных OpenRefine
  • 11. Преимущества OpenRefine 11 Бесплатное программное обеспечение Совместим со всеми браузерами Существует возможность работать в оффлайне Нет необходимости в пересылке данных по интернету Существует возможность работать с историей внесенных изменений Существует возможность визуализации различных характеристик наборов данных Существует возможность работать с данными различных машиночитаемых форматов
  • 13. Формат PDF (Portable Document Format) 13 Представление в электронном виде полиграфической продукции Достоинства Недостаток Представление документов в электронном виде Мало пригоден для машинной обработки Кроссплатформенность Стандарт ISO 32000-1:2008 Много программного обеспечения (в том числе, свободного) для работы с данным форматом
  • 14. Excel-формат 14 Представление данных в табличной форме Представление данных в табличной форме Пригодность для машинной обработки Много программного обеспечения для работы с данным форматом
  • 15. Формат CSV 15 Представление данных в табличной форме Представление данных в табличной форме Пригодность для машинной обработки, понятен человеку Открытый формат данных Много программного обеспечения (в том числе, онлайн-сервисов) для работы с данным форматом
  • 16. Формат JSON (JavaScript Object Notation) 16 Текстовый формат обмена данными Читается как компьютерами, так и людьми (хотя людям понять его сложнее, чем CSV) Пригодность для машинной обработки Может использоваться с любым языком программирования Подходит для сериализации сложных структур данных
  • 17. Формат XML (eXtensible Markup Language) 17 Читается как компьютерами, так и людьми Рекомендован консорциумом W3C Пригодность для машинной обработки Удобен для обмена данными (а также документами) в интернете
  • 18. Модель представления данных RDF 18 Пригодность для машинной обработки Является частью Семантического веба (Semantic Web) Используемые форматы данных: RDF/XML, RDF/JSON, RDFa, N-Triples, Turtle, N3 Использует словари, таксономии и онтологии
  • 19. General Transit Feed Specification (GTFS) 19 Источник: http://www.gtfs-data-exchange.com/how-to-provide-open-data
  • 20. Формат GeoJSON (спецификация) 20 Источник: http://geojson.org/
  • 21. Формат GeoJSON (спецификация) 21 Источник: http://gis-lab.info/docs/geojson_ru.html
  • 22. Спасибо за внимание! http://iRadche.ru http://about.me/Irina.Radchenko @iRadche http://iRadche.livejournal.com/ https://www.facebook.com/iRadche http://www.slideshare.net/iRadche