Підготовка до публікації
відкритих даних
Дніпро, 6-7 липня 2017
Підготовка до публікації
відкритих даних
и публікуєте Ви набори відкритих дани
на порталі data.gov.ua?
и публікуєте Ви набори відкритих дани
а веб-порталах місцевих органів влади
Публікація –
це роздача
даних
невизначеній
множині
невідомих
людей
Цвітіння сакури в Кіото, 800 – 2016
тренд довірчий інтервал
Нескінченні статути, положення та
купа переліків у PDF — це відкриті,
але не дані.
Правильна структура даних
Кожна колонка є змінною, кожен
рядок — окремим спостереженням
С п о с т е р е ж е н н я
З м і н н
а
Значення
Охайні та чисті дані
•Правильна структура
•Уніфіковані значення
змінних
•Відсутність помилок та
одруківок
•Метадані / словник / опис
даних
Правильні формати файлів
Тип даних Формат даних
Текстові дані TXT, RTF, ODT*, DOC(X), PDF (з
нескановане зображення), (X)HTML*
Структуровані RDF*, XML*, JSON*, CSV*, XLS(X), ODS*,
Графічні дані GIF*, TIFF, JPG (JPEG)*, PNG*
Відеодані MPEG, MKV, AVI, FLV, MKS, MK3D
Аудіодані MP3, WAV, MKA
Дані Macromedia SWF, FLV
Архів даних ZIP*, 7z*, Gzip*, Bzip2*
Під час створення нових наборів даних
забезпечується використання
відкритих форматів даних (формати з
позначкою «*» в таблиці) та
структурованих даних (формати RDF,
XML, JSON, CSV).
п. 9 Положення про набори даних, які
підлягають оприлюдненню у формі відкритих
даних
П’ять зірочок
відкритих даних
Класифікація, розроблена сером
Тімом Бернерсом-Лі у 2006-09
роках
Доступність у вебі + відкрита
ліцензія
Зручності
Всі матеріали, опубліковані відповідно
до чинного законодавства про публічну
інформацію, вже мають одну зірочку.
• розпорядник інформації може просто
опублікувати дані в такому вигляді, як
йому це зручно
• користувач може вільно використовувати
дані й ділитися похідними продуктами
Проблеми
• користувач – якщо формат буде закритим
або досить специфічним, користувачеві
доведеться для використання даних або
шукати програму для відкриття файлу,
та/або вводити вручну
Дані в структурованих форматах
Зручності
• розпорядник – якщо розпорядник даних
вже працює з ними в електронній формі,
то йому досить опублікувати файли, з
якими він вже працює
• користувач – якщо користувач має те ж
саме ПЗ, що і розпорядник, то все
ідеально просто
Проблеми
• користувач – якщо формат буде закритим
або специфічним, користувачу
доведеться для опрацювання даних або
шукати програму для відкриття файлу,
та/або вводити вручну — дані обмежені
типом документу
Відкриті дані у вільних форматах
Зручності
• користувач – обробка даних не потребує
наперед заданого (наприклад,
комерційного) програмного забезпечення
Проблеми
• розпорядник – розпоряднику можливо
знадобиться експортувати або
конвертувати дані у відкритий формат
Дані, що є частиною Web
як семантичної павутини
• Метадані
• Середовище опису ресурсів (RDF)
• Уніфіковані ідентифікатори ресурсів
(URI) – на запис в наборі даних можна
послатися
Дані пов’язано з іншими
даними для надання контексту
• Дані пов’язано з іншими даними, що
додає контекст.
• Про кожен об’єкт дано однозначну
вказівку, що це за об’єкт, і де можна
знайти інші дані про нього.
• Це дуже правильно і зручно, але
досяжно лише ціною значних зусиль.
Властивості
• Про кожен об’єкт дано однозначну вказівку, що
це за об’єкт, і де можна знайти інші дані про
нього.
• зростає цінність даних
• дані тепер не лише є зручними для
використання, але і для виявлення у мережі
• користувач разом з оприлюдненими даними
отримує і пов’язані дані
• чітко описана структура даних
• є можливість комбінації і повторного
використання даних
• можна посилатись безпосередньо на дані
• при використанні є імовірність, що посилання будуть
непрацюючими
• при публікації потрібно оновлювати посилання
• зв’язування даних при публікації потребує більше
часу, ніж проста публікація
• граф RDF є важчим для розуміння, ніж структура
JSON або XML
• потрібно створити або витратити час на пошук схем
представлення даних
Можливі проблеми
Основні принципи
публікації відкритих даних
• Повнота. Усі дані, що є публічною
інформацією і можуть бути оприлюднені,
мають бути оприлюднені, формат даних
має бути вільним для забезпечення
вільного до них доступу і використання
• Оприлюднюються первинні, мікро дані, а
не агреговані або узагальнені
• Дані мають бути доступні для якомога
широкого кола користувачів
• машиночитаність: мінімізувати ручну
обробку даних
• Інтероперабельність: використання
стандартних форматів
• Дані оприлюднюються своєчасно для
запобігання втраті їх цінності
Практичні поради щодо публікації
• Уніфіковані і стандартизовані формати
дати (ISO 8601, 2017-02-24)
• Позбувайтеся пустих клітинок з пробілами і
пробілів на початку та в кінці змінних
• Для пустих клітинок у CSV варто мати
позначення, що вказує на відсутність даних
(зазвичай «NA»)
• Використовуйте однакову структуру даних
в різних файлах
• Первинні дані не мають містити в комірках
таблиці підрахунків чи формул
Реєстр цивільних повітряних
суден
Тема 6. Підготовка до публікації відкритих даних
Тема 6. Підготовка до публікації відкритих даних
Очищення даних
Річний план,
очищений і структурований
• в одній комірці міститься лише один запис
• відсутні об’єднані комірки
• дані щодо організації, її структурного підрозділу, та
рішення комітету тепер у масиві спостережень
• код продукції/послуг тепер доступний для аналізу
• очікувана вартість предмета закупівлі уніфікована і
придатна для агрегації
• початок проведення закупівлі представлено
окремими змінними для місяця і для року
Формат обміну даними JSON (RFC 7159)
Текст JSON повинен мати кодування UTF-8,
UTF-16, або UTF-32. Кодуванням за
замовчуванням є UTF-8
Конвертація CSV у JSON
Особливості збереження в
CSV для користувачів MS
Excel
• За замовчуванням (в українській чи
російській локалі Windows) роздільник
полів - крапка з комою
• Не можна обрати кодування
збереженого файлу (всі версії
Microsoft Excel до 2016), це завжди
кодування Windows 1251 (CP1251)
Чому CSV, а не MS
Excel?
А ось чому :-/
1. Відкрити потрібний файл
2. Обрати з меню «Файл» пункт «Зберегти як»
3. обрати зі списку «Кодировка» варіант UTF-8
4. зняти відмітку з «BOM», якщо вона там є
Правильний текстовий
редактор — AkelPad
bit.ly/2lXPY1R
bit.ly/2lSz85m Windows 7 і вище
Використання
онлайн-
інструмента для
конвертації
Використання
командного рядка
системи
Конвертація CSV у
JSON
• Обирати ліміт кількості записів для
обробки
• Обирати поля для виводу
• Фільтрувати вивід JSON
• Створювати вкладені структури у JSON
• Конвертувати порожні (NULL) значення у
CSV у стандартні null у JSON
• Виводити null замість "" для порожніх
полів (значень)
• Змінювати структуру JSON
Опції конвертації
Вихідна таблиця…
…та CSV
Звичайний JSON
Зміна структури JSON
Масив JSON
Масив стовпчиків JSON
Вкладені структури у JSON
код, книга/автор, книга/назва, день, кількість
1, Стус, Зимові дерева, четвер, 8
Вихідна таблиця…
…та CSV
[
{
"код": 1,
"книга": {
"автор": "Стус",
"назва": "Зимові дерева"
},
"день": "четвер",
"кількість": 8
}
]
JSON із вкладеними об’єктами
Посібник по конвертації з
формату CSV у JSON
bit.ly/2l3MSZU
Метадані (дані про дані)
• Точні назви змінних, як це вказано в наборі
даних («технічні» назви змінної);
• Більш читабельні назви змінних, що можуть
використовуватися, наприклад, для
візуалізації даних;
• Більш розлогий опис змінних;
• Одиниці виміру;
• Обмеження значень змінних, наприклад,
максимальні та мінімальні значення
Метадані форми ЗНЗ-1
Стовпчик Назва змінної Тип Опис Обов’язкове
school Заклад освіти текст Повна назва закладу освіти Так
region Назва області текст Назва області Так
raj Район області текст Назва району області Ні
locality Тип місцевості число Позначає тип місцевості,
набуває значень:
1 – міська
2 – сільська
Так
s1r1g9 Гр. 9 рядка 1,
розділу I
число Кількість класів, одиниць (6 клас) Ні
s1r26 Ряд. 26 розділу I число кількість учнів, які користуються
гарячим харчуванням у закладах
усіх типів
Ні
s9r1 Рядок 1 розділу
IX
число загальна площа всіх приміщень,
одиниця виміру – м²
Так
Стиснення
Усі формати, що є текстовими за
сутністю, чудово стискаються
архіваторами
Стискається Не стискається
TXT, RTF, HTML, RDF,
XML, JSON, CSV, YAML
ODT, DOC, DOCX, PDF,
XLS, XLSX, ODS
Який формат
обрати для
оприлюднення? Багаторя
дковий
текст,
спеціаль
ні
символи
CSV
JSONYAML
Ні
Ні
Ієрархія
даних,
вкладені
дані
Формува
ння
документ
ів
XML
Так
Так
Так
Ні
Частота
оновлення,
обсяг
масиву
API
Висновки
• Формат оприлюднення: CSV або
JSON (залежно від структури
даних)
• Кодування оприлюднених даних:
UTF-8
• Архівація файлів великого
розміру
• Бажано надавати можливість
завантаження за допомогою API
А що ж далі
http://www.dknii.gov.ua/sites/default/files/roadmaptext.pdf
http://tapas.org.ua/dorozhnya-karta-rozvytku-vidkrytyh-danyh-v-ukrayini-na-2017-
rik-povnyj-tekst/
Нормативне забезпечення
• Включити завдання з розвитку відкритих
даних до ключових стратегічних документів
країни (План дій Уряду тощо)
• Визначити перелік пріоритетних наборів
даних для першочергового оприлюднення
(оновлений додаток до Постанови №835)
• Удосконалити законодавство щодо порядку,
форматів та вимог до оприлюднення
відкритих даних (зміни до Постанови №835)
Мотиваційні заходи та
відповідальність
• […]
• Організувати інформаційно-просвітницькі
заходи для керівництва органів виконавчої
влади та місцевого самоврядування
• Ініціювати заохочення кращих розпорядників
та притягнення до відповідальності
порушників
Аудит та реєстри даних
• Розробити методичні матеріали щодо
проведення аудиту та формування реєстру
даних в установі
• Провести аудити даних в п’яти пілотних
органах влади та сприяти самостійному
проведенню аудитів іншими установами
• Забезпечити оприлюднення на Єдиному
порталі реєстрів наборів даних в установах
Порівнянність та
інтероперабельність
Встановлення стандартів якості
• Розробити вимоги (рекомендації) до опису
структури, метаданих та використання
державних класифікаторів в наборах даних
• Забезпечити картування наборів даних з
метою визначення зв’язків та розвитку
інтероперабельності
• Розробити вимоги до структури типових
наборів даних для органів влади
Розвиток відкритих даних на
місцевому рівні
• Розробити типові проекти нормативно-
правових документів для розвитку відкритих
даних на місцевому рівні
Навчання відкритим даним
• Провести комплексне навчання
відповідальних осіб/підрозділів з питань
відкритих даних
• Включити питання розвитку відкритих даних
до навчальної програми державних
службовців
• Підготувати тренерів з питань відкритих
даних та провести серію місцевих тренінгів
Відкритість даних – це
наш додатковий орган
сприйняття
Він дозволяє нам
бачити повнішу
картину світу
І мріяти про речі, про
які ми навіть не
замислювалися

More Related Content

ODP
Формати відкритих даних
PPTX
05 Database
PPTX
урок 3 звязок бази даних
PDF
публикация алхімова
PPTX
порівняння текстових процесорів
PPTX
11 клас 17 урок. Поняття моделі даних. Бази даних. СУБД.
PPTX
11 клас 18 урок. Проектування бази даних. Введення і редагування даних у табл...
PPTX
Тема 2. Формати відкритих даних
Формати відкритих даних
05 Database
урок 3 звязок бази даних
публикация алхімова
порівняння текстових процесорів
11 клас 17 урок. Поняття моделі даних. Бази даних. СУБД.
11 клас 18 урок. Проектування бази даних. Введення і редагування даних у табл...
Тема 2. Формати відкритих даних

Similar to Тема 6. Підготовка до публікації відкритих даних (20)

PPTX
Тема 1. Відкриті дані
PPTX
Концепція відкритих даних. Важливість якісного збору та публікації даних.
PPT
Open data Processing API
PPTX
Робота з відкритими даними
PDF
Огляд статистичного пакету Statistica.pdf
PDF
Що таке відкриті дані - SocialBoost
PPT
Prometheus. Масовий онлайн курс "Основи програмування". Лекція 7
PPTX
Transparency and open data initiatives in Ukraine's infrastructure projects
PPTX
Prezent karazina
PPS
Відкриті дані до ваших послуг!
PPT
Тема 12 - Ініціатива відкритих форматів. XML та метадані.
PPTX
data visualization workshop
PDF
Вісник Вінницького політехнічного інституту. 2017. No 1
DOCX
Порівняльна таблиця до Проекту постанови Кабінету Міністрів України «Про внес...
PPTX
11 клас 17 урок
PDF
Рекомендації для оприлюднення наборів відкритих даних
PDF
Db design (ukr)
PPTX
"Rethinking the existing data loading and processing process as an ETL exampl...
PPTX
sql introduction
Тема 1. Відкриті дані
Концепція відкритих даних. Важливість якісного збору та публікації даних.
Open data Processing API
Робота з відкритими даними
Огляд статистичного пакету Statistica.pdf
Що таке відкриті дані - SocialBoost
Prometheus. Масовий онлайн курс "Основи програмування". Лекція 7
Transparency and open data initiatives in Ukraine's infrastructure projects
Prezent karazina
Відкриті дані до ваших послуг!
Тема 12 - Ініціатива відкритих форматів. XML та метадані.
data visualization workshop
Вісник Вінницького політехнічного інституту. 2017. No 1
Порівняльна таблиця до Проекту постанови Кабінету Міністрів України «Про внес...
11 клас 17 урок
Рекомендації для оприлюднення наборів відкритих даних
Db design (ukr)
"Rethinking the existing data loading and processing process as an ETL exampl...
sql introduction
Ad

More from Andriy Gorbal (19)

PPTX
медсестри документація1
PPTX
медсестри обрахування лікзасобів
PPT
забезпечення знеболенням
PPTX
медсестри обрахування лікзасобів
PPT
правила лікарям
PPTX
Prototype of web-based resource for Territorial election commissions (TEC)
PPTX
ПРОТОТИП ВЕБ-РЕСУРСУ ДЛЯ ТЕРИТОРІАЛЬНИХ ВИБОРЧИХ КОМІСІЙ
PDF
Круглий стіл «Відкриті судові дані: можливості, проблеми, перспективи»
PPTX
Тема 5. Основи статистики та аналізу даних
PPTX
Тема 4. Пастки у роботі з даними, проблеми захисту персональних даних
PDF
Потреба у паліативній допомозі в Україні: розбіжності у статистичних даних
PDF
ЖІНКИ ТА ЧОЛОВІКИ НА КЕРІВНИХ ПОСАДАХ В УКРАЇНІ
PDF
Збір даних у сфері паліативної допомоги
PPTX
Мікродані та проблеми захисту особистих даних ГО Український центр суспільн...
PPTX
Основи статистики та аналізу даних. Представлення даних.
PDF
Annual Report 2016
PDF
Річний звіт 2016
PDF
Річний звіт Українського центру суспільних даних, 2015
PDF
Annual Report of Ukrainian Center for Social Data, 2015
медсестри документація1
медсестри обрахування лікзасобів
забезпечення знеболенням
медсестри обрахування лікзасобів
правила лікарям
Prototype of web-based resource for Territorial election commissions (TEC)
ПРОТОТИП ВЕБ-РЕСУРСУ ДЛЯ ТЕРИТОРІАЛЬНИХ ВИБОРЧИХ КОМІСІЙ
Круглий стіл «Відкриті судові дані: можливості, проблеми, перспективи»
Тема 5. Основи статистики та аналізу даних
Тема 4. Пастки у роботі з даними, проблеми захисту персональних даних
Потреба у паліативній допомозі в Україні: розбіжності у статистичних даних
ЖІНКИ ТА ЧОЛОВІКИ НА КЕРІВНИХ ПОСАДАХ В УКРАЇНІ
Збір даних у сфері паліативної допомоги
Мікродані та проблеми захисту особистих даних ГО Український центр суспільн...
Основи статистики та аналізу даних. Представлення даних.
Annual Report 2016
Річний звіт 2016
Річний звіт Українського центру суспільних даних, 2015
Annual Report of Ukrainian Center for Social Data, 2015
Ad

Recently uploaded (17)

PDF
"Фах" (аналіз твору) Айзек Азімов (презентація)
PDF
Заняття 6. Прийняття рішення командиром взводу на бій на основі APSP (Army Pr...
PDF
ы плоывдлпоявлпо яылпояылв по влполвдпо в
PDF
Заняття 6. Прийняття рішення командиром взводу на бій на основі APSP (Army Pr...
PDF
Заняття 5. Методика прийняття рішень на основі APSP (Army Problem Solving Pro...
PDF
8_geog_d_2025- іьвт пвіь тапл япя пліляд
PDF
8_iu_h_2025 - ляіо пялідоплівоп ілвпфлідп
PDF
яалво вдлаопядвл опдлыв ояпвояыр пывора в
PDF
8_in_b_2025 - лютв лвотп ячлвт плвт ядвл
PDF
в пявлапо жлваопвлад опявл аопялвдао плва
PPTX
Херсонська Зміївка: до та після окупації
PDF
ывла пявдлоп явдла опдвяла опдвла опявлпов
PDF
яво рпядлв опялдыво пялдыв оплядыв оп ояыл
PDF
akjgaksdj lkaыдуко локж оуыпж оывджл апоыв
PDF
КНУ, презентація по вступній кампанії_2025
PDF
8_mys_g_2025 - влат пвлтп влт пвлатп лвв
PDF
8_t_h_2025 - ядв пдвлаопялво пядлво плдвв
"Фах" (аналіз твору) Айзек Азімов (презентація)
Заняття 6. Прийняття рішення командиром взводу на бій на основі APSP (Army Pr...
ы плоывдлпоявлпо яылпояылв по влполвдпо в
Заняття 6. Прийняття рішення командиром взводу на бій на основі APSP (Army Pr...
Заняття 5. Методика прийняття рішень на основі APSP (Army Problem Solving Pro...
8_geog_d_2025- іьвт пвіь тапл япя пліляд
8_iu_h_2025 - ляіо пялідоплівоп ілвпфлідп
яалво вдлаопядвл опдлыв ояпвояыр пывора в
8_in_b_2025 - лютв лвотп ячлвт плвт ядвл
в пявлапо жлваопвлад опявл аопялвдао плва
Херсонська Зміївка: до та після окупації
ывла пявдлоп явдла опдвяла опдвла опявлпов
яво рпядлв опялдыво пялдыв оплядыв оп ояыл
akjgaksdj lkaыдуко локж оуыпж оывджл апоыв
КНУ, презентація по вступній кампанії_2025
8_mys_g_2025 - влат пвлтп влт пвлатп лвв
8_t_h_2025 - ядв пдвлаопялво пядлво плдвв

Тема 6. Підготовка до публікації відкритих даних

  • 1. Підготовка до публікації відкритих даних Дніпро, 6-7 липня 2017
  • 3. и публікуєте Ви набори відкритих дани на порталі data.gov.ua?
  • 4. и публікуєте Ви набори відкритих дани а веб-порталах місцевих органів влади
  • 6. Цвітіння сакури в Кіото, 800 – 2016 тренд довірчий інтервал
  • 7. Нескінченні статути, положення та купа переліків у PDF — це відкриті, але не дані.
  • 8. Правильна структура даних Кожна колонка є змінною, кожен рядок — окремим спостереженням С п о с т е р е ж е н н я З м і н н а Значення
  • 9. Охайні та чисті дані •Правильна структура •Уніфіковані значення змінних •Відсутність помилок та одруківок •Метадані / словник / опис даних
  • 10. Правильні формати файлів Тип даних Формат даних Текстові дані TXT, RTF, ODT*, DOC(X), PDF (з нескановане зображення), (X)HTML* Структуровані RDF*, XML*, JSON*, CSV*, XLS(X), ODS*, Графічні дані GIF*, TIFF, JPG (JPEG)*, PNG* Відеодані MPEG, MKV, AVI, FLV, MKS, MK3D Аудіодані MP3, WAV, MKA Дані Macromedia SWF, FLV Архів даних ZIP*, 7z*, Gzip*, Bzip2*
  • 11. Під час створення нових наборів даних забезпечується використання відкритих форматів даних (формати з позначкою «*» в таблиці) та структурованих даних (формати RDF, XML, JSON, CSV). п. 9 Положення про набори даних, які підлягають оприлюдненню у формі відкритих даних
  • 12. П’ять зірочок відкритих даних Класифікація, розроблена сером Тімом Бернерсом-Лі у 2006-09 роках
  • 13. Доступність у вебі + відкрита ліцензія
  • 14. Зручності Всі матеріали, опубліковані відповідно до чинного законодавства про публічну інформацію, вже мають одну зірочку. • розпорядник інформації може просто опублікувати дані в такому вигляді, як йому це зручно • користувач може вільно використовувати дані й ділитися похідними продуктами
  • 15. Проблеми • користувач – якщо формат буде закритим або досить специфічним, користувачеві доведеться для використання даних або шукати програму для відкриття файлу, та/або вводити вручну
  • 17. Зручності • розпорядник – якщо розпорядник даних вже працює з ними в електронній формі, то йому досить опублікувати файли, з якими він вже працює • користувач – якщо користувач має те ж саме ПЗ, що і розпорядник, то все ідеально просто
  • 18. Проблеми • користувач – якщо формат буде закритим або специфічним, користувачу доведеться для опрацювання даних або шукати програму для відкриття файлу, та/або вводити вручну — дані обмежені типом документу
  • 19. Відкриті дані у вільних форматах
  • 20. Зручності • користувач – обробка даних не потребує наперед заданого (наприклад, комерційного) програмного забезпечення
  • 21. Проблеми • розпорядник – розпоряднику можливо знадобиться експортувати або конвертувати дані у відкритий формат
  • 22. Дані, що є частиною Web як семантичної павутини • Метадані • Середовище опису ресурсів (RDF) • Уніфіковані ідентифікатори ресурсів (URI) – на запис в наборі даних можна послатися
  • 23. Дані пов’язано з іншими даними для надання контексту • Дані пов’язано з іншими даними, що додає контекст. • Про кожен об’єкт дано однозначну вказівку, що це за об’єкт, і де можна знайти інші дані про нього. • Це дуже правильно і зручно, але досяжно лише ціною значних зусиль.
  • 24. Властивості • Про кожен об’єкт дано однозначну вказівку, що це за об’єкт, і де можна знайти інші дані про нього. • зростає цінність даних • дані тепер не лише є зручними для використання, але і для виявлення у мережі • користувач разом з оприлюдненими даними отримує і пов’язані дані • чітко описана структура даних • є можливість комбінації і повторного використання даних • можна посилатись безпосередньо на дані
  • 25. • при використанні є імовірність, що посилання будуть непрацюючими • при публікації потрібно оновлювати посилання • зв’язування даних при публікації потребує більше часу, ніж проста публікація • граф RDF є важчим для розуміння, ніж структура JSON або XML • потрібно створити або витратити час на пошук схем представлення даних Можливі проблеми
  • 26. Основні принципи публікації відкритих даних • Повнота. Усі дані, що є публічною інформацією і можуть бути оприлюднені, мають бути оприлюднені, формат даних має бути вільним для забезпечення вільного до них доступу і використання • Оприлюднюються первинні, мікро дані, а не агреговані або узагальнені
  • 27. • Дані мають бути доступні для якомога широкого кола користувачів • машиночитаність: мінімізувати ручну обробку даних • Інтероперабельність: використання стандартних форматів • Дані оприлюднюються своєчасно для запобігання втраті їх цінності
  • 28. Практичні поради щодо публікації • Уніфіковані і стандартизовані формати дати (ISO 8601, 2017-02-24) • Позбувайтеся пустих клітинок з пробілами і пробілів на початку та в кінці змінних • Для пустих клітинок у CSV варто мати позначення, що вказує на відсутність даних (зазвичай «NA») • Використовуйте однакову структуру даних в різних файлах • Первинні дані не мають містити в комірках таблиці підрахунків чи формул
  • 33. Річний план, очищений і структурований • в одній комірці міститься лише один запис • відсутні об’єднані комірки • дані щодо організації, її структурного підрозділу, та рішення комітету тепер у масиві спостережень • код продукції/послуг тепер доступний для аналізу • очікувана вартість предмета закупівлі уніфікована і придатна для агрегації • початок проведення закупівлі представлено окремими змінними для місяця і для року
  • 34. Формат обміну даними JSON (RFC 7159) Текст JSON повинен мати кодування UTF-8, UTF-16, або UTF-32. Кодуванням за замовчуванням є UTF-8 Конвертація CSV у JSON
  • 35. Особливості збереження в CSV для користувачів MS Excel • За замовчуванням (в українській чи російській локалі Windows) роздільник полів - крапка з комою • Не можна обрати кодування збереженого файлу (всі версії Microsoft Excel до 2016), це завжди кодування Windows 1251 (CP1251)
  • 36. Чому CSV, а не MS Excel?
  • 38. 1. Відкрити потрібний файл 2. Обрати з меню «Файл» пункт «Зберегти як» 3. обрати зі списку «Кодировка» варіант UTF-8 4. зняти відмітку з «BOM», якщо вона там є Правильний текстовий редактор — AkelPad bit.ly/2lXPY1R
  • 39. bit.ly/2lSz85m Windows 7 і вище Використання онлайн- інструмента для конвертації Використання командного рядка системи Конвертація CSV у JSON
  • 40. • Обирати ліміт кількості записів для обробки • Обирати поля для виводу • Фільтрувати вивід JSON • Створювати вкладені структури у JSON • Конвертувати порожні (NULL) значення у CSV у стандартні null у JSON • Виводити null замість "" для порожніх полів (значень) • Змінювати структуру JSON Опції конвертації
  • 43. Зміна структури JSON Масив JSON Масив стовпчиків JSON
  • 44. Вкладені структури у JSON код, книга/автор, книга/назва, день, кількість 1, Стус, Зимові дерева, четвер, 8 Вихідна таблиця… …та CSV
  • 45. [ { "код": 1, "книга": { "автор": "Стус", "назва": "Зимові дерева" }, "день": "четвер", "кількість": 8 } ] JSON із вкладеними об’єктами
  • 46. Посібник по конвертації з формату CSV у JSON bit.ly/2l3MSZU
  • 47. Метадані (дані про дані) • Точні назви змінних, як це вказано в наборі даних («технічні» назви змінної); • Більш читабельні назви змінних, що можуть використовуватися, наприклад, для візуалізації даних; • Більш розлогий опис змінних; • Одиниці виміру; • Обмеження значень змінних, наприклад, максимальні та мінімальні значення
  • 48. Метадані форми ЗНЗ-1 Стовпчик Назва змінної Тип Опис Обов’язкове school Заклад освіти текст Повна назва закладу освіти Так region Назва області текст Назва області Так raj Район області текст Назва району області Ні locality Тип місцевості число Позначає тип місцевості, набуває значень: 1 – міська 2 – сільська Так s1r1g9 Гр. 9 рядка 1, розділу I число Кількість класів, одиниць (6 клас) Ні s1r26 Ряд. 26 розділу I число кількість учнів, які користуються гарячим харчуванням у закладах усіх типів Ні s9r1 Рядок 1 розділу IX число загальна площа всіх приміщень, одиниця виміру – м² Так
  • 49. Стиснення Усі формати, що є текстовими за сутністю, чудово стискаються архіваторами Стискається Не стискається TXT, RTF, HTML, RDF, XML, JSON, CSV, YAML ODT, DOC, DOCX, PDF, XLS, XLSX, ODS
  • 50. Який формат обрати для оприлюднення? Багаторя дковий текст, спеціаль ні символи CSV JSONYAML Ні Ні Ієрархія даних, вкладені дані Формува ння документ ів XML Так Так Так Ні Частота оновлення, обсяг масиву API
  • 51. Висновки • Формат оприлюднення: CSV або JSON (залежно від структури даних) • Кодування оприлюднених даних: UTF-8 • Архівація файлів великого розміру • Бажано надавати можливість завантаження за допомогою API
  • 52. А що ж далі
  • 54. Нормативне забезпечення • Включити завдання з розвитку відкритих даних до ключових стратегічних документів країни (План дій Уряду тощо) • Визначити перелік пріоритетних наборів даних для першочергового оприлюднення (оновлений додаток до Постанови №835) • Удосконалити законодавство щодо порядку, форматів та вимог до оприлюднення відкритих даних (зміни до Постанови №835)
  • 55. Мотиваційні заходи та відповідальність • […] • Організувати інформаційно-просвітницькі заходи для керівництва органів виконавчої влади та місцевого самоврядування • Ініціювати заохочення кращих розпорядників та притягнення до відповідальності порушників
  • 56. Аудит та реєстри даних • Розробити методичні матеріали щодо проведення аудиту та формування реєстру даних в установі • Провести аудити даних в п’яти пілотних органах влади та сприяти самостійному проведенню аудитів іншими установами • Забезпечити оприлюднення на Єдиному порталі реєстрів наборів даних в установах
  • 57. Порівнянність та інтероперабельність Встановлення стандартів якості • Розробити вимоги (рекомендації) до опису структури, метаданих та використання державних класифікаторів в наборах даних • Забезпечити картування наборів даних з метою визначення зв’язків та розвитку інтероперабельності • Розробити вимоги до структури типових наборів даних для органів влади
  • 58. Розвиток відкритих даних на місцевому рівні • Розробити типові проекти нормативно- правових документів для розвитку відкритих даних на місцевому рівні
  • 59. Навчання відкритим даним • Провести комплексне навчання відповідальних осіб/підрозділів з питань відкритих даних • Включити питання розвитку відкритих даних до навчальної програми державних службовців • Підготувати тренерів з питань відкритих даних та провести серію місцевих тренінгів
  • 60. Відкритість даних – це наш додатковий орган сприйняття Він дозволяє нам бачити повнішу картину світу І мріяти про речі, про які ми навіть не замислювалися