8. Правильна структура даних
Кожна колонка є змінною, кожен
рядок — окремим спостереженням
С п о с т е р е ж е н н я
З м і н н
а
Значення
9. Охайні та чисті дані
•Правильна структура
•Уніфіковані значення
змінних
•Відсутність помилок та
одруківок
•Метадані / словник / опис
даних
10. Правильні формати файлів
Тип даних Формат даних
Текстові дані TXT, RTF, ODT*, DOC(X), PDF (з
нескановане зображення), (X)HTML*
Структуровані RDF*, XML*, JSON*, CSV*, XLS(X), ODS*,
Графічні дані GIF*, TIFF, JPG (JPEG)*, PNG*
Відеодані MPEG, MKV, AVI, FLV, MKS, MK3D
Аудіодані MP3, WAV, MKA
Дані Macromedia SWF, FLV
Архів даних ZIP*, 7z*, Gzip*, Bzip2*
11. Під час створення нових наборів даних
забезпечується використання
відкритих форматів даних (формати з
позначкою «*» в таблиці) та
структурованих даних (формати RDF,
XML, JSON, CSV).
п. 9 Положення про набори даних, які
підлягають оприлюдненню у формі відкритих
даних
14. Зручності
Всі матеріали, опубліковані відповідно
до чинного законодавства про публічну
інформацію, вже мають одну зірочку.
• розпорядник інформації може просто
опублікувати дані в такому вигляді, як
йому це зручно
• користувач може вільно використовувати
дані й ділитися похідними продуктами
15. Проблеми
• користувач – якщо формат буде закритим
або досить специфічним, користувачеві
доведеться для використання даних або
шукати програму для відкриття файлу,
та/або вводити вручну
17. Зручності
• розпорядник – якщо розпорядник даних
вже працює з ними в електронній формі,
то йому досить опублікувати файли, з
якими він вже працює
• користувач – якщо користувач має те ж
саме ПЗ, що і розпорядник, то все
ідеально просто
18. Проблеми
• користувач – якщо формат буде закритим
або специфічним, користувачу
доведеться для опрацювання даних або
шукати програму для відкриття файлу,
та/або вводити вручну — дані обмежені
типом документу
20. Зручності
• користувач – обробка даних не потребує
наперед заданого (наприклад,
комерційного) програмного забезпечення
21. Проблеми
• розпорядник – розпоряднику можливо
знадобиться експортувати або
конвертувати дані у відкритий формат
22. Дані, що є частиною Web
як семантичної павутини
• Метадані
• Середовище опису ресурсів (RDF)
• Уніфіковані ідентифікатори ресурсів
(URI) – на запис в наборі даних можна
послатися
23. Дані пов’язано з іншими
даними для надання контексту
• Дані пов’язано з іншими даними, що
додає контекст.
• Про кожен об’єкт дано однозначну
вказівку, що це за об’єкт, і де можна
знайти інші дані про нього.
• Це дуже правильно і зручно, але
досяжно лише ціною значних зусиль.
24. Властивості
• Про кожен об’єкт дано однозначну вказівку, що
це за об’єкт, і де можна знайти інші дані про
нього.
• зростає цінність даних
• дані тепер не лише є зручними для
використання, але і для виявлення у мережі
• користувач разом з оприлюдненими даними
отримує і пов’язані дані
• чітко описана структура даних
• є можливість комбінації і повторного
використання даних
• можна посилатись безпосередньо на дані
25. • при використанні є імовірність, що посилання будуть
непрацюючими
• при публікації потрібно оновлювати посилання
• зв’язування даних при публікації потребує більше
часу, ніж проста публікація
• граф RDF є важчим для розуміння, ніж структура
JSON або XML
• потрібно створити або витратити час на пошук схем
представлення даних
Можливі проблеми
26. Основні принципи
публікації відкритих даних
• Повнота. Усі дані, що є публічною
інформацією і можуть бути оприлюднені,
мають бути оприлюднені, формат даних
має бути вільним для забезпечення
вільного до них доступу і використання
• Оприлюднюються первинні, мікро дані, а
не агреговані або узагальнені
27. • Дані мають бути доступні для якомога
широкого кола користувачів
• машиночитаність: мінімізувати ручну
обробку даних
• Інтероперабельність: використання
стандартних форматів
• Дані оприлюднюються своєчасно для
запобігання втраті їх цінності
28. Практичні поради щодо публікації
• Уніфіковані і стандартизовані формати
дати (ISO 8601, 2017-02-24)
• Позбувайтеся пустих клітинок з пробілами і
пробілів на початку та в кінці змінних
• Для пустих клітинок у CSV варто мати
позначення, що вказує на відсутність даних
(зазвичай «NA»)
• Використовуйте однакову структуру даних
в різних файлах
• Первинні дані не мають містити в комірках
таблиці підрахунків чи формул
33. Річний план,
очищений і структурований
• в одній комірці міститься лише один запис
• відсутні об’єднані комірки
• дані щодо організації, її структурного підрозділу, та
рішення комітету тепер у масиві спостережень
• код продукції/послуг тепер доступний для аналізу
• очікувана вартість предмета закупівлі уніфікована і
придатна для агрегації
• початок проведення закупівлі представлено
окремими змінними для місяця і для року
34. Формат обміну даними JSON (RFC 7159)
Текст JSON повинен мати кодування UTF-8,
UTF-16, або UTF-32. Кодуванням за
замовчуванням є UTF-8
Конвертація CSV у JSON
35. Особливості збереження в
CSV для користувачів MS
Excel
• За замовчуванням (в українській чи
російській локалі Windows) роздільник
полів - крапка з комою
• Не можна обрати кодування
збереженого файлу (всі версії
Microsoft Excel до 2016), це завжди
кодування Windows 1251 (CP1251)
38. 1. Відкрити потрібний файл
2. Обрати з меню «Файл» пункт «Зберегти як»
3. обрати зі списку «Кодировка» варіант UTF-8
4. зняти відмітку з «BOM», якщо вона там є
Правильний текстовий
редактор — AkelPad
bit.ly/2lXPY1R
39. bit.ly/2lSz85m Windows 7 і вище
Використання
онлайн-
інструмента для
конвертації
Використання
командного рядка
системи
Конвертація CSV у
JSON
40. • Обирати ліміт кількості записів для
обробки
• Обирати поля для виводу
• Фільтрувати вивід JSON
• Створювати вкладені структури у JSON
• Конвертувати порожні (NULL) значення у
CSV у стандартні null у JSON
• Виводити null замість "" для порожніх
полів (значень)
• Змінювати структуру JSON
Опції конвертації
47. Метадані (дані про дані)
• Точні назви змінних, як це вказано в наборі
даних («технічні» назви змінної);
• Більш читабельні назви змінних, що можуть
використовуватися, наприклад, для
візуалізації даних;
• Більш розлогий опис змінних;
• Одиниці виміру;
• Обмеження значень змінних, наприклад,
максимальні та мінімальні значення
48. Метадані форми ЗНЗ-1
Стовпчик Назва змінної Тип Опис Обов’язкове
school Заклад освіти текст Повна назва закладу освіти Так
region Назва області текст Назва області Так
raj Район області текст Назва району області Ні
locality Тип місцевості число Позначає тип місцевості,
набуває значень:
1 – міська
2 – сільська
Так
s1r1g9 Гр. 9 рядка 1,
розділу I
число Кількість класів, одиниць (6 клас) Ні
s1r26 Ряд. 26 розділу I число кількість учнів, які користуються
гарячим харчуванням у закладах
усіх типів
Ні
s9r1 Рядок 1 розділу
IX
число загальна площа всіх приміщень,
одиниця виміру – м²
Так
49. Стиснення
Усі формати, що є текстовими за
сутністю, чудово стискаються
архіваторами
Стискається Не стискається
TXT, RTF, HTML, RDF,
XML, JSON, CSV, YAML
ODT, DOC, DOCX, PDF,
XLS, XLSX, ODS
50. Який формат
обрати для
оприлюднення? Багаторя
дковий
текст,
спеціаль
ні
символи
CSV
JSONYAML
Ні
Ні
Ієрархія
даних,
вкладені
дані
Формува
ння
документ
ів
XML
Так
Так
Так
Ні
Частота
оновлення,
обсяг
масиву
API
51. Висновки
• Формат оприлюднення: CSV або
JSON (залежно від структури
даних)
• Кодування оприлюднених даних:
UTF-8
• Архівація файлів великого
розміру
• Бажано надавати можливість
завантаження за допомогою API
54. Нормативне забезпечення
• Включити завдання з розвитку відкритих
даних до ключових стратегічних документів
країни (План дій Уряду тощо)
• Визначити перелік пріоритетних наборів
даних для першочергового оприлюднення
(оновлений додаток до Постанови №835)
• Удосконалити законодавство щодо порядку,
форматів та вимог до оприлюднення
відкритих даних (зміни до Постанови №835)
55. Мотиваційні заходи та
відповідальність
• […]
• Організувати інформаційно-просвітницькі
заходи для керівництва органів виконавчої
влади та місцевого самоврядування
• Ініціювати заохочення кращих розпорядників
та притягнення до відповідальності
порушників
56. Аудит та реєстри даних
• Розробити методичні матеріали щодо
проведення аудиту та формування реєстру
даних в установі
• Провести аудити даних в п’яти пілотних
органах влади та сприяти самостійному
проведенню аудитів іншими установами
• Забезпечити оприлюднення на Єдиному
порталі реєстрів наборів даних в установах
57. Порівнянність та
інтероперабельність
Встановлення стандартів якості
• Розробити вимоги (рекомендації) до опису
структури, метаданих та використання
державних класифікаторів в наборах даних
• Забезпечити картування наборів даних з
метою визначення зв’язків та розвитку
інтероперабельності
• Розробити вимоги до структури типових
наборів даних для органів влади
58. Розвиток відкритих даних на
місцевому рівні
• Розробити типові проекти нормативно-
правових документів для розвитку відкритих
даних на місцевому рівні
59. Навчання відкритим даним
• Провести комплексне навчання
відповідальних осіб/підрозділів з питань
відкритих даних
• Включити питання розвитку відкритих даних
до навчальної програми державних
службовців
• Підготувати тренерів з питань відкритих
даних та провести серію місцевих тренінгів
60. Відкритість даних – це
наш додатковий орган
сприйняття
Він дозволяє нам
бачити повнішу
картину світу
І мріяти про речі, про
які ми навіть не
замислювалися