Prezentácia zaznela v rámci stretnutia Open data Siete, ktoré sa konalo 25.6.2021.
Analýza vyplýva z úlohy Akčného plánu Iniciatívy pre otvorené vládnutie v SR a je vytváraná každoročne. Hodnotí datasety uverejnené na ústrednom štátnom portáli data.gov.sk (napriek tomu, že ministerstvá a ústredné orgány štátnej správy môžu údaje zverejňovať aj na svojich portáloch a iných webových stránkach).
Najviac datasetov zverejňuje Štatistický úrad SR, ktorý je určený na to aby robil zisťovania a zverejňoval dáta. Počet datasetov stúpa v čase, posledné 4 roky sa však ustálili na hodnote medzi 2000 a 2300 datasetov.
Datasety sa dajú vyhľadávať podľa rôznych organizácií, podľa tagov, atď.. Najčastejšie tagy sú štatistika, voľby, číselníky a zdravotníctvo.
Pre otvorené dáta je veľmi dôležité, v akej licencii sú zverejnené. Najčastejšie licencia na portáli data.gov.sk sú licencie Creative Commons – CC-BY-SA, CC0 a CC-BY. Niektoré datasety nemajú uvedenú licenciu, napr. ide o Úrad vlády.
Formáty datasetov by mali byť strojovo spracovateľné – najpopulárnejšie sú formáty CSV (31%), XML (22%), HTML/XHTML (10%), JSON (5%) iné. Asi tretina formátov nie sú otvorené alebo strojovo spracovateľné (PDF, XLS).
Čo sa týka aktualizácie, až 70% datasetov má uvedené iná, zvyšok sú ročné, mesačné, a nepravidelné aktualizácie.
Väčšina používateľov je anonymných, počet registrovaných používateľov je 5 276, čo je o 17% viac ako v roku 2020. Používatelia, ktorí nie sú registrovaní nie sú oficiálne reportovaní.
Verejnosť môže podávať rôzne podnety na portál (napr. návrh na zverejnenie údajov, žiadosť o úpravu údajov zverejnených na portáli, žiadosť o zvýšenie kapacity na uloženie údajov), tieto žiadosť sa však v praxi veľmi nevyužívajú.
Pripravuje sa nový portál data.gov.sk 2.0, ktorý by mal obsahovať pokročilejšie funkcie a riešiť nedostatky súčasného portálu.
Kvalita je dôležitejšia ako kvantita. Podľa kanadskej metodiky Data Quality Score in open data sú dôležité:
- Použiteľnosť (ako ľahko sa pracuje s dátami) 38%
- Metadáta (ako sú dáta vysvetlené) 25%
- Aktuálnosť (aká je pravidelnosť aktualizácie dát) 18%
- Úplnosť (či sú dáta komkpletné alebo obsahujú prázdne hodnoty) 12%
- Prístupnosť (či sa dá použiť API) 7%
Všeobecne používaná metodika na určenie kvality datasetov sa riadi systémom hviezdičiek – čím viac hviezdičiek tým kvalitnejšie otvorené dáta. Od 3 hviezdičiek ide o plnohodnotné otvorené dáta. Vysvetlenie tejto metodiky nájdete aj v našom e-learningu.
Na základe tejto metodiky sme hodnotili datasety na portáli:
- Pri hodnotení licencií vychádza 99% datasetov ako s vhodnou licenciou, s nevhodnou je len 1%.
- Pri hodnotení formátov vychádza 58% ako s minimálne 3 hviezdičkami – vhodné, zvyšok, čo je takmer polovica sú nevhodné.
- Portál poskytuje nástroje – SPARQL editor a MOD_EDEM_PA. Tu existuje priestor na zlepšenie a pridanie viacerých nástrojov.
Čo sa týka aplikácií, tých je iba 5 – je to veľmi malé číslo. Je to spôsobené aj zložitosťou – je nutné prihlásiť sa s občiansky preukazom s čipom.
Portál obsahuje aj API – prístup k datasetom a metadátam.
Pracovnú verziu analýzy (pred pripomienkovaním) nájdete na tomto odkaze.