Pre každého začínajúceho dátového vedca je veľmi dôležité nájsť kvalitné dáta (dátová sada), ktoré budú nevyhnutné pre jeho analýzy. Otázkou je, kde tieto dáta získať a či je možné pracovať s verejne dostupnými zdrojmi. Dobrou správou je, že dnes existuje množstvo otvorených databáz, ktoré poskytujú prístup k reálnym údajom z oblasti ekonomiky, demografie, dopravy, životného prostredia alebo verejnej správy. Práve práca s reálnymi verejnými dátami je ideálnym spôsobom, ako si vybudovať portfólio projektov, ktoré môžete prezentovať pri hľadaní práce alebo publikovať na vlastnom blogu.
Z vlastnej skúsenosti môžem povedať, že práca s verejnými dátami je často náročnejšia ako práca s „učebnicovými“ dátovými sadami. Dáta bývajú neúplné, obsahujú chýbajúce hodnoty alebo si vyžadujú dodatočné čistenie. Práve tento proces však najviac rozvíja analytické myslenie a schopnosť riešiť reálne problémy.
Čo je to dátová sada?
Dátová sada (angl. Dataset) obsahovuje rôzne typy informácií (čísla, text,..), tie sú uložené v určitom formáte a sú pripravené na spracovanie alebo analýzu. Najčastejšie používanou dátovou sadou je tabuľka, ktorej riadok predstavuje jeden záznam (napríklad rôzne informácie o osobe) a stĺpec zase atribút alebo vlastnosť (napríklad meno, vek, pohlavie, farba,..).
Dátová sada je základom pre analýzu dát, vizualizáciu, štatistické modelovanie a strojové učenie.
Napríklad dátová sada o nezamestnanosti môže obsahovať údaje podľa regiónov a rokov. Z takýchto dát možno vytvoriť graf vývoja, porovnať regióny alebo predikovať budúci trend.

A teraz sa pozrieme na verejné dátové zdroje na Slovensku a v Českej republike, ktoré môžete využiť vo svojich projektoch.
Tu sú niektoré z nich .
Štatistický úrad Slovenskej republiky
Zodpovednosť za zbieranie, spracovanie, analýzu a zverejňovanie štatistických údajov o Slovensku. Hlavnou úlohou úradu, je poskytovať relevantné informácie, ktoré sú nevyhnutné pre rozhodovanie a výskum v rôznych oblastiach, ako sú demografia, ekonomika, zamestnanosť, zdravotníctvo, školstvo a životné prostredie.
Pre dátový projekt tu môžete nájsť napríklad časové rady ekonomických ukazovateľov vhodné na analýzu trendov alebo regresné modely.
Web: https://www.statistics.sk
Open Data Slovensko
Sprístupňuje verejné údaje a štatistiky z rôznych oblastí (verejná správa, hospodárstvo, doprava, životné prostredie,..). Cieľom platformy je zlepšiť transparentnosť, umožniť občanom a firmám lepší prístup k informáciám, podporovať inovácie a vytváranie nových aplikácií a služieb na základe získaných dát.
Dáta sú dostupné vo formátoch (CSV, JSON alebo XML), ktoré sú ľahko použiteľné na analýzy.
Výhodou tohto národného portálu je, že mnohé dátové sady sú pravidelne aktualizované a vhodné na automatizované spracovanie (napr. pomocou Python skriptov alebo API prístupov).
Web: https://data.gov.sk
Český Štatistický Úrad
Zodpovednosť za zbieranie, spracovanie a zverejňovanie štatistických údajov. Úlohou je poskytovanie objektívnych a relevantných informácií o hospodárstve, demografii, spoločnosti, vzdelaní, životnom prostredí a ďalších oblastiach, ktoré sú nevyhnutné pre rozhodovanie a výskum.
Tieto dáta sú veľmi dobre štruktúrované a vhodné napríklad na porovnávacie analýzy medzi SR a ČR.
Web: https://www.czso.cz
Česká open data platforma
Sprístupňuje verejné dáta z rôznych oblastí (verejná správa, ekonomika, doprava, zdravotníctvo, vzdelávanie, životné prostredie,..) s cieľom podporovať transparentnosť, zlepšiť prístup k informáciám a podporiť inovácie v oblasti digitálnych služieb. Dáta sú pravidelne aktualizované a zverejňované vo formátoch, ktoré umožňujú jednoduché použitie na analýzu.
Zaujímavé sú napríklad dátové sady o verejných zákazkách alebo dopravných nehodách, ktoré umožňujú vytvárať analytické projekty s reálnym spoločenským presahom.
Web: https://data.gov.cz
Európska centrálna banka a Eurostat
Zodpovednosť za menovú politiku eurozóny, pričom jej hlavnou úlohou je zabezpečenie cenovej stability, podpory ekonomického rastu a zamestnanosti v rámci eurozóny. Ďalej je to poskytovanie spoľahlivých štatistických údajov o hospodárstve, populácii, životnom prostredí, obchode a ďalších oblastiach jednotlivých členských štátov EÚ.
Dáta sú ideálne pre makroekonomické analýzy, modelovanie inflácie alebo porovnávanie krajín eurozóny.
Web: https://ec.europa.eu/eurostat , alebo https://www.ecb.europa.eu
Ako pracovať s verejnými dátami v praxi?
Samotné stiahnutie dátovej sady je ale len prvý krok. V praxi budete musieť skontrolovať kvalitu dát (môžu obsahovať chýbajúce alebo neúplné údaje), upraviť formát dát (dátumy, číselné typy), zlúčiť viac dátových sád a vytvoriť vizualizácie alebo model. Súčasne treba ale počítať s tým, že niektoré dátové sady nemusia byť pravidelne aktualizované.
Praktický postup môže vyzerať napríklad aj takto:
- stiahnite si dátovú sadu vo formáte CSV
- načítajte ju s použitím jazyka Python a knižnice Pandas
- skontrolujte chýbajúce hodnoty a základné štatistiky
- vytvorte jednoduchý graf vývoja pomocou knižnice Matplotlib alebo Seaborn
- prezentujte výsledky
Tu by som si dovolil jedno odporúčanie.
Začnite teda s malým projektom, napríklad analyzujte vývoj inflácie na Slovensku za posledných 10 rokov a vytvorte jednoduchú vizualizáciu trendu v programovacom jazyku Python. Takýto projekt bude určite vhodný aj do Vášho portfólia a súčasne bude mať výrazne vyššiu hodnotu než len teoretické čítanie o dátovej analýze.
Ak to teda zhrniem..
Oblasť dátovej vedy sa neustále vyvíja a počet verejne dostupných dátových zdrojov rozhodne ešte porastie. K dispozícii je množstvo kvalitných a bezplatných databáz, ktoré umožňujú pracovať s reálnymi dátami, budovať analytické portfólio, rozvíjať štatistické a programátorské zručnosti a testovať modely strojového učenia.
Pre začínajúceho dátového vedca sú verejné zdroje ideálnym tréningovým prostredím.
Zaujal Vás článok?
Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.

