Verejné zdroje pre zber dát

data zber zdroj

Pre každého začínajúceho dátového vedca je veľmi dôležité nájsť kvalitné dáta (dátová sada), ktoré budú nevyhnutné pre jeho analýzy. Otázkou ale je, kde získať tieto dáta, resp. či je ich možné získať z verejne dostupných zdrojov. Dôležité je, že existuje množstvo verejných databáz a zdrojov, ktoré poskytujú prístup k rôznym typom dát, ktoré možno následne využiť pri dátových projektoch.

Najskôr si ale zodpovieme otázku..

Čo je to dátová sada?

Dátová sada (angl. Dataset) môže obsahovať rôzne typy informácií (čísla, text,..), tie sú uložené v určitom formáte a sú pripravené na spracovanie, alebo analýzu. Najčastejšie používanou dátovou sadou je tabuľka, ktorej riadok predstavuje jeden záznam (napríklad rôzne informácie o osobe) a stĺpec zase atribút alebo vlastnosť (napríklad meno, vek, pohlavie, farba,..). Dátová sada je základom pre analýzu, alebo strojové učenie a môže sa použiť k identifikácii vzorcov, trénovanie modelov alebo na vizualizáciu spracovaných dát.

A teraz sa pozrieme na zdroje dostupné na Slovensku a v Českej republike.

Tu sú niektoré z nich.

Štatistický úrad Slovenskej republiky

Zodpovednosť za zbieranie, spracovanie, analýzu a zverejňovanie štatistických údajov o Slovensku. Hlavnou úlohou úradu, je poskytovať relevantné informácie, ktoré sú nevyhnutné pre rozhodovanie a výskum v rôznych oblastiach, ako sú demografia, ekonomika, zamestnanosť, zdravotníctvo, školstvo a životné prostredie.

Web: https://www.statistics.sk

Open Data Slovensko

Sprístupňuje verejné údaje a štatistiky z rôznych oblastí (verejná správa, hospodárstvo, doprava, životné prostredie,..). Cieľom platformy je zlepšiť transparentnosť, umožniť občanom a firmám lepší prístup k informáciám, podporovať inovácie a vytváranie nových aplikácií a služieb na základe získaných dát. Dáta sú zverejňované vo formátoch, ktoré sú ľahko prístupné a použiteľné na analýzy.

Web: https://data.gov.sk

Český Štatistický Úrad

Zodpovednosť za zbieranie, spracovanie a zverejňovanie štatistických údajov. Úlohou je poskytovanie objektívnych a relevantných informácií o hospodárstve, demografii, spoločnosti, vzdelaní, životnom prostredí a ďalších oblastiach, ktoré sú nevyhnutné pre rozhodovanie a výskum.

Web: https://www.czso.cz

 

Česká open data platforma

Sprístupňuje verejné dáta z rôznych oblastí (verejná správa, ekonomika, doprava, zdravotníctvo, vzdelávanie, životné prostredie,..) s cieľom podporovať transparentnosť, zlepšiť prístup k informáciám a podporiť inovácie v oblasti digitálnych služieb. Dáta sú pravidelne aktualizované a zverejňované vo formátoch, ktoré umožňujú jednoduché použitie na analýzu.

Web: https://data.gov.cz

Európska centrálna banka a Eurostat

Zodpovednosť za menovú politiku eurozóny, pričom jej hlavnou úlohou je zabezpečenie cenovej stability, podpory ekonomického rastu a zamestnanosti v rámci eurozóny. Ďalej je to poskytovanie spoľahlivých štatistických údajov o hospodárstve, populácii, životnom prostredí, obchode a ďalších oblastiach jednotlivých členských štátov EÚ.

Web: https://ec.europa.eu/eurostat alebo https://www.ecb.europa.eu

Ak to teda zhrniem..

Oblasť dátovej vedy sa neustále vyvíja a počet dostupných verejných dátových zdrojov rozhodne ešte porastie. K dispozícii je veľa verejných databáz, ktoré sú prístupné pre každého, kto sa chce ponoriť do analýzy postavenej na reálnych dátach v rôznych formátoch, rozšíriť si tak svoje projekty alebo vylepšiť analytické zručnosti.

Nabudúce sa pozrieme na zahraničné, verejne dostupné dátové zdroje.


Zaujal Vás článok?  

Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.