V minulej časti seriálu sme sa zaoberali témou, kde nájsť na Slovensku a v Českej republike dostupné verejné zdroje pre zber dát. Dnes na danú tému nadviažem a doplním informácie k ďalším internetovým zdrojom, kde môže dátový vedec získať prístup ku kvalitným dátovým sadám.
A teraz sa pozrieme, kde nájsť ďalšie kvalitné dátové sady pre prácu.
1/ Google Dataset Search
Ideálny vyhľadávací nástroj od spoločnosti Google, ktorý poskytuje jednoduchý spôsob ako rýchlo a efektívne nájsť kvalitné a relevantné, verejne dostupné dátové sady na internete z rôznych oblastí, ako je zdravotníctvo, genetika, sociálne vedy alebo ekonomika.
Vzhľadom na špecifické zameranie tohto nástroja, umožňuje používateľom vyhľadať dátové sady na základe kľúčových slov, alebo iných špecifických kritérií z rôznych oblastí v rámci verejných databáz, vládnych organizácií alebo akademických zdrojov. Nástroj Google Dataset Search podporuje rôzne formáty dát, ako sú napríklad textové súbory (CSV, TSV), alebo databázy (SQL, JSON) a tým tak umožniť používateľom prístup k rôznym typom dát podľa ich potrieb.
Podľa informácií, ktoré som dohľadal na internete, by nástroj Google Dataset Search mal zhromažďovať údaje nielen z rôznych výskumných inštitúcií, alebo akademických databáz, ale aj z internetových úložísk, ako sú v tomto článku nižšie popisované (Open Data America a platforma Kaggle).
Web: https://datasetsearch.research.google.com
2/ Open Data America
Platforma so zameraním je podobná na tie, ktoré sme si predstavili v rámci Slovenska a Českej republiky v článku Verejné zdroje pre zber dát. V tomto prípade ide prístup k veľkému množstvu verejných dát zo všetkých štátov USA, pričom zdroje sú poskytované rôznymi americkými vládnymi agentúrami. Dáta sú na platforme zverejňované v rôznych formátoch (CSV, JSON, XML,..), pričom pochádzajú z oblastí ako napríklad vzdelávanie, ekonomika, životné prostredie, energetika, alebo zdravotná starostlivosť. Dátové sady je možné vyhľadávať podľa kľúčových slov, kritérií alebo konkrétnych oblastí.
Cieľom platformy je zjednodušiť prístup k verejne dostupným dátam a podporiť využitie dát na rôzne účely, ako je napríklad analýza, inovácie, výskumné projekty alebo zlepšovanie verejných služieb.
Web: https://data.gov
3/ Kaggle
Podľa dostupných informácií by malo ísť pravdepodobne o jednu z najznámejších platforiem pre dátových vedcov. Sú tu k dispozícii dátové sady so zameraním na rôzne oblasti, od ekonomických a zdravotných dát až po šport a kultúru a tým tak umožniť používateľom experimentovať s rôznymi typmi dát a technikami. Dátové sady sú bezplatne dostupné na prevzatie v rôznych formátoch.
Kaggle je platforma, ktorá poskytuje všetko potrebné na prácu s dátami a to od získania relevantnej dátovej sady a nástrojov na analýzu až po publikácie k vzdelávaniu. Naviac je tu k dispozícii aktívna komunita používateľov a teda aj možnosť komunikovať, riešiť vzniknuté problémy alebo si len tak vymieňať nápady s ostatnými členmi komunity. Jednoducho to vyzerá tak, že je to ideálne miesto pre každého, kto chce získať praktické skúsenosti v oblasti dátovej vedy, strojového učenia, analýzy dát a zároveň ešte aj prispieť svojimi vedomosťami smerom do komunity.
Web: https://www.kaggle.com/datasets
Nakoniec ešte jeden zaujímavý odkaz.
Na internetovej platforme GitHub (umožňuje vývojárom spolupracovať na projektoch, zdieľať zdrojový kód, alebo spravovať verzie programov) sa nachádza tematicky zameraný zoznam odkazov na verejne dostupné dátové zdroje. Ide o pravidelne aktualizovaný zoznam, ktorý obsahuje údaje z rôznych oblastí dátovej vedy ako napríklad biológia, ekonomika, zdravotníctvo, energia, zábava, šport, alebo doprava. Dôležitou informáciou pritom je, že zdroj dát je z rôznych krajín a organizácií a tým sa dosiahne celkom globálny pohľad vo výsledku zo spracovaných dát.
Web: Github Datasets
Malé zhrnutie nakoniec..
Nevyhnutnosťou pre prácu každého pracovníka v oblasti dátovej vedy, je mať prístup ku kvalitným dátovým sadám. A je v zásade úplne jedno, či ide o začínajúceho alebo už skúseného vedca. V obidvoch prípadoch treba využiť dostupné zdroje (ako sú napríklad v tomto článku spomenuté Google Dataset Search, alebo Kaggle) na vylepšenie si svojich zručností v dátovej vede a použiť dáta na riešenie reálnych problémov.
Zaujal Vás článok?
Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.

