Verejné zdroje pre zber dát 2-2

data zber zdroj

V minulej časti seriálu sme sa venovali téme, kde na Slovensku a v Českej republike nájsť dostupné verejné zdroje pre zber dát. Dnes na túto tému nadviažem a doplním informácie o ďalších internetových zdrojoch, ktoré umožňujú dátovým vedcom získať prístup ku kvalitným dátovým sadám vhodným na analýzu a teda výskumné projekty.

Mať prístup k spoľahlivým dátam je nevyhnutnosťou pre každého, kto sa venuje dátovej vede, štatistike alebo obchodnej analytike. Bez kvalitných dátových zdrojov je akákoľvek analýza nepresná a jej výsledky môžu byť dosť zavádzajúce. Preto je dobré vedieť, kde a ako nájsť otvorené dátové sady z rôznych oblastí, od ekonomiky cez zdravotníctvo až po energetiku alebo dopravu.

A teraz sa pozrieme, kde nájsť ďalšie kvalitné dátové sady pre prácu.

1/ Google Dataset Search

Ideálny vyhľadávací nástroj od spoločnosti Google, ktorý poskytuje jednoduchý spôsob ako rýchlo a efektívne nájsť kvalitné a relevantné, verejne dostupné dátové sady na internete z rôznych oblastí, ako je zdravotníctvo, genetika, sociálne vedy alebo ekonomika.

Vzhľadom na špecifické zameranie tohto nástroja, umožňuje používateľom vyhľadať dátové sady na základe kľúčových slov, alebo iných špecifických kritérií z rôznych oblastí v rámci verejných databáz, vládnych organizácií alebo akademických zdrojov. Nástroj Google Dataset Search podporuje rôzne formáty dát, ako sú napríklad textové súbory (CSV, TSV), alebo databázy (SQL, JSON) a tým tak umožniť používateľom prístup k rôznym typom dát podľa ich potrieb.

Podľa informácií, ktoré som dohľadal na internete, by nástroj Google Dataset Search mal zhromažďovať údaje nielen z rôznych výskumných inštitúcií, alebo akademických databáz, ale aj z internetových úložísk, ako sú v tomto článku nižšie popísané (Open Data America a platforma Kaggle).

Web: https://datasetsearch.research.google.com

2/ Open Data America

Platforma sa podobná portálom, ktoré sme si predstavili v rámci Slovenska a Českej republiky v článku Verejné zdroje pre zber dát. V tomto prípade ide prístup k veľkému množstvu verejných dát zo všetkých štátov USA, pričom zdroje sú poskytované rôznymi americkými vládnymi agentúrami. Dáta sú na platforme zverejňované v rôznych formátoch (CSV, JSON, XML,..), pričom pochádzajú z oblastí ako napríklad vzdelávanie, ekonomika, životné prostredie, energetika, alebo zdravotná starostlivosť. Dátové sady je možné vyhľadávať podľa kľúčových slov, kritérií alebo konkrétnych oblastí.

Cieľom platformy je zjednodušiť prístup k verejne dostupným dátam a podporiť využitie dát na rôzne účely, ako je napríklad analýza, inovácie, výskumné projekty alebo zlepšovanie verejných služieb.

Web: https://data.gov

3/ Kaggle

Podľa dostupných informácií by malo ísť pravdepodobne o jednu z najznámejších platforiem pre dátových vedcov. Sú tu k dispozícii dátové sady so zameraním na rôzne oblasti, od ekonomických a zdravotných dát až po šport a kultúru a tým tak umožniť používateľom experimentovať s rôznymi typmi dát a technikami. Dátové sady sú bezplatne dostupné na prevzatie v rôznych formátoch.

Kaggle je platforma, ktorá poskytuje všetko potrebné na prácu s dátami a to od získania relevantnej dátovej sady a nástrojov na analýzu až po publikácie k vzdelávaniu. Naviac je tu k dispozícii aktívna komunita používateľov a teda aj možnosť komunikovať, riešiť vzniknuté problémy alebo si len tak vymieňať nápady s ostatnými členmi komunity. Jednoducho to vyzerá tak, že je to ideálne miesto pre každého, kto chce získať praktické skúsenosti v oblasti dátovej vedy, strojového učenia, analýzy dát a zároveň ešte aj prispieť svojimi vedomosťami smerom do komunity.

Web: https://www.kaggle.com/datasets

Nakoniec ešte jeden zaujímavý odkaz.

Na internetovej platforme GitHub (umožňuje vývojárom spolupracovať na projektoch, zdieľať zdrojový kód, alebo spravovať verzie programov) sa nachádza tematicky zameraný zoznam odkazov na verejne dostupné dátové zdroje. Ide o pravidelne aktualizovaný zoznam, ktorý obsahuje údaje z rôznych oblastí dátovej vedy ako napríklad biológia, ekonomika, zdravotníctvo, energia, zábava, šport, alebo doprava. Dôležitou informáciou pritom je, že zdroj dát je z rôznych krajín a organizácií a tým sa dosiahne celkom globálny pohľad vo výsledku zo spracovaných dát.

Web: Github Datasets

 

Prečo sú tieto zdroje dôležité

Kvalitné dátové sady sú základom práce pre každého dátového vedca, analytika alebo odborníka na podnikovú analytiku. Bez správnych dát by bolo náročné robiť presné analýzy, predpovede alebo aj experimenty so strojovým učením (angl. Machine Learning). Práve preto je nevyhnutné vedieť, kde nájsť spoľahlivé a aktuálne zdroje dát.

Využívanie dátových zdrojov umožňuje:

  • získať dáta pripravené na analýzu bez nutnosti manuálneho spracovania
  • experimentovať s rôznymi typmi dát a formátmi (CSV, JSON, XML, SQL)
  • rozvíjať praktické zručnosti v dátovej vede a strojovom učení
  • rýchlo sa učiť a získavať nové skúsenosti pri práci s reálnymi dátami
  • prispievať komunite a zdieľať vlastné výsledky alebo úpravy dátovej sady

Tieto zdroje nielen zjednodušia samotný prístup k dátam, ale aj podporujú inovácie, umožňujú riešiť reálne problémy a rozvíjať analytické schopnosti. Práca s otvorenými dátami je preto vhodná pre študentov, začiatočníkov aj skúsených analytikov, ktorí chcú svoje znalosti aplikovať na reálne projekty.

Okrem toho používanie verejných dátových zdrojov pomáha budovať dôveru vo výsledky analýz, pretože dáta sú transparentné a overiteľné. Takáto prax je kľúčová nielen vo výskumných projektoch, ale aj v podnikovej analytike, kde rozhodnutia na základe kvalitných dát môžu významne ovplyvniť úspech firmy.

 

Malé zhrnutie nakoniec..

Verejné dátové zdroje otvárajú pred dátovými vedcami, analytikmi a študentami široké možnosti.

Pravidelné sledovanie nových dátových sád umožňuje objavovať aktuálne trendy, nachádzať inšpiráciu pre vlastné projekty a identifikovať oblasti, kde je možné priniesť nové poznatky alebo inovatívne riešenia. Vďaka globálnemu prepojeniu platforiem ako Google Dataset Search, Open Data America, Kaggle alebo GitHub sa získava lepší pohľad na dáta z rôznych krajín a tiež oblastí, čo podporuje tvorbu komplexných a relevantných analytických výstupov.

 

 

 

 


Zaujal Vás článok?  

Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.