Cesta k dátovej vede

cesta datova veda

Ak ste sa rozhodli ponoriť do sveta dátovej vedy, v tom prípade gratulujem!

Dnešný článok je pre každého, kto uvažuje o začiatku kariéry v oblasti dátovej vedy, ktorá je v súčasnosti jednou z najvyhľadávanejších oblastí na trhu práce. Osobne som síce tiež ešte len niekde v začiatkoch, ale už z toho, čo som sa zatiaľ naučil, by som si dovolil ponúknuť niekoľko praktických informácií, ako sa do tejto oblasti pustiť a urobiť prvé kroky na ceste k úspechu.

Takže..

Dátová veda

Na začiatku bude určite dôležité porozumieť tomu, čo je to vlastne dátová veda a pre ktoré oblasti sa tento odbor využíva. Súčasne sa treba zamerať na to, čo je cieľom dátovej vedy – že ide o zbieranie dát z dátových súborov (rôznych typov a formátov), ich následného spracovania a vo finále využitia takto získaných hodnotných informácií, napríklad na riešenie reálnych problémov, predpovedanie trendov, alebo na optimalizáciu existujúcich procesov.

K tejto téme sa vrátim už v nasledujúcom článku.

Matematika a štatistika

Práve matematika a štatistika sú neoddeliteľne prepojené s dátovou vedou, pretože umožňujú správne vyhodnocovať a interpretovať výsledky analýzy. Naučiť sa základy matematiky ako aj štatistiky (práca s priemerom, mediánom, rozptylom, štandardnou odchýlkou alebo inými metrikami), je dôležité pre správne pochopenie charakteristiky dát a ich následnej analýzy.

Programovanie

Bude nevyhnutné začať od základov programovania v jazyku Python alebo R, osvojiť si základné dátové štruktúry (zoznamy, polia a slovníky) a postupne prechádzať k náročnejším úlohám, ako je manipulácia s dátami, vykonávanie analýz alebo vytváranie modelov strojového učenia.

Osobne považujem Python za ideálny jazyk, pretože jeho syntax je veľmi čitateľná a zrozumiteľná. Python má množstvo užitočných knižníc (napríklad Pandas na prácu s dátami, NumPy pre vedecké výpočty, Matplotlib ako základná voľba na vizualizáciu dát, Seaborn pre komplexné vizualizácie, alebo Scikit-learn pre strojové učenie a analýzu dát) a samozrejme veľkú komunitu používateľov, čo je ideálne pre hľadanie riešenia problémov a podobne. Ako nástroj na programovanie v jazyku Python by som odporučil Jupyter Notebook, ktorý umožňuje písať zdrojový kód a okamžite vidieť výsledky.

S programovacím jazykom R ešte len začínam, takže tu nemám veľké skúsenosti. Na základe toho, čo ale zatiaľ viem, ide o jazyk špecificky navrhnutý pre štatistiku a analýzu dát a je obľúbený v akademickom prostredí.

Práca s dátami

Dôležité je uvedomiť si, ako získať dáta z rôznych dátových zdrojov (databáza, súbor,..) a súčasne, že dáta (tzv. surové dáta) s ktorými sa ide pracovať, pravdepodobne nikdy nebudú v ideálnom stave pre analýzu. Často budú tieto dáta obsahovať chýbajúce hodnoty, nepresné alebo nepodstatné informácie, prípadne pôjde o neštruktúrované dáta (zvuk, obrázok,..). Z týchto dôvodov bude veľmi dôležité poznať spôsoby, ako získané dáta správne vyčistiť (spracovávať chýbajúce hodnoty, identifikovať a odstraňovať nepresnosti a nezrovnalosti v dátach alebo transformovať dáta do vhodného formátu podľa potreby) a pripraviť ich tak na analýzu.

Netreba zabúdať ani na dôležitosť vytvorenia zrozumiteľnej a prehľadnej vizualizácie, ktorá je kľúčová pre porozumenie dátam a efektívne komunikovanie výsledkov získaných z analýzy.

Čo je teda dôležité na začiatku?

Skúsim to teda zhrnúť.

Dátová veda je oblasť, ktorá sa neustále vyvíja a začiatky môžu byť určite výzvou. Rozhodne treba začať so základným popisom dátovej vedy a následne s učením základov štatistiky, programovania (najlepšie s jazykom Python) a práce s dátami. Úspech bude závisieť predovšetkým na vytrvalosti, zvedavosti a ochote neustále sa učiť a prispôsobovať sa novým výzvam.

A aby som nezabudol..

Pre získanie praktických skúsenosti, je nevyhnutné začať sa venovať skutočným projektom v dátovej vede.


Zaujal Vás článok? 

Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.