Ak ste sa rozhodli ponoriť do sveta dátovej vedy, v tom prípade gratulujem!
Dnešný článok je pre každého, kto uvažuje o začiatku kariéry v oblasti dátovej vedy, ktorá je v súčasnosti jednou z najvyhľadávanejších oblastí na trhu práce. Osobne som síce tiež ešte len niekde v začiatkoch, ale už z toho, čo som sa zatiaľ naučil, by som si dovolil ponúknuť niekoľko praktických informácií, ako sa do tejto oblasti pustiť a urobiť prvé kroky na ceste k úspechu.
Takže..
Dátová veda
Na začiatku bude určite dôležité porozumieť tomu, čo je to vlastne dátová veda a pre ktoré oblasti sa tento odbor využíva. Súčasne sa treba zamerať na to, čo je cieľom dátovej vedy – že ide o zbieranie dát z dátových súborov (rôznych typov a formátov), ich následného spracovania a vo finále využitia takto získaných hodnotných informácií, napríklad na riešenie reálnych problémov, predpovedanie trendov, alebo na optimalizáciu existujúcich procesov.
K tejto téme sa vrátim už v nasledujúcom článku.
Matematika a štatistika
Práve matematika a štatistika sú neoddeliteľne prepojené s dátovou vedou, pretože umožňujú správne vyhodnocovať a interpretovať výsledky analýzy. Naučiť sa základy matematiky ako aj štatistiky (práca s priemerom, mediánom, rozptylom, štandardnou odchýlkou alebo inými metrikami), je dôležité pre správne pochopenie charakteristiky dát a ich následnej analýzy.
Programovanie
Bude nevyhnutné začať od základov programovania v jazyku Python alebo R, osvojiť si základné dátové štruktúry (zoznamy, polia a slovníky) a postupne prechádzať k náročnejším úlohám, ako je manipulácia s dátami, vykonávanie analýz alebo vytváranie modelov strojového učenia.
Osobne považujem Python za ideálny jazyk, pretože jeho syntax je veľmi čitateľná a zrozumiteľná. Python má množstvo užitočných knižníc (napríklad Pandas na prácu s dátami, NumPy pre vedecké výpočty, Matplotlib ako základná voľba na vizualizáciu dát, Seaborn pre komplexné vizualizácie, alebo Scikit-learn pre strojové učenie a analýzu dát) a samozrejme veľkú komunitu používateľov, čo je ideálne pre hľadanie riešenia problémov a podobne. Ako nástroj na programovanie v jazyku Python by som odporučil Jupyter Notebook, ktorý umožňuje písať zdrojový kód a okamžite vidieť výsledky.
S programovacím jazykom R ešte len začínam, takže tu nemám veľké skúsenosti. Na základe toho, čo ale zatiaľ viem, ide o jazyk špecificky navrhnutý pre štatistiku a analýzu dát a je obľúbený v akademickom prostredí.
Práca s dátami
Dôležité je uvedomiť si, ako získať dáta z rôznych dátových zdrojov (databáza, súbor,..) a súčasne, že dáta (tzv. surové dáta) s ktorými sa ide pracovať, pravdepodobne nikdy nebudú v ideálnom stave pre analýzu. Často budú tieto dáta obsahovať chýbajúce hodnoty, nepresné alebo nepodstatné informácie, prípadne pôjde o neštruktúrované dáta (zvuk, obrázok,..). Z týchto dôvodov bude veľmi dôležité poznať spôsoby, ako získané dáta správne vyčistiť (spracovávať chýbajúce hodnoty, identifikovať a odstraňovať nepresnosti a nezrovnalosti v dátach alebo transformovať dáta do vhodného formátu podľa potreby) a pripraviť ich tak na analýzu.
Netreba zabúdať ani na dôležitosť vytvorenia zrozumiteľnej a prehľadnej vizualizácie, ktorá je kľúčová pre porozumenie dátam a efektívne komunikovanie výsledkov získaných z analýzy.
Čo je teda dôležité na začiatku?
Skúsim to teda zhrnúť.
Dátová veda je oblasť, ktorá sa neustále vyvíja a začiatky môžu byť určite výzvou. Rozhodne treba začať so základným popisom dátovej vedy a následne s učením základov štatistiky, programovania (najlepšie s jazykom Python) a práce s dátami. Úspech bude závisieť predovšetkým na vytrvalosti, zvedavosti a ochote neustále sa učiť a prispôsobovať sa novým výzvam.
A aby som nezabudol..
Pre získanie praktických skúsenosti, je nevyhnutné začať sa venovať skutočným projektom v dátovej vede.
Zaujal Vás článok?
Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.