Praktické nástroje pre dátový projekt

nastroj data projekt

Pri práci na dátovom projekte nie sú dôležité len samotné dáta, ich spracovanie a tiež analýza. Rovnako dôležitú úlohu zohrávajú aj softvérové nástroje, ktoré celý proces výrazne zjednodušujú a pomáhajú udržať projekt prehľadný, reprodukovateľný a súčasne poskytujú kvalitnú dokumentáciu.

Začiatočníci v oblasti dátovej vedy sa často sústreďujú najmä na programovanie a štatistiku. V praxi však významnú časť práce tvorí aj samotná organizácia projektu, dokumentácia a zdieľanie získaných výsledkov. Práve v týchto oblastiach zohrávajú kľúčovú úlohu vhodné softvérové nástroje.

Dobrou správou je, že existuje niekoľko jednoduchých a v podstate dostupných nástrojov, ktoré dokážu výrazne uľahčiť prácu na dátovom projekte.

Medzi najpoužívanejšie nástroje patria:

  • Jupyter Notebook
  • Google Colab
  • Git a GitHub

Tieto nástroje pomáhajú dátovým analytikom a dátovým vedcom organizovať kód, experimentovať s dátami a zároveň uchovávať históriu zmien v projekte.

Pozrime sa na ne bližšie.

 

1/ Jupyter Notebook

Jupyter Notebook je interaktívne vývojové prostredie, ktoré umožňuje kombinovať zdrojový kód, textové poznámky, rôzne grafy a výsledky analýz v jednom dokumente.

Je to jeden z najpopulárnejších nástrojov v oblasti dátovej vedy, pretože umožňuje pracovať s dátami veľmi intuitívnym spôsobom. Kód sa spúšťa po jednotlivých blokoch (angl. cells) a to znamená, že dáta je možné postupne načítať, upraviť ich, analyzovať a vizualizovať výsledky.

Jupyter Notebook je ideálny napríklad na:

  • čistenie dát (angl. data cleaning)
  • na základnú analýzu dát
  • vytváranie grafov a vizualizácií
  • experimentovanie s modelmi
  • dokumentovanie celého analytického procesu

Výhodou je, že zdrojový kód aj vysvetlenia sú uložené v jednom súbore, čo výrazne uľahčuje pochopenie projektu aj pre iných ľudí.

Hlavné výhody:

  • ideálne prostredie na experimentovanie s dátami
  • prehľadná organizácia kódu do jednotlivých blokov
  • možnosť pridávať komentáre a vysvetľujúce poznámky
  • vizualizácia spracovaných dát priamo v dokumente
  • veľmi vhodné prostredie na učenie a prezentáciu výsledkov

Jupyter Notebook je súčasťou kvalitného balíka Anaconda, ktorý umožňuje jednoduchú inštaláciu jazyka Python a väčšiny dátových knižníc do počítača.

Web: https://jupyter.org
Web: https://www.anaconda.com/download

2/ Google Colab

Google Colab (angl. Google Colaboratory) je zase cloudový nástroj od spoločnosti Google, ktorý funguje podobne ako Jupyter Notebook, ale beží priamo vo webovom prehliadači. Najväčšou výhodou je, že používateľ nemusí nič inštalovať. Stačí mať vytvorený Google účet a potom je možné okamžite začať pracovať s Python kódom a dátami.

Vytvorené dokumenty sa ukladajú priamo do Google Drive, takže je možné ich jednoducho zdieľať s kolegami. Google Colab je preto veľmi populárny najmä v oblasti vzdelávania a online kurzov. Ďalšou zaujímavou výhodou je možnosť využívať výpočtový výkon Google serverov, napríklad GPU alebo TPU. To môže výrazne zrýchliť náročnejšie výpočty alebo tréning modelov strojového učenia.

Hlavné výhody:

  • nie je potrebná žiadna inštalácia (na rozdiel od Jupiter Notebook)
  • prístup k projektom je z akéhokoľvek zariadenia s prístupom k internetu
  • možnosť využiť výpočtový výkon Googlu (napr. GPU/TPU) na zrýchlenie náročných úloh
  • jednoduché zdieľanie projektov s ostatnými
  • ideálne riešenie pre začínajúcich dátových analytikov

Google Colab je teda vhodný pre každého začiatočníka, kto sa chce rýchlo naučiť základy dátovej vedy a to bez potreby komplikovaného nastavovania vývojového prostredia.

Web: https://colab.research.google.com

3/ Git a GitHub

Git je systém na správu verzií (angl. version control system), ktorý zaznamenáva všetky zmeny v projekte a umožňuje sa tak vrátiť k starším verziám zdrojového kódu alebo dátového projektu.

V dátovej analytike je Git veľmi užitočný najmä pri:

  • sledovaní zmien v kóde
  • spolupráci viacerých ľudí na jednom projekte
  • bezpečnom zálohovaní práce

Git sa často používa spolu s platformou GitHub, ktorá umožňuje ukladať projekty online a následne ich tak jednoducho zdieľať. GitHub má súčasne veľkú výhodu v tom, že môže slúžiť ako verejné portfólio dátových projektov. Mnoho dátových analytikov a dátových vedcov tam prezentuje svoje projekty, aby ich mohli vidieť potenciálni zamestnávatelia.

Hlavné výhody:

  • zálohovanie projektu a vytváranie jeho verzií
  • sledovanie histórie zmien
  • jednoduchá tímová spolupráca a zdieľanie projektov
  • možnosť zverejniť vlastné projekty ako portfólio

Pre začiatočníkov môže Git na prvý pohľad pôsobiť komplikovane, no základné príkazy sa dajú v podstate pomerne rýchlo naučiť a výrazne zlepšujú organizáciu práce.

Web: https://git-scm.com
Web: https://github.com

 
Ako tieto nástroje spolupracujú v dátovom projekte

Typický dátový projekt môže vyzerať napríklad tak, že dáta sa analyzujú v Jupyter Notebooku alebo Google Colab, ďalej sa vytvoria grafy a zdokumentuje sa postup analýzy, potom sa projekt uloží do Git repozitára (úložiska projektu s históriou zmien) a nakoniec v rámci GitHub sa publikuje výsledný projekt ako portfólio. Tento postup zabezpečuje, že projekt zostane prehľadný, jeho výsledky reprodukovateľné a zároveň ľahko dostupné s ostatnými.

Tabuľka porovnania nástrojov:

Nástroj Typ Inštalácia Vhodné pre
Jupyter Notebook lokálne prostredie áno analýza dát
Google Colab cloudové prostredie nie učenie a experimentovanie
Git + GitHub verzovanie áno správa projektov

 

 

Začiatočníci rozhodne nemusia hneď ovládať veľké množstvo nástrojov. Už základná kombinácia nástrojov ako sú Jupyter Notebook, Google Colab a Git poskytuje veľmi dobrý základ pre prácu s dátami. Tieto nástroje umožňujú analyzovať a vizualizovať dáta, dokumentovať celý analytický proces, ukladať a verzovať daný projekt a jednoducho zdieľať výsledky s ostatnými.

S pribúdajúcimi skúsenosťami sa postupne otvára možnosť využívať aj pokročilejšie nástroje a platformy, ktoré umožňujú efektívnejšiu prácu na oveľa komplexnejších dátových projektoch.

 


Zaujal Vás článok?  

Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.