Dátová veda je dynamický a neustále sa rozvíjajúci odbor, ktorý stále prináša nové výzvy a príležitosti.
Aby bolo možné sa viac ponoriť do sveta dát a úspešne sa v ňom orientovať, bude nevyhnutné porozumieť nielen základným pojmom ako sú dáta, strojové učenie, alebo umelá inteligencia, ale aj ďalším dôležitým informáciám z oblasti dátovej vedy.
Slovník pojmov sa priebežne dopĺňa o nové informácie.
A
Algoritmus – postup alebo definovanie rôznych pravidiel, ktoré sú potrebné na riešenie problémov alebo spustenie konkrétnych úloh
Analýza dát – proces preverenia dát za účelom získania užitočných informácií, vzorov alebo vzťahov, ktoré môžu byť použité pri rozhodovaní
B
Big Data (Veľké dáta) – označuje obrovské množstvo a rozmanitosti dát, ktoré nie je možné spracovať štandardnými metódami a nástrojmi. Tieto dáta sú často analyzované pomocou špeciálnych nástrojov a pokročilých techník, ako je napríklad strojové učenie (angl. Machine Learning).
D
Dáta – sú to surové informácie, ktoré môžu byť číselné, textové, obrazové alebo zvukové a používajú sa na analýzu, získavanie vzorcov, predikcií,..
Dátová veda – je to odbor, ktorý kombinuje matematiku, štatistiku, programovanie a analytiku. Zaoberá sa získavaním, spracovaním, analýzou a vizualizovaním dát za účelom získania hodnotných informácií pre podporu rozhodovania.
Dátová štruktúra – definovaný systém pre ukladanie dát vo forme napríklad poľa alebo zoznamu, aby následne bolo možné tieto dáta efektívne spracovávať a využívať.
Dátová transformácia – je to proces konverzie alebo úpravy dát do formátu, ktorý bude vhodný na ich ďalšie spracovanie
Dataset – v podstate ide o dátový súbor, čo je kolekcia dát organizovaná do tabuliek s riadkami a stĺpcami, pričom riadok predstavuje záznam a stĺpec reprezentuje premennú
Data Wrangling – zahŕňa dôležitý proces čistenia a transformácie surových dát v dátovej vede do formátu, ktorý bude vhodný na analýzu.
Data mining – proces pre objavovanie vzorcov, súvislostí a trendov v rozsiahlych dátach s použitím rôznych analytických techník za účelom získania zmysluplných informácií potrebných pre rozhodovanie
H
Histogram – je to graf, ktorý zobrazuje rozdelenie dát a používa sa na vizualizáciu frekvencie výskytu hodnôt v rôznych intervaloch
K
Korelácia – vyjadruje vzťah medzi dvoma premennými
M
Machine Learning (Strojové učenie) – ide o techniku, oblasť umelej inteligencie, ktorá sa zameriava na tvorbu modelov umožňujúcich počítačom učiť sa z dát bez explicitného (programátor stará o každý detail implementácie a každá operácia je priamo definovaná v zdrojovom kóde) naprogramovania.
Model – je to matematický alebo štatistický nástroj, ktorý sa používa na analýzu dát a vytváranie predikcií. Modely sa používajú na testovanie na historických dátach za účelom vytvorenia budúcich udalostí (predpovede)
P
Predikcia – proces zameraný na odhad alebo predpoveď budúceho výsledku na základe historických dát, modelu strojového učenia alebo štatistiky
Prediktívna analýza – použitie štatistických algoritmov a techník na predpovedanie budúcich udalostí alebo trendov na základe využitia historických dát
Python – populárny programovací jazyk v oblasti dátovej vedy, vzhľadom na svoju flexibilitu a rozsiahlu ponuku knižníc (Pandas, NumPy,..) na analýzu a spracovanie dát
Premenná – je to ľubovolný merateľný alebo pozorovateľný aspekt dát, ktorý sa používa na uchovanie hodnôt, pričom premenné môžu byť rôznych typov v závislosti od charakteristiky dát.
R
Regresia – je to technika (štatistická metóda) strojového učenia, ktorá sa používa na modelovanie vzťahu medzi závislou a nezávislou premennou, predikciou číselných hodnôt na základe rôznych faktorov.
S
SQL (angl. Structured Query Language) – programovací jazyk, ktorý sa používa na správu databáz a ide o kľúčový nástroj pre extrakciu, aktualizáciu a analýzu štruktúrovaných dát
V
Vizualizácia dát – proces použitý na zobrazenie dát pre používateľov vo forme grafov, diagramov alebo máp, k lepšiemu pochopeniu vzorov, trendov a záverov vyplývajúcich z dátovej analýzy
T
Testovacie dáta – používajú sa na testovanie a zhodnotenie výkonu modelu a pomáhajú overiť, ako dobre model funguje na nových, alebo neznámych dátach
U
Údržba dát (Data Maintenance) – ide o proces neustálej kontroly, čistenia, aktualizácie a spracovanie dát s cieľom zabezpečiť ich správnosť a dostupnosť.
W
Workflow – definovaná postupnosť krokov alebo spustených úloh v rámci nejakého procesu, ktoré sa vykonávajú pri spracovaní alebo analýze dát v určitom poradí