Dátová veda je dynamický a neustále sa rozvíjajúci odbor, ktorý stále prináša nové výzvy a príležitosti.

Aby bolo možné sa viac ponoriť do sveta dát a úspešne sa v ňom orientovať, bude nevyhnutné porozumieť nielen základným pojmom ako sú dáta, strojové učenie, alebo umelá inteligencia, ale aj ďalším dôležitým informáciám z oblasti dátovej vedy.

Slovník pojmov sa priebežne dopĺňa o nové informácie.

 


A

Algoritmus – postup alebo definovanie rôznych pravidiel, ktoré sú potrebné na riešenie problémov alebo spustenie konkrétnych úloh

Analýza dát – proces preverenia dát za účelom získania užitočných informácií, vzorov alebo vzťahov, ktoré môžu byť použité pri rozhodovaní


B

Big Data (Veľké dáta) – označuje obrovské množstvo a rozmanitosti dát, ktoré nie je možné spracovať štandardnými metódami a nástrojmi. Tieto dáta sú často analyzované pomocou špeciálnych nástrojov a pokročilých techník, ako je napríklad strojové učenie (angl. Machine Learning).


D

Dáta – sú to surové informácie, ktoré môžu byť číselné, textové, obrazové alebo zvukové a používajú sa na analýzu, získavanie vzorcov, predikcií,..

Dátová veda – je to odbor, ktorý kombinuje matematiku, štatistiku, programovanie a analytiku. Zaoberá sa získavaním, spracovaním, analýzou a vizualizovaním dát za účelom získania hodnotných informácií pre podporu rozhodovania.

Dátová štruktúra – definovaný systém pre ukladanie dát vo forme napríklad poľa alebo zoznamu, aby následne bolo možné tieto dáta efektívne spracovávať a využívať.

Dátová transformácia – je to proces konverzie alebo úpravy dát do formátu, ktorý bude vhodný na ich ďalšie spracovanie

Dataset – v podstate ide o dátový súbor, čo je kolekcia dát organizovaná do tabuliek s riadkami a stĺpcami, pričom riadok predstavuje záznam a stĺpec reprezentuje premennú

Data Wrangling – zahŕňa dôležitý proces čistenia a transformácie surových dát v dátovej vede do formátu, ktorý bude vhodný na analýzu.

Data mining – proces pre objavovanie vzorcov, súvislostí a trendov v rozsiahlych dátach s použitím rôznych analytických techník za účelom získania zmysluplných informácií potrebných pre rozhodovanie


H

Histogram – je to graf, ktorý zobrazuje rozdelenie dát a používa sa na vizualizáciu frekvencie výskytu hodnôt v rôznych intervaloch


K

Korelácia – vyjadruje vzťah medzi dvoma premennými


M

Machine Learning (Strojové učenie) – ide o techniku, oblasť umelej inteligencie, ktorá sa zameriava na tvorbu modelov umožňujúcich počítačom učiť sa z dát bez explicitného (programátor stará o každý detail implementácie a každá operácia je priamo definovaná v zdrojovom kóde) naprogramovania.

Model – je to matematický alebo štatistický nástroj, ktorý sa používa na analýzu dát a vytváranie predikcií. Modely sa používajú na testovanie na historických dátach za účelom vytvorenia budúcich udalostí (predpovede)


P

Predikcia – proces zameraný na odhad alebo predpoveď budúceho výsledku na základe historických dát, modelu strojového učenia alebo štatistiky

Prediktívna analýza – použitie štatistických algoritmov a techník na predpovedanie budúcich udalostí alebo trendov na základe využitia historických dát

Python – populárny programovací jazyk v oblasti dátovej vedy, vzhľadom na svoju flexibilitu a rozsiahlu ponuku knižníc (Pandas, NumPy,..) na analýzu a spracovanie dát

Premenná – je to ľubovolný merateľný alebo pozorovateľný aspekt dát, ktorý sa používa na uchovanie hodnôt, pričom premenné môžu byť rôznych typov v závislosti od charakteristiky dát.


R

Regresia – je to technika (štatistická metóda) strojového učenia, ktorá sa používa na modelovanie vzťahu medzi závislou a nezávislou premennou, predikciou číselných hodnôt na základe rôznych faktorov.


S

SQL (angl. Structured Query Language) – programovací jazyk, ktorý sa používa na správu databáz a ide o kľúčový nástroj pre extrakciu, aktualizáciu a analýzu štruktúrovaných dát


V

Vizualizácia dát – proces použitý na zobrazenie dát pre používateľov vo forme grafov, diagramov alebo máp, k lepšiemu pochopeniu vzorov, trendov a záverov vyplývajúcich z dátovej analýzy


T

Testovacie dáta – používajú sa na testovanie a zhodnotenie výkonu modelu a pomáhajú overiť, ako dobre model funguje na nových, alebo neznámych dátach


U

Údržba dát (Data Maintenance) – ide o proces neustálej kontroly, čistenia, aktualizácie a spracovanie dát s cieľom zabezpečiť ich správnosť a dostupnosť.


W

Workflow – definovaná postupnosť krokov alebo spustených úloh v rámci nejakého procesu, ktoré sa vykonávajú pri spracovaní alebo analýze dát v určitom poradí