Slovník pojmov

Dátová veda je dynamický a neustále sa rozvíjajúci odbor, ktorý prináša nové výzvy a príležitosti.

Aby sa návštevník mohol efektívne orientovať vo svete dát, je dôležité porozumieť základným aj pokročilým pojmom z oblasti dátovej vedy, analytiky, programovania, štatistiky a strojového učenia. Tieto pojmy tvoria základ pre pochopenie procesov spracovania dát, tvorby modelov, vizualizácie informácií a využitia dát na podporu rozhodovania.

Slovník pojmov sa priebežne dopĺňa o nové informácie a vysvetlenia, aby návštevník získal aktuálne a prakticky využiteľné vedomosti.


A

Algoritmus – postup alebo definovanie rôznych pravidiel, ktoré sú potrebné na riešenie problémov alebo spustenie konkrétnych úloh

Analýza dát – proces preverenia dát za účelom získania užitočných informácií, vzorov alebo vzťahov, ktoré môžu byť použité pri rozhodovaní

B

Big Data (Veľké dáta) – označuje obrovské množstvo a rozmanitosti dát, ktoré nie je možné spracovať štandardnými metódami a nástrojmi. Tieto dáta sú často analyzované pomocou špeciálnych nástrojov a pokročilých techník, ako je napríklad strojové učenie (angl. Machine Learning).

D

Dáta – sú to surové informácie, ktoré môžu byť číselné, textové, obrazové alebo zvukové a používajú sa na analýzu, získavanie vzorcov, predikcií,..

Dátová veda – je to odbor, ktorý kombinuje matematiku, štatistiku, programovanie a analytiku. Zaoberá sa získavaním, spracovaním, analýzou a vizualizovaním dát za účelom získania hodnotných informácií pre podporu rozhodovania.

Dátová štruktúra – definovaný systém pre ukladanie dát vo forme napríklad poľa alebo zoznamu, aby následne bolo možné tieto dáta efektívne spracovávať a využívať.

Dátová transformácia – je to proces konverzie alebo úpravy dát do formátu, ktorý bude vhodný na ich ďalšie spracovanie

Dataset – v podstate ide o dátový súbor, čo je kolekcia dát organizovaná do tabuliek s riadkami a stĺpcami, pričom riadok predstavuje záznam a stĺpec reprezentuje premennú

Data Wrangling – zahŕňa dôležitý proces čistenia a transformácie surových dát v dátovej vede do formátu, ktorý bude vhodný na analýzu.

Data mining – proces pre objavovanie vzorcov, súvislostí a trendov v rozsiahlych dátach s použitím rôznych analytických techník za účelom získania zmysluplných informácií potrebných pre rozhodovanie

H

Histogram – je to graf, ktorý zobrazuje rozdelenie dát a používa sa na vizualizáciu frekvencie výskytu hodnôt v rôznych intervaloch

K

Korelácia – vyjadruje vzťah medzi dvoma premennými

M

Machine Learning (Strojové učenie) – ide o techniku, oblasť umelej inteligencie, ktorá sa zameriava na tvorbu modelov umožňujúcich počítačom učiť sa z dát bez explicitného (programátor stará o každý detail implementácie a každá operácia je priamo definovaná v zdrojovom kóde) naprogramovania.

Model – je to matematický alebo štatistický nástroj, ktorý sa používa na analýzu dát a vytváranie predikcií. Modely sa používajú na testovanie na historických dátach za účelom vytvorenia budúcich udalostí (predpovede)

P

Predikcia – proces zameraný na odhad alebo predpoveď budúceho výsledku na základe historických dát, modelu strojového učenia alebo štatistiky

Prediktívna analýza – použitie štatistických algoritmov a techník na predpovedanie budúcich udalostí alebo trendov na základe využitia historických dát

Python – populárny programovací jazyk v oblasti dátovej vedy, vzhľadom na svoju flexibilitu a rozsiahlu ponuku knižníc (Pandas, NumPy,..) na analýzu a spracovanie dát

Premenná – je to ľubovolný merateľný alebo pozorovateľný aspekt dát, ktorý sa používa na uchovanie hodnôt, pričom premenné môžu byť rôznych typov v závislosti od charakteristiky dát.

R

Regresia – je to technika (štatistická metóda) strojového učenia, ktorá sa používa na modelovanie vzťahu medzi závislou a nezávislou premennou, predikciou číselných hodnôt na základe rôznych faktorov.

S

SQL (angl. Structured Query Language) – programovací jazyk, ktorý sa používa na správu databáz a ide o kľúčový nástroj pre extrakciu, aktualizáciu a analýzu štruktúrovaných dát

V

Vizualizácia dát – proces použitý na zobrazenie dát pre používateľov vo forme grafov, diagramov alebo máp, k lepšiemu pochopeniu vzorov, trendov a záverov vyplývajúcich z dátovej analýzy

T

Testovacie dáta – používajú sa na testovanie a zhodnotenie výkonu modelu a pomáhajú overiť, ako dobre model funguje na nových, alebo neznámych dátach

U

Údržba dát (Data Maintenance) – ide o proces neustálej kontroly, čistenia, aktualizácie a spracovanie dát s cieľom zabezpečiť ich správnosť a dostupnosť.

W

Workflow – definovaná postupnosť krokov alebo spustených úloh v rámci nejakého procesu, ktoré sa vykonávajú pri spracovaní alebo analýze dát v určitom poradí