Slovník pojmov

Slovník pojmov DataSpark.sk pomáha návštevníkom efektívne sa orientovať vo svete dátovej vedy, dátovej analytiky, programovania, štatistiky a strojového učenia. Obsahuje základné aj pokročilé pojmy, ktoré tvoria kľúč pre pochopenie spracovania dát, tvorby modelov, vizualizácie informácií a využitia dát na podporu rozhodovania. Každý pojem je vysvetlený jednoducho, prakticky a zrozumiteľne.


A

Algoritmus – postup alebo definovanie rôznych pravidiel, ktoré sú potrebné na riešenie problémov alebo spustenie konkrétnych úloh

Analýza dát – proces preverenia dát za účelom získania užitočných informácií, vzorov alebo vzťahov, ktoré môžu byť použité pri rozhodovaní

B

Big Data (Veľké dáta) – označuje obrovské množstvo a rozmanitosti dát, ktoré nie je možné spracovať štandardnými metódami a nástrojmi. Tieto dáta sú často analyzované pomocou špeciálnych nástrojov a pokročilých techník, ako je napríklad strojové učenie (angl. Machine Learning).

D

Dáta – sú to surové informácie, ktoré môžu byť číselné, textové, obrazové alebo zvukové a používajú sa na analýzu, získavanie vzorcov, predikcií,..

Dátová veda – je to odbor, ktorý kombinuje matematiku, štatistiku, programovanie a analytiku. Zaoberá sa získavaním, spracovaním, analýzou a vizualizovaním dát za účelom získania hodnotných informácií pre podporu rozhodovania.

Dátová štruktúra – definovaný systém pre ukladanie dát vo forme napríklad poľa alebo zoznamu, aby následne bolo možné tieto dáta efektívne spracovávať a využívať.

Dátová transformácia – je to proces konverzie alebo úpravy dát do formátu, ktorý bude vhodný na ich ďalšie spracovanie

Dataset – v podstate ide o dátový súbor, čo je kolekcia dát organizovaná do tabuliek s riadkami a stĺpcami, pričom riadok predstavuje záznam a stĺpec reprezentuje premennú

Data Wrangling – zahŕňa dôležitý proces čistenia a transformácie surových dát v dátovej vede do formátu, ktorý bude vhodný na analýzu.

Data mining – proces pre objavovanie vzorcov, súvislostí a trendov v rozsiahlych dátach s použitím rôznych analytických techník za účelom získania zmysluplných informácií potrebných pre rozhodovanie

Dashboard – vizuálny nástroj na prehľadné zobrazovanie kľúčových údajov a ukazovateľov na jednom mieste. Pomáha sledovať trendy, výkonnosť a stav procesov, často v reálnom čase, aby používatelia mohli rýchlo prijímať rozhodnutia na základe dát

H

Histogram – je to graf, ktorý zobrazuje rozdelenie dát a používa sa na vizualizáciu frekvencie výskytu hodnôt v rôznych intervaloch

K

Korelácia – vyjadruje vzťah medzi dvoma premennými

M

Machine Learning (Strojové učenie) – ide o techniku, oblasť umelej inteligencie, ktorá sa zameriava na tvorbu modelov umožňujúcich počítačom učiť sa z dát bez explicitného (programátor stará o každý detail implementácie a každá operácia je priamo definovaná v zdrojovom kóde) naprogramovania.

Model – je to matematický alebo štatistický nástroj, ktorý sa používa na analýzu dát a vytváranie predikcií. Modely sa používajú na testovanie na historických dátach za účelom vytvorenia budúcich udalostí (predpovede)

P

Predikcia – proces zameraný na odhad alebo predpoveď budúceho výsledku na základe historických dát, modelu strojového učenia alebo štatistiky

Prediktívna analýza – použitie štatistických algoritmov a techník na predpovedanie budúcich udalostí alebo trendov na základe využitia historických dát

Python – populárny programovací jazyk v oblasti dátovej vedy, vzhľadom na svoju flexibilitu a rozsiahlu ponuku knižníc (Pandas, NumPy,..) na analýzu a spracovanie dát

Premenná – je to ľubovolný merateľný alebo pozorovateľný aspekt dát, ktorý sa používa na uchovanie hodnôt, pričom premenné môžu byť rôznych typov v závislosti od charakteristiky dát.

R

Regresia – je to technika (štatistická metóda) strojového učenia, ktorá sa používa na modelovanie vzťahu medzi závislou a nezávislou premennou, predikciou číselných hodnôt na základe rôznych faktorov.

S

SQL (angl. Structured Query Language) – programovací jazyk, ktorý sa používa na správu databáz a ide o kľúčový nástroj pre extrakciu, aktualizáciu a analýzu štruktúrovaných dát

V

Vizualizácia dát – proces použitý na zobrazenie dát pre používateľov vo forme grafov, diagramov alebo máp, k lepšiemu pochopeniu vzorov, trendov a záverov vyplývajúcich z dátovej analýzy

T

Testovacie dáta – používajú sa na testovanie a zhodnotenie výkonu modelu a pomáhajú overiť, ako dobre model funguje na nových, alebo neznámych dátach

U

Údržba dát (Data Maintenance) – ide o proces neustálej kontroly, čistenia, aktualizácie a spracovanie dát s cieľom zabezpečiť ich správnosť a dostupnosť.

W

Workflow – definovaná postupnosť krokov alebo spustených úloh v rámci nejakého procesu, ktoré sa vykonávajú pri spracovaní alebo analýze dát v určitom poradí

Slovník pojmov sa pravidelne rozširuje o nové informácie z oblasti dátovej analytiky, umelej inteligencie, strojového učenia a tiež moderných digitálnych nástrojov používaných v práci s dátami, aby návštevníci získali komplexný prehľad najdôležitejších konceptov a mohli ich prakticky využívať.

Ak nájdete pojem, ktorý tu ešte nie je vysvetlený, dajte mi prosím vedieť na info@dataspark.sk a ja ho doplním, aby slovník zostal vždy aktuálny a užitočný pre všetkých, ktorí sa chcú zorientovať vo svete dát.