Od dát k veľkým dátam

big data

Dnes sa budem venovať téme, ktorá nadväzuje na predchádzajúci článok a doplním informácie o pojem veľké dáta (angl. Big Data), ktorý patrí medzi kľúčové koncepty modernej dátovej vedy a analytiky. Ide o oblasť, ktorá v posledných rokoch výrazne ovplyvňuje spôsob, akým organizácie pracujú s informáciami, navrhujú stratégie a prijímajú rozhodnutia.

Zatiaľ čo v minulosti firmy pracovali najmä s obmedzeným objemom štruktúrovaných dát (napríklad databázové tabuľky alebo interné systémy), dnes čelia exponenciálnemu rastu dát pochádzajúcich z rôznych zdrojov, od webových aplikácií a sociálnych sietí až po IoT zariadenia alebo transakčné systémy. Tieto dáta vznikajú nepretržite, majú rôznu štruktúru a často prichádzajú v reálnom čase.

Práve prechod od tradičných dát k veľkým dátam zásadne mení prístup k ich spracovaniu, analýze a interpretácii. Vyžaduje si nové technológie, nástroje a metodiky, ktoré umožňujú efektívne pracovať s veľkým objemom, rýchlosťou a rôznorodosťou dát.

V tomto článku sa preto zameriam na to, čo pojem Big Data znamená, aké sú jeho hlavné charakteristiky a prečo zohráva čoraz dôležitejšiu úlohu v praxi.

Čo sú veľké dáta (angl. Big Data)?

Označujú sa nimi extrémne veľké a komplexné dátové súbory, ktoré vznikajú denne v reálnom čase,  alebo v rôznych časových intervaloch a ktoré pochádzajú z veľkého množstva rôznych zdrojov.

Tieto dáta môžu byť:

  • štruktúrované (relačné databázy, tabuľky)
  • neštruktúrované (texty, obrázky, videá, zvukové záznamy alebo príspevky na sociálnych sieťach)
  • kombinované (súbory a formáty obsahujúce čiastočne štruktúrované aj neštruktúrované informácie, napríklad JSON, XML alebo systémové logy)

Kľúčovým znakom veľkých dát nie je len ich veľkosť, ale aj náročnosť ich spracovania. Tradičné databázové nástroje a analytické postupy často nestačia na efektívnu prácu s takýmto objemom a komplexnosťou údajov. Preto sa pri veľkých dátach používajú distribuované výpočtové systémy, cloudové platformy, pokročilé analytické technológie, ako aj algoritmy strojového učenia a prediktívnej analytiky, ktoré umožňujú efektívne spracovať, analyzovať a transformovať dáta na hodnotné informácie.

Veľké dáta sa štandardne opisujú pomocou tzv. modelu „5V“:

1/ Objem (angl. Volume)

Dáta vznikajú v obrovskom množstve, ide o hodnoty v rozsahu od jednotiek TB (Terabajt) až po EB (Exabajt). Uvedené jednotky sa používajú na meranie veľkosti dát v rámci digitálneho úložiska. Jednotka TB sa často používa pri bežnom dátovom úložisku (napríklad pri pevných diskoch v počítačoch), naopak jednotka EB sa používa skôr pri veľkých objemoch dát v oblastiach, ako sú napríklad veľké dátové centrá.

Pre lepšiu predstavu, sociálne siete, online streamingové (napr. Netflix, Spotify, YouTube) služby  alebo globálne e-commerce (napr. Amazon, eBay, Alibaba) platformy generujú denne obrovské objemy údajov o správaní používateľov, transakciách a interakciách. Objem dát neustále rastie, čo si vyžaduje škálovateľné úložiská a cloudové riešenia.

2/ Rýchlosť (angl. Velocity)

Dôležitou oblasťou veľkých dát je aj rýchlosť, akou sú generované a zároveň spracovávané. V súčasnosti totiž mnohé systémy pracujú s dátami, ktoré vznikajú nepretržite a vyžadujú okamžitú reakciu.

V mnohých prípadoch ide o:

  • spracovanie dát v reálnom čase (napríklad online platby)
  • dáta priebežne spracovávané (napríklad senzory IoT zariadení)
  • priebežnú aktualizáciu systémov a databáz

V niektorých odvetviach, napríklad vo finančníctve alebo v kybernetickej bezpečnosti, zohráva rýchlosť spracovania dát rozhodujúcu úlohu. Aj minimálne oneskorenie môže mať za následok zvýšené riziko alebo významné finančné straty.

3/ Rôznorodosť (angl. Variety)

Túto oblasť som už čiastočne načrtol, veľké dáta sa vyznačujú rôznorodosťou formátov (môže ísť o štruktúrované a neštruktúrované dáta, prípadne o ich kombináciu) a zdroje, ako napríklad databázové záznamy, texty, e-maily, fotografie, video, dáta zo senzorov, logy serverov alebo dáta zo sociálnych sietí.

Rôznorodosť kladie vysoké nároky na integráciu dát a ich transformáciu do vhodnej podoby na analýzu.

4/ Pravdivosť (angl. Veracity)

Pravdivosť sa týka kvality a spoľahlivosti dát.

V praxi to znamená, že dáta môžu obsahovať rôzne chyby, duplicity, neúplné alebo nesprávne záznamy. Pred samotnou analýzou je preto nevyhnutné tieto nedostatky identifikovať, očistiť a skontrolovať dáta. Len tak je možné získať spoľahlivé a hodnotné výsledky, pričom zanedbanie tohto kroku môže viesť k skresleným alebo zavádzajúcim záverom.

5/ Hodnota (Value)

Moderné prístupy pridávajú piate „V“ a tým je hodnota dát.

Samotný objem dát totiž nemá význam, pokiaľ z týchto dát nedokážeme vytvoriť pridanú hodnotu. Cieľom veľkých dát je teda zlepšiť rozhodovanie, optimalizovať interné procesy, prispôsobovať produkty a služby individuálnym potrebám zákazníkov, znižovať náklady a identifikovať nové obchodné príležitosti alebo inovácie.

big data
Prečo sú veľké dáta dôležité?

Veľké dáta sú základom umelej inteligencie a strojového učenia, pretože práve veľké množstvo kvalitných dátových súborov umožňuje modelom identifikovať vzorce, učiť sa zo skúseností a postupne zvyšovať presnosť svojich predikcií (odhad budúceho vývoja). Ich význam však presahuje oblasť technológií. Efektívne využívanie veľkých dát prináša firmám možnosť lepšie porozumieť realite a prijímať rozhodnutia založené na objektívnych údajoch.

Analýza veľkých dát umožňuje napríklad odhaľovať skryté súvislosti a správanie používateľov alebo zákazníkov, identifikovať trendy a vývoj v čase, predpovedať budúci vývoj a súčasne minimalizovať riziká, optimalizovať interné procesy a zvyšovať efektivitu, vytvárať nové produkty, služby alebo obchodné modely

V súčasnosti preto často nerozhoduje samotný objem dostupných dát, ale schopnosť tieto dáta efektívne spracovať, analyzovať a premeniť na prakticky využiteľné informácie.

 

A čo napísať na záver?

Budúcnosť patrí firmám a jednotlivcom, ktorí dokážu efektívne spracovať a analyzovať veľké dáta a premeniť ich na skutočnú hodnotu. V digitálnom prostredí už samotný objem dát nestačí, kľúčová je ich analytická transformácia do poznatkov, ktoré podporujú rozhodovanie, optimalizujú procesy a odhaľujú nové obchodné príležitosti.


Zaujal Vás článok? 

Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.