Od dát k veľkým dátam

big data

Dnes sa budem venovať téme, ktorá nadväzuje na predchádzajúci článok a doplním informácie o pojem „veľké dáta“ (angl. Big Data), ktorý je v súčasnosti veľmi populárny. Ide o pojem, s ktorým sa dnes stretávame čoraz častejšie, najmä v súvislosti s digitálnymi technológiami, internetom, cloudovými službami a dátovou vedou.

Zatiaľ čo v minulosti pracovali firmy prevažne s relatívne obmedzeným množstvom štruktúrovaných dát (napríklad tabuľky a databázy), dnes čelia obrovskému objemu rôznorodých údajov, ktoré vznikajú nepretržite a v reálnom čase. Práve tento posun od „bežných dát“ k „veľkým dátam“ zásadne mení spôsob, akým organizácie analyzujú informácie a prijímajú rozhodnutia.

Čo sú veľké dáta (angl. Big Data)?

Označujú sa nimi extrémne veľké a komplexné dátové súbory, ktoré sú generované denne v reálnom čase,  alebo v rôznych časových intervaloch a ktoré pochádzajú z veľkého množstva rôznych zdrojov.

Tieto dáta môžu byť:

  • štruktúrované (databázy, tabuľky)
  • neštruktúrované (texty, obrázky, videá)
  • alebo kombinované (napríklad JSON alebo log súbory)

Kľúčovým znakom veľkých dát nie je len ich veľkosť, ale aj náročnosť ich spracovania. Tradičné databázové nástroje a analytické postupy často nestačia na efektívnu prácu s takýmto objemom a komplexnosťou údajov. Preto sa využívajú distribuované systémy, cloudové platformy a pokročilé analytické technológie.

Veľké dáta sa štandardne opisujú pomocou tzv. modelu „V“:

1/ Objem (angl. Volume)

Dáta vznikajú v obrovskom množstve, ide o hodnoty v rozsahu od jednotiek TB (Terabajt) až po EB (Exabajt). Uvedené jednotky sa používajú na meranie veľkosti dát v rámci digitálneho úložiska. Jednotka TB sa často používa pri bežnom dátovom úložisku (napríklad pri pevných diskoch v počítačoch), naopak jednotka EB sa používa skôr pri veľkých objemoch dát v oblastiach, ako sú napríklad veľké dátové centrá.

Pre lepšiu predstavu, sociálne siete, online streamingové služby alebo globálne e-commerce platformy generujú denne obrovské objemy údajov o správaní používateľov, transakciách a interakciách. Objem dát neustále rastie, čo si vyžaduje škálovateľné úložiská a cloudové riešenia.

2/ Rýchlosť (angl. Velocity)

Ďalšou oblasťou je rýchlosť (tempo) akou dáta vznikajú a akým spôsobom musia byť spracované.

V mnohých prípadoch ide o:

  • spracovanie v reálnom čase (napríklad online platby)
  • streamovanie dát (napríklad senzory IoT zariadení)
  • priebežnú aktualizáciu systémov

V niektorých odvetviach (napríklad finančné trhy alebo kybernetická bezpečnosť) môže oneskorenie analýzy o niekoľko sekúnd znamenať významné riziko alebo finančnú stratu.

3/ Rôznorodosť (angl. Variety)

Túto oblasť som už čiastočne načrtol, veľké dáta majú rôzne formáty (môže ísť o štruktúrované a neštruktúrované dáta, prípadne o ich kombináciu) a zdroje, ako napríklad databázové záznamy, texty a e-maily, fotografie a video, dáta zo senzorov, logy serverov alebo dáta zo sociálnych sietí.

Rôznorodosť kladie vysoké nároky na integráciu dát a ich transformáciu do vhodnej podoby na analýzu.

4/ Pravdivosť (angl. Veracity)

Pravdivosť sa týka kvality a spoľahlivosti dát.

V zásade ide o to, že dáta vo svojej podstate môžu obsahovať rôzne chyby, duplicity, neúplné záznamy, alebo nepresnosti. A tie je potrebné najskôr spracovať a až potom bude možné z nich získať hodnotné výstupy. Preto bez kvalitného čistenia a validácie dát môže byť výsledná analýza zavádzajúca.

5/ Hodnota (Value)

Moderné prístupy pridávajú piate „V“ a tým je hodnota dát.

Samotný objem dát totiž nemá význam, pokiaľ z týchto dát nedokážeme vytvoriť pridanú hodnotu. Cieľom veľkých dát je zlepšiť rozhodovanie, optimalizovať procesy, prispôsobovať služby individuálnym potrebám zákazníkov, znižovať náklady a identifikovať nové obchodné príležitosti.

big data
Prečo sú veľké dáta dôležité?

Veľké dáta sú základom umelej inteligencie a strojového učenia, pretože práve veľké množstvo kvalitných dát umožňuje modelom učiť sa a zlepšovať svoju presnosť.

Efektívne využitie veľkých dát prináša výrazný potenciál pre firmy, organizácie aj verejné inštitúcie.

Prístup k rozsiahlym údajom umožňuje robiť rozhodnutia na základe faktov (nie intuície), identifikovať trendy a vzorce správania, predvídať budúci vývoj, optimalizovať procesy a znižovať náklady, vytvárať nové produkty a služby. Rozdiel medzi organizáciami dnes často nespočíva v tom, kto má viac dát, ale v tom, kto ich dokáže efektívnejšie analyzovať a využiť.

 

A čo napísať na záver?

Budúcnosť patrí firmám a jednotlivcom, ktorí dokážu premeniť veľké množstvo dát na skutočnú hodnotu a využiť ich ako konkurenčnú výhodu v digitálnom prostredí.


Zaujal Vás článok? 

Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.