Áno, dnes žijeme v dátovom svete, kde sú informácie jedným z najcennejších zdrojov. Otázkou však je, čo bolo predtým a ktoré technologické kroky nás priviedli až sem. Práve preto sa v tomto článku vraciam k histórii dátovej vedy z pohľadu technológií, ktoré postupne vytvorili podmienky pre jej vznik a rozvoj.
Dátová veda ako disciplína by nevznikla bez technologického pokroku, ktorý jej postupne krok za krokom vytváral podmienky na rozvoj. A to od prvých databáz až po dnešné, moderné cloudové služby, pričom každý posun priniesol nové možnosti, ale aj súčasne aj mnohé dôležité výzvy.
V tomto článku sa zameriam na kľúčové technologické míľniky, ktoré položili základy modernej dátovej vedy, od historických inovácií po súčasné nástroje a ukážeme, ako tieto technológie zásadne ovplyvnili spôsob práce s dátami, modelovanie a prediktívnu analytiku.

Dnes sa zameriam na kľúčové technologické míľniky, ktoré položili základy modernej dátovej vedy.
Tu sú niektoré z nich.
1/ Od papiera k SQL
V minulosti sa údaje evidovali ručne a to na papieri, v tabuľkách alebo kartotékach. Tento spôsob bol nielen časovo náročný, ale aj náchylný na chyby a ťažko rozšíriteľný. Prvé náznaky automatizácie sa začali objavovať v 60. rokoch, najmä v bankovníctve a poisťovníctve, kde bolo potrebné spracovávať väčšie množstvá transakčných údajov.
Zlom nastal s príchodom relačných databáz a jazyka SQL (angl. Structured Query Language), ktoré umožnili efektívne ukladanie, spracovanie a dotazovanie dát. Britsko-americký informatik Edgar F. Codd vo firme IBM predstavil relačný databázový model, ktorý sa stal štandardom pre organizáciu údajov a v podstate zmenil prístup k databázam. Dnes sú SQL databázy ako PostgreSQL, MySQL alebo SQLite základnými stavebnými kameňmi moderných informačných systémov a analytických riešení.
Prínos pre dátovú vedu:
Relačné databázy umožnili efektívne ukladanie dát, konzistentný prístup k informáciám, prácu s historickými údajmi a základ pre tvorbu dátových modelov, ktoré sú nevyhnutné pre analytiku, reporting a prediktívne modelovanie.
2/ Výpočtový výkon a GPU (angl. Graphics Processing Unit)
Medzi 40. a 80. rokmi sa náročné výpočty realizovali na veľkých sálových počítačoch, ktoré boli drahé a dostupné iba veľkým inštitúciám. Situácia sa začala meniť v 90. rokoch s príchodom cenovo dostupných osobných počítačov a serverov, čo umožnilo širšiu dostupnosť analytického softvéru aj pre menšie firmy a výskumné tímy.
Zásadný technologický prelom nastal medzi rokmi 2006 a 2012 s využitím GPU a rozvojom neurónových sietí. Platforma NVIDIA CUDA od firmy NVIDIA umožnila využívať grafické karty nielen na zobrazovanie grafiky, ale aj na paralelné výpočty, čím sa dramaticky skrátil čas potrebný na tréning modelov strojového učenia a spracovanie veľkých dát.
Prínos pre dátovú vedu:
Využitie GPU prinieslo výrazný nárast výpočtového výkonu, umožnilo spracovávať rozsiahle dátové súbory v reálnom čase a otvorilo tak cestu k praktickému využitiu hlbokého učenia a prediktívnych modelov, ktoré dnes tvoria základ moderných dátovo orientovaných riešení.
3/ Internet a dostupnosť obrovského množstva dát
S nástupom internetu sa otvorila úplne nová éra pre tvorbu a zber dát. Firmy aj jednotlivci začali generovať digitálne údaje vo veľkom objeme z rôznych oblastí a to od štatistík návštevnosti webových stránok, cez e-maily, online formuláre, až po multimediálny obsah.
Ďalšiu výraznú vlnu dátového boomu priniesli sociálne siete ako Facebook alebo Twitter, video platformy ako YouTube a masové používanie mobilných zariadení. Prakticky každá interakcia (kliknutie, zdieľanie, komentár alebo nákup) používateľa vytvára nové údaje, ktoré možno využiť pre analýzu správania a preferencií.
Prínos pre dátovú vedu:
Tento technologický posun znamenal masívny nárast dostupných dát, čo umožnilo detailné analýzy používateľského správania, identifikáciu trendov, vzorcov a prediktívne modelovanie s využitím moderných analytických metód.
4/ Cloud ako domov pre dáta
Spracovanie veľkých objemov dát si kedysi vyžadovalo vlastnú IT infraštruktúru, čo bolo finančne aj technicky náročné. Zlom priniesol až cloud, čo znamenalo výpočtový výkon a úložisko „na požiadanie“. Služby ako Amazon Web Services (AWS), Microsoft Azure alebo Google Cloud umožňujú dátovým vedcom ukladať obrovské množstvá dát, spúšťať výpočty podľa aktuálnej potreby a trénovať modely bez nutnosti budovania vlastnej infraštruktúry.
Prínos pre dátovú vedu:
Cloud prináša škálovateľnosť, flexibilitu a rýchle experimentovanie, čím umožňuje realizovať dátové projekty efektívnejšie a s nižšími vstupnými nákladmi, pričom výskumné tímy môžu pracovať paralelne a globálne.
5/ Softvérové nástroje a open-source komunita
Dátová veda nie je len o algoritmoch alebo štatistických metódach. Dôležitú úlohu zohráva aj dostupnosť softvérových nástrojov a voľne dostupných riešení, ktoré umožňujú experimentovať, zdieľať vedomosti a tiež dostupnosť analytických nástrojov pre širokú verejnosť.
Vývoj dátovej vedy by nebol možný bez silnej komunity vývojárov a dátových nadšencov. .
Programovací jazyk Python, knižnice ako Pandas, NumPy alebo Scikit-learn a nástroje na prácu s dátami, napríklad Jupyter Notebook alebo Visual Studio Code, vznikli a stále sa rozvíjajú práve vďaka spolupráci otvorenej komunity.
Prínos pre dátovú vedu:
Dostupnosť nástrojov umožňuje rýchly prístup k pokročilým analytickým technikám, podporuje učenie sa z reálnych dát a umožňuje výskumníkom a analytikom experimentovať bez vysokých nákladov na licencie.
A čo prinesie budúcnosť?
Aj dnes sa dá povedať, že sme stále len na začiatku cesty.
Budúce trendy ako kvantové výpočty, automatizovaná umelá inteligencia alebo syntetické dáta budú ďalej formovať spôsob, akým dátoví vedci pracujú. Technológie sa menia, no základný cieľ zostáva rovnaký a to premeniť dáta na hodnotné informácie a podporovať rozhodovanie založené na faktoch.
Zaujal Vás článok?
Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.

