Ako technológie formovali dátovú vedu

Áno, dnes žijeme v dátovom svete, otázkou by však mohlo byť, čo bolo predtým a čo všetko tomu predchádzalo. Preto sa dnes chcem vrátiť k histórii dátovej vedy, ale z toho pohľadu, ako sme sa vlastne dostali tam, kde sme dnes..

Dátová veda by nevznikla bez technologického pokroku, ktorý jej postupne krok za krokom vytváral podmienky na rozvoj. A to od prvých databáz až po dnešné, moderné cloudové služby, pričom každý posun priniesol nové možnosti, ale aj súčasne aj mnohé dôležité výzvy.

V dnešnom článku sa zameriam na kľúčové technologické míľniky, ktoré položili základy modernej dátovej vedy.

Tu sú niektoré z nich.

1/ Od papiera k SQL

Kedysi dávno 🙂 sa údaje evidovali výhradne ručne, na papieri, v prehľadových tabuľkách alebo kartotékach. Samotná automatizácia sa začala objavovať až v 60. rokoch, najmä v bankách a poisťovniach.

Nie je prekvapením, že príbeh dátovej vedy sa vo väčšine prípadov začína práve v databázach.

Zlom nastal s príchodom relačných databáz a jazyka SQL (angl. Structured Query Language), ktoré umožnili ukladať a spracovávať údaje oveľa efektívnejšie. Britsko-americký informatik Edgar F. Codd v spoločnosti IBM predstavil relačný model databáz, ktorý sa stal štandardom a zásadne zmenil spôsob, ako sa dáta ukladajú a spracúvajú. Dnes patria SQL databázy, ako sú PostgreSQL, MySQL alebo SQLite k základným pilierom mnohých systémov.

Prínos pre dátovú vedu: efektívne ukladanie a prístup k dátam

2/ Výpočtový výkon a GPU (angl. Graphics Processing Unit)

V období od 40. do 80. rokov minulého storočia sa náročné výpočty realizovali na veľkých sálových počítačoch. Tie boli nielen pomalé, ale ich prevádzka bola aj veľmi finančne nákladná, takže spracovanie väčších objemov dát si mohli dovoliť len veľké firmy.

Situácia sa zmenila v 90. rokoch s nástupom dostupnejších stolových počítačov a serverov. To už otvorilo dvere vývoju softvéru na analýzu dát aj pre menšie firmy a výskumné tímy.

Niekedy medzi rokmi 2006 až 2012 prišiel zásadný posun v dôsledku rozvoja strojového učenia a neurónových sietí. Ukázalo sa, že grafické procesory (GPU) dokážu pri výpočtoch dosiahnuť výrazne vyššiu efektivitu a to vďaka schopnosti paralelne spracovávať tisíce operácií naraz. Platforma NVIDIA CUDA, vytvorená spoločnosťou NVIDIA, umožnila využiť GPU nielen na grafiku, ale aj na výpočty, čo zásadne zrýchlilo trénovanie modelov a analýzu veľkých dát.

Prínos pre dátovú vedu: rýchla analýza veľkých dát a efektívny tréning modelov strojového učenia

3/ Internet a dostupnosť obrovského množstva dát

S príchodom internetu začali firmy ako aj jednotlivci, produkovať vo veľkom objeme digitálne dáta a to z oblastí, od štatistík návštevnosti internetových stránok, cez e-maily, videá, hudbu, zvuky až po rôzne dokumenty.

Ďalšiu vlnu dátového boomu priniesol rozmach sociálnych sietí (Facebook, Twitter,..), video platforiem ako YouTube, mobilných senzorov, online nákupov a mobilných aplikácií. Prakticky každé kliknutie, interakcia alebo nákup, generuje nové údaje.

Prínos pre dátovú vedu: masívny a neustále rastúci zdroj dát

4/ Cloud ako domov pre dáta

V minulosti analýza väčších objemov dát vyžadovala vlastné výkonné počítače. Takéto riešenia boli finančne nákladné, málo flexibilné a často sa narážalo na limity škálovateľnosti (t.j. možnosti rozšíriteľnosti riešenia na základe aktuálnych potrieb).

A potom prišiel cloud.

Dalo by sa povedať, že išlo o tzv. výpočtový výkon a úložisko „na požiadanie“.

Služby ako Amazon Web Services (AWS), Microsoft Azure alebo Google Cloud, dnes umožňujú ukladať prakticky neobmedzené množstvo dát, spúšťať výpočty podľa potreby a trénovať modely strojového učenia bez toho, aby firma vlastnila a spravovala vlastné IT vybavenie. Dátový vedec dnes dokáže spustiť spracovanie dát priamo z notebooku, zatiaľ čo všetky náročné operácie prebiehajú v cloudovej infraštruktúre.

Prínos pre dátovú vedu: flexibilný prístup k výpočtovému výkonu a úložisku bez potreby budovania vlastnej infraštruktúry

5/ Dostupné softvérové nástroje a knižnice

Dátová veda nie je len o algoritmoch, rovnako dôležitá je aj dostupnosť softvérových nástrojov a open-source riešení, ktoré umožňujú experimentovať, učiť sa a zdieľať získané vedomosti.

Vývoj dátovej vedy by nebol možný bez silnej komunity vývojárov.

Programovací jazyk Python, knižnice ako pandas alebo scikit-learn a nástroje na prácu s dátami, napríklad Jupyter Notebook alebo Visual Studio Code, vznikli a stále sa rozvíjajú práve vďaka spolupráci otvorenej komunity.

Prínos pre dátovú vedu: široká dostupnosť nástrojov umožňuje, aby každý mohol pracovať s dátami a rozvíjať svoje schopnosti

A čo ďalej?

Aj dnes sa dá v podstate povedať, že sme stále len na začiatku cesty.

Budúce trendy, od kvantových výpočtov, cez automatizovanú umelú inteligenciu až po syntetické dáta (umiestňované tak, aby napodobňovali skutočné údaje, ale bez obsahu osobných alebo citlivých informácií), budú naďalej formovať zručnosti a prácu dátových vedcov.

Zaujal Vás článok?  

Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.