Ako technológie formovali dátovú vedu

data veda zdroj

Áno, dnes žijeme v dátovom svete, otázkou by však mohlo byť, čo bolo predtým a čo všetko tomu predchádzalo. Preto sa dnes chcem vrátiť k histórii dátovej vedy, ale z toho pohľadu, ako sme sa vlastne dostali tam, kde sme dnes..

Dátová veda by nevznikla bez technologického pokroku, ktorý jej postupne krok za krokom vytváral podmienky na rozvoj. A to od prvých databáz až po dnešné, moderné cloudové služby, pričom každý posun priniesol nové možnosti, ale aj súčasne aj mnohé dôležité výzvy.

Dnes sa zameriam na kľúčové technologické míľniky, ktoré položili základy modernej dátovej vedy.

Tu sú niektoré z nich.

 

1/ Od papiera k SQL

Kedysi sa údaje evidovali ručne, na papieri, v tabuľkách alebo kartotékach. Automatizácia sa začala objavovať až v 60. rokoch, najmä v bankách a poisťovniach.

Zlom nastal s príchodom relačných databáz a jazyka SQL (angl. Structured Query Language), ktoré umožnili ukladať a spracovávať údaje oveľa efektívnejšie. Britsko-americký informatik Edgar F. Codd v spoločnosti IBM predstavil relačný model databáz, ktorý sa stal štandardom a zásadne zmenil ukladanie a spracovanie dát. Dnes patria SQL databázy, ako sú PostgreSQL, MySQL alebo SQLite k základom mnohých systémov.

Prínos pre dátovú vedu: efektívne ukladanie a prístup k dátam

 

2/ Výpočtový výkon a GPU (angl. Graphics Processing Unit)

Od 40. do 80. rokov sa náročné výpočty realizovali na veľkých sálových počítačoch, ktoré boli pomalé a finančne náročné. Situácia sa zmenila v 90. rokoch s nástupom dostupnejších stolových počítačov a serverov. To už otvorilo dvere vývoju softvéru na analýzu dát aj pre menšie firmy a výskumné tímy.

Medzi rokmi 2006 a 2012 nastal zásadný posun vďaka GPU a rozvoju neurónových sietí. Platforma NVIDIA CUDA, vytvorená spoločnosťou NVIDIA, umožnila využiť GPU nielen na grafiku, ale aj na paralelné výpočty, čo zrýchlilo tréning modelov strojového učenia a analýzu veľkých dát.

Prínos pre dátovú vedu: rýchla analýza veľkých dát a efektívny tréning modelov strojového učenia

 

3/ Internet a dostupnosť obrovského množstva dát

Príchod internetu umožnil firmám a jednotlivcom produkovať vo veľkom objeme digitálne dáta a to z oblastí, od štatistík návštevnosti internetových stránok, cez e-maily, videá, hudbu, zvuky až po rôzne dokumenty.

Ďalšiu vlnu dátového boomu priniesol rozmach sociálnych sietí (Facebook, Twitter,..), video platforiem ako YouTube, mobilných senzorov, online nákupov a mobilných aplikácií. Prakticky každé kliknutie, interakcia alebo nákup, generuje nové údaje.

Prínos pre dátovú vedu: masívny a neustále rastúci zdroj dát

 

4/ Cloud ako domov pre dáta

Analýza väčších objemov dát kedysi vyžadovala vlastné výkonné počítače, čo bolo finančne náročné.

A potom prišiel cloud.

Dalo by sa povedať, že išlo o tzv. výpočtový výkon a úložisko „na požiadanie“.

Služby ako Amazon Web Services (AWS), Microsoft Azure alebo Google Cloud umožňujú ukladať prakticky neobmedzené množstvo dát, spúšťať výpočty podľa potreby a trénovať modely strojového učenia bez toho, aby firma vlastnila a spravovala vlastné IT vybavenie. Dátový vedec tak môže vykonávať komplexné operácie priamo z notebooku.

Prínos pre dátovú vedu: flexibilný prístup k výpočtovému výkonu a úložisku bez potreby budovania vlastnej infraštruktúry

 

5/ Dostupné softvérové nástroje a knižnice

Dátová veda nie je len o algoritmoch. Dôležitú úlohu zohráva aj dostupnosť softvérových nástrojov a open-source riešení, ktoré umožňujú experimentovať a zdieľať vedomosti.

Vývoj dátovej vedy by nebol možný bez silnej komunity vývojárov.

Programovací jazyk Python, knižnice ako pandas alebo scikit-learn a nástroje na prácu s dátami, napríklad Jupyter Notebook alebo Visual Studio Code, vznikli a stále sa rozvíjajú práve vďaka spolupráci otvorenej komunity.

Prínos pre dátovú vedu: široká dostupnosť nástrojov umožňuje, aby každý mohol pracovať s dátami a rozvíjať svoje schopnosti

 

A čo ďalej?

Aj dnes sa dá v podstate povedať, že sme stále len na začiatku cesty.

Budúce trendy ako kvantové výpočty, automatizovaná umelá inteligencia alebo syntetické dáta (umiestňované tak, aby napodobňovali skutočné údaje, ale bez obsahu osobných alebo citlivých informácií), budú naďalej formovať zručnosti a prácu dátových vedcov.


Zaujal Vás článok?  

Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.