Ako som spomenul už v niektorom z minulých článkov, že témam ako je zber, čistenie, analýza a následná vizualizácia údajov (dát) s prezentáciou výsledkov, sa v budúcnosti určite ešte vrátim, tak práve dnes je ten deň, keď budem pokračovať v téme zberu údajov v oblasti dátovej vedy a doplním ďalšie zaujímavé informácie.
Zber údajov (angl. Data Collection) je neoddeliteľnou súčasťou dátovej vedy. Je významným procesom v rámci aktívneho získavania nových informácií z rôznych zdrojov a jeho dôležitosť sa rozhodne nesmie podceňovať. To ale nie je určite nič prekvapujúce, pretože kvalita a správnosť údajov má jednoznačný vplyv na úspešnosť a presnosť následných analytických procesov.
V súčasnosti je určitým štandardom zbierať údaje z existujúcich verejných alebo komerčných systémov (napríklad rôzne databázy so všeobecne dostupnými informáciami alebo údajmi o realizovaných transakciách, prihláseniach, aktivitách na internete alebo činnostiach v rámci mobilných aplikácií). Takto získané údaje poskytujú dostatok cenných informácií o systémoch, rôznych stavoch alebo používateľoch, ktoré môžu byť následne použité na výskum alebo tvorbu modelov.
Ozaj, čo sa týka metódy zberu údajov..
Možností ako pristupovať k zberu údajov existuje veľa, pričom dostupné metódy sa odlišujú od seba podľa typu dát, použitého zdroja a cieľa, resp. finálneho zadania pre ktorý sa údaje zbierajú. V základe je možné rozdeliť metódy na manuálne (ide o časovo náročnú metódu náchylnú na chyby, pretože údaje sa zbierajú ručne a to napríklad písaním, alebo zadávaním údajov do formulárov, tabuliek prípadne databáz, t.j. všade tam, kde je potrebná ľudská kontrola alebo kde technológie nie sú dostupné) a automatizované (tieto sú veľmi efektívnym spôsobom pre zber údajov, pretože umožňujú kontinuálne zbieranie údajov bez potreby manuálneho zásahu zo strany človeka), pričom každá z týchto metód má svoje výhody a nevýhody.

Dátová veda má základ v schopnosti pracovať s veľkým množstvom údajov v rôznych formátoch, pričom tie môžu pochádzať z rôznych zdrojov.
Tu je niekoľko príkladov:
– zariadenie pre zber environmentálnych dát priamo v teréne (monitorovanie teploty, vlhkosti, tlaku,..)
– senzor alebo IoT zariadenie pre zber dát z nejakej aktivity v preverovanom prostredí
– prieskum alebo dotazník na vybrané témy v rámci priameho zbierania údajov
– experimenty, kde prebieha pozorovanie (zber údajov o názoroch, správaní a preferenciách) účastníkov alebo objektov realizovanej štúdie pre napríklad oblasť psychológie, resp. marketingu
– správanie používateľov na internetových stránkach (navštívenie podstránok, kliknutia na stránke,..), alebo zber iných relevantných údajov zo stránok (text, obrázky,..) pre analýzu
– údaje o používateľoch, správach alebo trendoch cez verejne dostupné API (angl. Application Programming Interface) poskytnuté spoločnosťou ako je napríklad Google
– špecifická databáza (zdravotné záznamy,..)
– historické údaje z rôznych odvetví
Pritom zber údajov, ako procesne kontrolovaná činnosť, je veľmi často opakujúci sa proces a to v rámci nastavených postupov. Súčasťou zberu je samozrejme plánovanie a zabezpečenie presnosti, spoľahlivosti a použiteľnosti získaných informácií.
Potom je tu otázka, čo je dôležité pri zbere údajov.
Treba si uvedomiť, že pri zbere údajov môže prichádzať k rôznym obmedzeniam alebo k výzvam, ktoré je nutné prekonať, aby bolo možné sa dostať k požadovaným údajom. Pravdepodobne jednou z najväčších výziev je potreba zabezpečiť kvalitu zbieraných údajov a to tak, aby boli kompletné, presné a použiteľné. Jednoducho, neúplné alebo nesprávne údaje budú určite viesť k nesprávnym analýzam a rozhodnutiam.
Ďalšími výzvami bude rozhodne fakt, že údaje sa môžu získavať každý deň a to v reálnom čase (výzvou je tu technická náročnosť potrebného riešenia), môže ísť o obrovské objemy dát a tie budú navyše pochádzať z rôznych dátových zdrojov. A aby to nebolo „až tak jednoduché“, údaje budú mať určite rôzne štruktúru a formáty. Správna integrácia formátov a následné spracovanie si zase bude vyžadovať pokročilé techniky a nástroje na konsolidáciu rôznych typov zozbieraných údajov.
Nakoniec nám zostáva ešte etická otázka, resp. právna stránka pri zbere údajov.
Ide o to, že pri zbere osobných alebo inak citlivých údajov, je nevyhnutné sa zaoberať etickými zásadami, ochranou osobných údajov a zabezpečením súkromia, jednoducho oblasťou potrebnej legislatívy, ako je napríklad GDPR (angl. General Data Protection Regulation).
A s týmto dôležitými aspektami, je treba sa v rámci dátovej vedy jednoducho vyrovnať.
Zaujal Vás článok?
Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.