Zber údajov v oblasti dátovej vedy

zber data

Ako som spomenul už v niektorom z minulých článkov, že témam ako je zber, čistenie, analýza a následná vizualizácia údajov (dát) s prezentáciou výsledkov, sa v budúcnosti určite ešte vrátim, tak práve dnes je ten deň, keď budem pokračovať v téme zberu údajov v oblasti dátovej vedy a doplním ďalšie zaujímavé informácie.

Zber údajov (angl. Data Collection) je neoddeliteľnou súčasťou dátovej vedy. Je významným procesom v rámci aktívneho získavania nových informácií z rôznych zdrojov a jeho dôležitosť sa rozhodne nesmie podceňovať. To ale nie je určite nič prekvapujúce, pretože kvalita a správnosť údajov má jednoznačný vplyv na úspešnosť a presnosť následných analytických procesov.

V súčasnosti je určitým štandardom zbierať údaje z existujúcich verejných alebo komerčných systémov (napríklad rôzne databázy so všeobecne dostupnými informáciami alebo údajmi o realizovaných transakciách, prihláseniach, aktivitách na internete alebo činnostiach v rámci mobilných aplikácií). Takto získané údaje poskytujú dostatok cenných informácií o systémoch, rôznych stavoch alebo používateľoch, ktoré môžu byť následne použité na výskum alebo tvorbu modelov.

Ozaj, čo sa týka metódy zberu údajov..

Možností ako pristupovať k zberu údajov existuje veľa, pričom dostupné metódy sa odlišujú od seba podľa typu dát, použitého zdroja a cieľa, resp. finálneho zadania pre ktorý sa údaje zbierajú. V základe je možné rozdeliť metódy na manuálne (ide o časovo náročnú metódu náchylnú na chyby, pretože údaje sa zbierajú ručne a to napríklad písaním, alebo zadávaním údajov do formulárov, tabuliek prípadne databáz, t.j. všade tam, kde je potrebná ľudská kontrola alebo kde technológie nie sú dostupné) a automatizované (tieto sú veľmi efektívnym spôsobom pre zber údajov, pretože umožňujú kontinuálne zbieranie údajov bez potreby manuálneho zásahu zo strany človeka), pričom každá z týchto metód má svoje výhody a nevýhody.

zber data

Dátová veda má základ v schopnosti pracovať s veľkým množstvom údajov v rôznych formátoch, pričom tie môžu pochádzať z rôznych zdrojov.

Tu je niekoľko príkladov:

– zariadenie pre zber environmentálnych dát priamo v teréne (monitorovanie teploty, vlhkosti, tlaku,..)

– senzor alebo IoT zariadenie pre zber dát z nejakej aktivity v preverovanom prostredí

– prieskum alebo dotazník na vybrané témy v rámci priameho zbierania údajov

– experimenty, kde prebieha pozorovanie (zber údajov o názoroch, správaní a preferenciách) účastníkov alebo objektov realizovanej štúdie pre napríklad oblasť psychológie, resp. marketingu

– správanie používateľov na internetových stránkach (navštívenie podstránok, kliknutia na stránke,..), alebo zber iných relevantných údajov zo stránok (text, obrázky,..) pre analýzu

– údaje o používateľoch, správach alebo trendoch cez verejne dostupné API (angl. Application Programming Interface) poskytnuté spoločnosťou ako je napríklad Google

– špecifická databáza (zdravotné záznamy,..)

– historické údaje z rôznych odvetví

 

Pritom zber údajov, ako procesne kontrolovaná činnosť, je veľmi často opakujúci sa proces a to v rámci nastavených postupov. Súčasťou zberu je samozrejme plánovanie a zabezpečenie presnosti, spoľahlivosti a použiteľnosti získaných informácií.

Potom je tu otázka, čo je dôležité pri zbere údajov.

Treba si uvedomiť, že pri zbere údajov môže prichádzať k rôznym obmedzeniam alebo k výzvam, ktoré je nutné prekonať, aby bolo možné sa dostať k požadovaným údajom. Pravdepodobne jednou z najväčších výziev je potreba zabezpečiť kvalitu zbieraných údajov a to tak, aby boli kompletné, presné a použiteľné. Jednoducho, neúplné alebo nesprávne údaje budú určite viesť k nesprávnym analýzam a rozhodnutiam.

Ďalšími výzvami bude rozhodne fakt, že údaje sa môžu získavať každý deň a to v reálnom čase (výzvou je tu technická náročnosť potrebného riešenia), môže ísť o obrovské objemy dát a tie budú navyše pochádzať z rôznych dátových zdrojov. A aby to nebolo „až tak jednoduché“, údaje budú mať určite rôzne štruktúru a formáty. Správna integrácia formátov a následné spracovanie si zase bude vyžadovať pokročilé techniky a nástroje na konsolidáciu rôznych typov zozbieraných údajov.

Nakoniec nám zostáva ešte etická otázka, resp. právna stránka pri zbere údajov.

Ide o to, že pri zbere osobných alebo inak citlivých údajov, je nevyhnutné sa zaoberať etickými zásadami, ochranou osobných údajov a zabezpečením súkromia, jednoducho oblasťou potrebnej legislatívy, ako je napríklad GDPR (angl. General Data Protection Regulation).

A s týmto dôležitými aspektami, je treba sa v rámci dátovej vedy jednoducho vyrovnať.


Zaujal Vás článok? 

Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.