Typy dátových súborov

data typ

Dnes by som sa zameral na niektoré zo základných typov dátových súborov (presnejšie iba tie, s ktorými mám skúsenosti), ktoré sa používajú v oblasti dátovej vedy. Dôležité pritom je, že tieto typy majú svoje špecifické vlastnosti a podľa toho sú vhodné na rôzne úlohy, ako sú spracovanie, analýza, alebo vizualizácia dát.

Zoznam vybraných typov dátových súborov:

1/ Excel

Používa ho program Microsoft Excel (súbory je ale možné otvoriť aj inými tabuľkovými procesormi, ako je Google Sheets) na ukladanie tabuľkových dokumentov vo formáte .xls (angl. Excel Spreadsheet – starší formát s určitými dátovými obmedzeniami sa používal v programe Excel pred vydaním verzie Excel 2007) a .xlsx (angl. Excel Open XML Spreadsheet – novší formát bol spustený vo verzii Excel 2007, podporuje väčšie tabuľky a používa Open XML štandard). Ide o veľmi často používaný typ na prácu s dátami, ktorý umožňuje viacero listov v jednom súbore a podporuje rôzne dátové typy a vzorce. Vhodný je skôr pre základné analýzy a vizualizáciu dát, ale nie pre prácu s veľkými dátovými súbormi.

2/ CSV

V tomto prípade ide o jeden z najbežnejších typov na ukladanie štruktúrovaných dát, vhodný je na import a export dát medzi rôznymi aplikáciami. Typ CSV (angl. Comma-Separated Values) je celkom jednoduchý a hlavne univerzálny formát, ktorý sa používa na ukladanie číselných, textových alebo dátových údajov. V prípade ukladania dát v podobe tabuliek, predstavuje riadok vždy jeden záznam a hodnoty sú v rámci daného riadku oddelené čiarkami. Medzi jeho nevýhody možno zaradiť fakt, že neobsahuje informácie o dátových typoch (napríklad čísla,..) a neštruktúrované dáta môžu byť dosť náročné na spracovanie a analýzu.

3/ JSON

Tento textový typ sa používa na reprezentáciu (ide o spôsob, akým sú dáta rôzneho typu, ako reťazce, čísla, alebo booleovské hodnoty, organizované, uložené a zobrazené) štruktúrovaných dát. Typ JSON (angl. JavaScript Object Notation) sa často používa pre konfiguračné súbory, na výmenu dát medzi aplikáciami alebo v prípade dátových výstupov internetových služieb. K jeho nevýhode určite patrí skutočnosť, že neobsahuje štruktúru ako tabuľky a nie je celkom vhodný pre veľké množstvo dát.

4/ XML

Rovnako ako predchádzajúci typ, aj XML (angl. Extensible Markup Language) sa používa na reprezentáciu štruktúrovaných dát, ak je potrebné uchovať dátovú štruktúru v textovom formáte. Tento typ je flexibilný a rozšíriteľný pre možnosť ukladania rôznych typov dát, pričom tie môžu byť použité na výmenu medzi rôznymi systémami (ERP,..), alebo možnosť použitia ako konfiguračný súbor pre nastavenia aplikácie.

5/ SQL

Ide o typ, ktorý predstavuje najbežnejší spôsob ukladania štruktúrovaných dát. Tento databázový typ, je založený ako relačný model a to znamená, že dáta sú usporiadané do tabuliek s definovanými stĺpcami a riadkami. V oblasti dátovej vedy sa SQL (angl. Structured Query Language) súbory často používajú na zbieranie, čistenie a analýzu dát v rámci rôznych databázových systémov, ako je napríklad MySQL, PostgreSQL, alebo SQLite.

 

Niekoľko slov na záver..

Pri práci s dátami sa používajú rôzne typy dátových súborov a výber toho správneho formátu súborov závisí od toho, aký typ dát je k dispozícii a súčasne, ako bude treba tieto dáta spracovať a následne analyzovať. Pre každého dátového vedca je teda veľmi dôležité pochopiť silné stránky a obmedzenia rôznych súborových formátov.


Zaujal Vás článok?  

Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.