Dnešný článok je určený pre začiatočníkov v jazyku Pythone a dátovej analýze, ktorí sa chcú naučiť pracovať s dátami pomocou knižnice Pandas. Ukážeme si, ako načítať CSV súbor, skontrolovať jeho štruktúru, filtrovať dáta a pripraviť ich na ďalšiu analýzu alebo vizualizáciu.
Nadväzujem teda na úvod do programovacieho jazyka Python, kde sme si vysvetlili základné princípy práce s týmto jazykom. Teraz sa zameriame na praktickú oblasť práce s dátami, ktorá patrí medzi najdôležitejšie zručnosti v dátovej vede, analytike aj business reportingu. Príklady vychádzajú z jednoduchej objednávkovej dátovej sady, ktorá reprezentuje typ údajov, s ktorými sa možno stretnúť, napríklad pri analýze predajov alebo zákazníckeho správania.
Programovací jazyk Python patrí dnes medzi najpoužívanejšie jazyky v oblasti dátovej vedy. Práca s dátami je základom pre každú dátovú analýzu. Bez ohľadu na to, či pracujeme s malým CSV súborom alebo s veľkým databázovým exportom, vždy je potrebné dáta najskôr načítať, pochopiť ich štruktúru, vyčistiť a upraviť ich do použiteľnej podoby.
Modelová dátová sada
Najskôr si vytvoríme modelovú dátovú sadu s ktorou budeme pracovať počas celého článku.
|
order_id |
customer |
product |
price |
Date |
|
1 |
Peter |
Notebook |
1100 |
11.10.2025 |
|
2 |
Michal |
Myš |
15 |
11.10.2025 |
|
3 |
Eva |
Monitor |
420 |
11.10.2025 |
|
4 |
Michal |
Klávesnica |
25 |
11.10.2025 |
|
5 |
Lucia |
Slúchadlá |
80 |
11.10.2025 |
Popis:
order_id – identifikátor objednávky
customer – meno zákazníka
product – názov produktu
price – cena v EUR
date – dátum objednávky
Dátovú sadu si treba uložiť do súboru data.csv.
V nasledujúcej časti si krok za krokom ukážeme, ako dáta načítať, skontrolovať štruktúru a začať s ich spracovaním pomocou knižnice Pandas.
Dôležité: Aj keď sa na tejto stránke zobrazia úvodzovky ako „text“ alebo ‚text‘, pri písaní zdrojového kódu v jazyku Python vždy používajte bežné ASCII úvodzovky
"text"alebo‘text‘, inak kód nebude fungovať správne.
1/ Import knižnice a načítanie dát
Prvým krokom pri práci s dátami s knižnicou Pandas, je ich načítanie do tabuľky s dátami. Táto tabuľka s dátami je tabuľková dátová štruktúra, podobná Excelu alebo databázovej tabuľke, s ktorou Pandas pracuje. Najčastejším formátom vstupných dát je CSV súbor.
import pandas as pd
df = pd.read_csv(„data.csv“)
df.head()
# read_csv() – načíta CSV súbor do objektu typu DataFrame
# read_csv() – zobrazí prvých päť riadkov dátovej sady
DataFrame je tabuľková dátová štruktúra podobná Excelu alebo databázovej tabuľke. Po načítaní dát pomocou funkcie read_csv() je vhodné si hneď na začiatku overiť, či sa dáta načítali správne.
2/ Základná kontrola dát pre rýchle zistenie chýbajúcich alebo nesprávnych hodnôt
Kontrola dát je jeden z najdôležitejších krokov v dátovej analýze. V reálnych dátach sa často nachádzajú chýbajúce hodnoty, nesprávne dátové typy alebo nekonzistentné záznamy. Pomocou nasledujúcich funkcií je možné rýchlo urobiť základný prehľad o kvalite dát.
df.info()
df.describe()
df.isnull().sum()
# info() – zobrazí dátové typy a počet hodnôt a pomáha odhaliť chyby, napr. ak sa čísla načítali ako text
# describe() – štatistiky pre numerické stĺpce
# isnull().sum() – počet chýbajúcich hodnôt
Tieto príkazy umožňujú identifikovať prvotné problémy v dátach, ako sú chýbajúce hodnoty, nesprávne nastavené dátové typy, neúplné údaje alebo výskyt extrémnych alebo podozrivých hodnôt.
3/ Výber stĺpcov a riadkov (rýchle filtrovanie a výber dát)
Pri práci s dátami zvyčajne nie je potrebné pracovať so všetkými stĺpcami naraz. Knižnica Pandas umožňuje veľmi jednoducho vybrať konkrétne stĺpce alebo filtrovať riadky na základe podmienky, napríklad podľa ceny alebo názvu produktu.
# výber konkrétnych stĺpcov
df[[‚product‘, ‚price‘]]
# filtrovanie podľa podmienky
df[df[‚price‘] > 100]
Filtrovanie podľa zadanej podmienky predstavuje základ každej analýzy, pretože je to užitočné napríklad pri vyhľadávaní drahších produktov, analýze konkrétneho typu objednávok alebo príprave dát pre ďalší výpočet.
4/ Základné výpočty a agregácie
Knižnica Pandas poskytuje množstvo vstavaných funkcií na rýchle výpočty nad dátami. Medzi najčastejšie používané patria súčty, priemery, počty unikátnych hodnôt alebo zoskupovanie dát podľa kategórií.
# súčet, priemer
df[‚price‘].sum()
df[‚price‘].mean()
# počet unikátnych hodnôt
df[‚product‘].nunique()
# analýza dát podľa kategórií
df.groupby(‚product‘)[‚price‘].sum()
Tieto funkcie umožňujú zistiť celkový obrat, priemernú cenu, počet unikátnych produktov alebo tržby podľa produktov. Funkcia groupby() patrí medzi najdôležitejšie nástroje v knižnici Pandas a využíva sa pri reportingu aj obchodnej analýze. V reálnej firme by toto predstavovalo výpočet tržieb podľa kategórie produktu a to je základný report pre obchodné oddelenie.
5/ Práca s chýbajúcimi hodnotami
Chýbajúce hodnoty sú v podstate bežnou súčasťou reálnych dát. Ak s nimi nepracujeme správne, môžu výrazne ovplyvniť výsledky analýzy. Knižnica Pandas ponúka viacero možností, ako sa s nimi vysporiadať a to buď ich doplniť, alebo odstrániť.
# doplniť priemernou hodnotou
df[‚price‘].fillna(df[‚price‘].mean(), inplace=True)
# odstrániť riadky s chýbajúcimi hodnotami
df.dropna(inplace=True)
# výsledkom je upravená tabuľka, kde chýbajúce hodnoty sú doplnené priemerom alebo odstránené
Voľba správneho postupu závisí od konkrétneho problému a tiež typu dát. Dôležité je ale uvedomiť si, že správne riešenie vždy závisí od kontextu analýzy, pretože niekedy odstránenie dát môže skresliť výsledky.
6/ Pridávanie a transformácia stĺpcov
Pridávanie nových stĺpcov sa často používa pri výpočtoch zliav, daní alebo iných odvodených hodnôt. Konverzia dátumu do formátu datetime, je zároveň nevyhnutná, ak chceme s dátumami ďalej pracovať a to napríklad pri časových analýzach.
# nový stĺpec s cenou po zľave
df[‚discounted_price‘] = df[‚price‘] * 0.9
# konverzia dátumu
df[‚date‘] = pd.to_datetime(df[‚date‘])
Výstupom je tabuľka s novým stĺpcom so zľavnenou cenou a dátumom prevedeným do správneho formátu Bez konverzie na datetime nie je možné efektívne robiť časové analýzy (napr. mesačné alebo ročné porovnania).
7/ Zoradenie dát
df.sort_values(by=’price‘, ascending=False)
Výsledkom je tabuľka zoradená od najdrahších po najlacnejšie produkty.
Najčastejšie chyby začiatočníkov pri práci s knižnicou Pandas:
- použitie nesprávnych úvodzoviek namiesto štandardných
- nenačítanie dátumu ako typu datetime
- práca s číselnými hodnotami ako s textom
- vynechanie kontroly chýbajúcich hodnôt
- úprava dát bez uloženia výsledku späť do dátovej tabuľky
V tomto článku sme si ukázali základné techniky práce s dátami v knižnici Pandas, od načítania CSV súboru, cez kontrolu dát až po jednoduché analýzy a úpravy. Tieto kroky tvoria základ takmer každej dátovej analýzy v jazyku Python.
V ďalšom článku sa pozrieme na vizualizáciu dát pomocou knižníc Matplotlib a Seaborn, kde si ukážeme, ako z dát vytvoriť prehľadné grafy a reporty.
Zaujal Vás článok?
Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.

