Článok je určený pre začiatočníkov v jazyku Pythone a dátovej analýze, ktorí sa chcú naučiť pracovať s dátami pomocou knižnice Pandas. Ukážeme si, ako načítať CSV súbor, skontrolovať jeho štruktúru, filtrovať dáta a pripraviť ich na ďalšiu analýzu alebo vizualizáciu.
Príklady vychádzajú z jednoduchej objednávkovej dátovej sady, ktorá reprezentuje typ dát, s ktorými sa bežne stretávame v praxi, napríklad pri analýze predajov alebo zákazníckeho správania.
Ako som už spomenul v minulom článku, programovací jazyk Python patrí dnes medzi najpoužívanejšie jazyky v oblasti dátovej vedy. Práca s dátami je základom každej dátovej analýzy. Bez ohľadu na to, či pracujeme s malým CSV súborom alebo s veľkým databázovým exportom, vždy je potrebné dáta najskôr načítať, pochopiť, vyčistiť a upraviť do použiteľnej podoby.
Najskôr si vytvoríme modelovú dátovú sadu s ktorou budeme pracovať počas celého článku:
|
order_id |
customer |
product |
price |
Date |
|
1 |
Peter |
Notebook |
1100 |
11.10.2025 |
|
2 |
Michal |
Myš |
15 |
11.10.2025 |
|
3 |
Eva |
Monitor |
420 |
11.10.2025 |
|
4 |
Michal |
Klávesnica |
25 |
11.10.2025 |
|
5 |
Lucia |
Slúchadlá |
80 |
11.10.2025 |
Popis:
order_id – identifikátor objednávky
customer – meno zákazníka
product – názov produktu
price – cena v EUR
date – dátum objednávky
Dátovú sadu si treba uložiť do súboru data.csv.
V nasledujúcej časti si krok za krokom ukážeme, ako dáta načítať, skontrolovať ich štruktúru a začať s ich spracovaním pomocou knižnice Pandas.
Dôležité: Aj keď sa na stránke zobrazia úvodzovky ako „text“, pri písaní zdrojového kódu v jazyku Python vždy používajte
"text", inak kód nebude fungovať správne.
1/ Import knižnice a načítanie dát
Prvým krokom pri práci s dátami s knižnicou Pandas, je ich načítanie do tabuľky s dátami. Táto tabuľka s dátami je tabuľková dátová štruktúra, podobná Excelu alebo databázovej tabuľke, s ktorou Pandas pracuje. Najčastejším formátom vstupných dát je CSV súbor.
import pandas as pd
df = pd.read_csv(„data.csv“)
df.head()
# výsledkom je tabuľka s piatimi prvými riadkami dátovej sady, kde vidíme názvy stĺpcov aj príklady hodnôt
Po načítaní dát pomocou funkcie read_csv() je vhodné si hneď na začiatku overiť, či sa dáta načítali správne. Funkcia head() zobrazí prvých päť riadkov dátovej sady, vďaka čomu rýchlo je vidieť názvy stĺpcov vrátane ukážky hodnôt.
2/ Základná kontrola dát pre rýchle zistenie chýbajúcich alebo nesprávnych hodnôt
Kontrola dát je jeden z najdôležitejších krokov v dátovej analýze. V reálnych dátach sa často nachádzajú chýbajúce hodnoty, nesprávne dátové typy alebo nekonzistentné záznamy. Pomocou nasledujúcich funkcií je možné rýchlo urobiť základný prehľad o kvalite dát.
df.info()
df.describe()
df.isnull().sum()
# info() – pomáha odhaliť nesprávne typy stĺpcov, napr. ak čísla sú načítané ako text
# describe() – štatistiky pre numerické stĺpce
# isnull().sum() – počet chýbajúcich hodnôt
# výsledkom je rýchly prehľad dát: typy stĺpcov, počet hodnôt, štatistiky a počet chýbajúcich hodnôt
Tieto príkazy umožnia zistiť, ktoré stĺpce obsahujú chýbajúce hodnoty, aké dátové typy Pandas automaticky priradil a tiež, či numerické stĺpce obsahujú očakávané hodnoty. Práve v tomto kroku sa často odhalia prvé problémy v dátach.
3/ Výber stĺpcov a riadkov (rýchle filtrovanie a výber dát)
Pri práci s dátami zvyčajne nie je potrebné pracovať so všetkými stĺpcami naraz. Knižnica Pandas umožňuje veľmi jednoducho vybrať konkrétne stĺpce alebo filtrovať riadky na základe podmienky, napríklad podľa ceny alebo názvu produktu.
# vyber stĺpce
df[[‚product‘, ‚price‘]]
# vyber riadky podľa podmienky
df[df[‚price‘] > 100]
# výstupom je vybraná časť tabuľky: konkrétne stĺpce alebo riadky, ktoré spĺňajú zadanú podmienku
Toto filtrovanie je užitočné napríklad pri hľadaní drahších produktov, analýze konkrétneho typu objednávok alebo príprave dát pre ďalší výpočet.
4/ Základné operácie s dátami
Knižnica Pandas poskytuje množstvo vstavaných funkcií na rýchle výpočty nad dátami. Medzi najčastejšie používané patria súčty, priemery, počty unikátnych hodnôt alebo zoskupovanie dát podľa kategórií.
# súčet, priemer
df[‚price‘].sum()
df[‚price‘].mean()
# počet unikátnych hodnôt
df[‚product‘].nunique()
# analýza dát podľa kategórií
df.groupby(‚product‘)[‚price‘].sum()
# výstupom sú jednoduché štatistiky: súčet, priemer, počet unikátnych produktov a celková cena podľa produktov
Výsledkom týchto funkcií môžu byť napríklad informácie o celkovom obrate, priemernej cene produktov alebo prehľad tržieb podľa jednotlivých produktov. Takéto výstupy sa často používajú v reportoch alebo pri rozhodovaní v obchode.
5/ Práca s chýbajúcimi hodnotami
Chýbajúce hodnoty sú v podstate bežnou súčasťou reálnych dát. Ak s nimi nepracujeme správne, môžu výrazne skresliť výsledky analýzy. Knižnica Pandas ponúka viacero možností, ako sa s nimi vysporiadať a to buď ich doplniť, alebo odstrániť.
# doplniť priemernou hodnotou
df[‚price‘].fillna(df[‚price‘].mean(), inplace=True)
# odstrániť riadky s chýbajúcimi hodnotami
df.dropna(inplace=True)
# výsledkom je upravená tabuľka, kde chýbajúce hodnoty sú doplnené priemerom alebo odstránené
Voľba správneho postupu závisí od konkrétneho problému a tiež typu dát. V praxi je dôležité vždy zvážiť, ktoré doplnenie alebo odstránenie dát dáva zmysel práve z analytického hľadiska.
6/ Pridávanie a transformácia stĺpcov
Pridávanie nových stĺpcov sa často používa pri výpočtoch zliav, daní alebo iných odvodených hodnôt. Konverzia dátumu do formátu datetime, je zároveň nevyhnutná, ak chceme s dátumami ďalej pracovať a to napríklad pri časových analýzach.
# nový stĺpec s cenou po zľave
df[‚discounted_price‘] = df[‚price‘] * 0.9
# konverzia dátumu
df[‚date‘] = pd.to_datetime(df[‚date‘])
# výstupom je tabuľka s novým stĺpcom so zľavnenou cenou a dátumom prevedeným do správneho formátu
7/ Zoradenie dát pre rýchle zistenie najdrahších alebo najlacnejších položiek
df.sort_values(by=’price‘, ascending=False)
# výsledkom je tabuľka zoradená od najdrahších po najlacnejšie produkty
Najčastejšie chyby začiatočníkov pri práci s knižnicou Pandas:
- použitie nesprávnych úvodzoviek namiesto štandardných
- nenačítanie dátumu ako typu datetime
- práca s číselnými hodnotami ako s textom
- vynechanie kontroly chýbajúcich hodnôt
- úprava dát bez uloženia výsledku späť do dátovej tabuľky
V tomto článku sme si ukázali základné techniky práce s dátami v knižnici Pandas, od načítania CSV súboru, cez kontrolu dát až po jednoduché analýzy a úpravy. Tieto kroky tvoria základ takmer každej dátovej analýzy v jazyku Python.
V ďalšom kroku je možné tieto dáta vizualizovať pomocou knižníc Matplotlib alebo Seaborn, prípadne ich použiť ako vstup pre pokročilejšiu analýzu alebo strojové učenie.

