Článok je určený pre začiatočníkov v jazyku Pythone a dátovej analýze, ktorí sa chcú naučiť pracovať s dátami pomocou knižnice Pandas. Ukážeme si, ako načítať CSV súbor, skontrolovať jeho štruktúru, filtrovať dáta a pripraviť ich na ďalšiu analýzu alebo vizualizáciu.
Príklady vychádzajú z jednoduchej objednávkovej dátovej sady, ktorá reprezentuje typ dát, s ktorými sa bežne stretávame v praxi, napríklad pri analýze predajov alebo zákazníckeho správania.
Ako som už spomenul v minulom článku, programovací jazyk Python patrí dnes medzi najpoužívanejšie jazyky v oblasti dátovej vedy. Práca s dátami je základom každej dátovej analýzy. Bez ohľadu na to, či pracujeme s malým CSV súborom alebo s veľkým databázovým exportom, vždy je potrebné dáta najskôr načítať, pochopiť, vyčistiť a upraviť do použiteľnej podoby.
Najskôr si vytvoríme modelovú dátovú sadu s ktorou budeme pracovať počas celého článku:
|
order_id |
customer |
product |
price |
Date |
|
1 |
Peter |
Notebook |
1100 |
11.10.2025 |
|
2 |
Michal |
Myš |
15 |
11.10.2025 |
|
3 |
Eva |
Monitor |
420 |
11.10.2025 |
|
4 |
Michal |
Klávesnica |
25 |
11.10.2025 |
|
5 |
Lucia |
Slúchadlá |
80 |
11.10.2025 |
Popis:
order_id – identifikátor objednávky
customer – meno zákazníka
product – názov produktu
price – cena v EUR
date – dátum objednávky
Dátovú sadu si treba uložiť do súboru data.csv.
V nasledujúcej časti si krok za krokom ukážeme, ako dáta načítať, skontrolovať ich štruktúru a začať s ich spracovaním pomocou knižnice Pandas.
Dôležité: Aj keď sa na stránke zobrazia úvodzovky ako „text“, pri písaní zdrojového kódu v jazyku Python vždy používajte
"text", inak kód nebude fungovať správne.
1/ Import knižnice a načítanie dát
Prvým krokom pri práci s dátami s knižnicou Pandas, je ich načítanie do tabuľky s dátami. Táto tabuľka s dátami je tabuľková dátová štruktúra, podobná Excelu alebo databázovej tabuľke, s ktorou Pandas pracuje. Najčastejším formátom vstupných dát je CSV súbor.
import pandas as pd
df = pd.read_csv(„data.csv“)
df.head()
# výsledkom je tabuľka s piatimi prvými riadkami dátovej sady, kde vidíme názvy stĺpcov aj príklady hodnôt
Po načítaní dát pomocou funkcie read_csv() je vhodné si hneď na začiatku overiť, či sa dáta načítali správne. Funkcia head() zobrazí prvých päť riadkov dátovej sady, vďaka čomu rýchlo je vidieť názvy stĺpcov vrátane ukážky hodnôt.
2/ Základná kontrola dát pre rýchle zistenie chýbajúcich alebo nesprávnych hodnôt
Kontrola dát je jeden z najdôležitejších krokov v dátovej analýze. V reálnych dátach sa často nachádzajú chýbajúce hodnoty, nesprávne dátové typy alebo nekonzistentné záznamy. Pomocou nasledujúcich funkcií je možné rýchlo urobiť základný prehľad o kvalite dát.
df.info()
df.describe()
df.isnull().sum()
# info() – pomáha odhaliť nesprávne typy stĺpcov, napr. ak čísla sú načítané ako text
# describe() – štatistiky pre numerické stĺpce
# isnull().sum() – počet chýbajúcich hodnôt
# výsledkom je rýchly prehľad dát: typy stĺpcov, počet hodnôt, štatistiky a počet chýbajúcich hodnôt
Tieto príkazy umožnia zistiť, ktoré stĺpce obsahujú chýbajúce hodnoty, aké dátové typy Pandas automaticky priradil a tiež, či numerické stĺpce obsahujú očakávané hodnoty. Práve v tomto kroku sa často odhalia prvé problémy v dátach.
3/ Výber stĺpcov a riadkov (rýchle filtrovanie a výber dát)
Pri práci s dátami zvyčajne nie je potrebné pracovať so všetkými stĺpcami naraz. Knižnica Pandas umožňuje veľmi jednoducho vybrať konkrétne stĺpce alebo filtrovať riadky na základe podmienky, napríklad podľa ceny alebo názvu produktu.
# vyber stĺpce
df[[‚product‘, ‚price‘]]
# vyber riadky podľa podmienky
df[df[‚price‘] > 100]
# výstupom je vybraná časť tabuľky: konkrétne stĺpce alebo riadky, ktoré spĺňajú zadanú podmienku
Toto filtrovanie je užitočné napríklad pri hľadaní drahších produktov, analýze konkrétneho typu objednávok alebo príprave dát pre ďalší výpočet.
4/ Základné operácie s dátami
Knižnica Pandas poskytuje množstvo vstavaných funkcií na rýchle výpočty nad dátami. Medzi najčastejšie používané patria súčty, priemery, počty unikátnych hodnôt alebo zoskupovanie dát podľa kategórií.
# súčet, priemer
df[‚price‘].sum()
df[‚price‘].mean()
# počet unikátnych hodnôt
df[‚product‘].nunique()
# analýza dát podľa kategórií
df.groupby(‚product‘)[‚price‘].sum()
# výstupom sú jednoduché štatistiky: súčet, priemer, počet unikátnych produktov a celková cena podľa produktov
Výsledkom týchto funkcií môžu byť napríklad informácie o celkovom obrate, priemernej cene produktov alebo prehľad tržieb podľa jednotlivých produktov. Takéto výstupy sa často používajú v reportoch alebo pri rozhodovaní v obchode.
5/ Práca s chýbajúcimi hodnotami
Chýbajúce hodnoty sú v podstate bežnou súčasťou reálnych dát. Ak s nimi nepracujeme správne, môžu výrazne skresliť výsledky analýzy. Knižnica Pandas ponúka viacero možností, ako sa s nimi vysporiadať a to buď ich doplniť, alebo odstrániť.
# doplniť priemernou hodnotou
df[‚price‘].fillna(df[‚price‘].mean(), inplace=True)
# odstrániť riadky s chýbajúcimi hodnotami
df.dropna(inplace=True)
# výsledkom je upravená tabuľka, kde chýbajúce hodnoty sú doplnené priemerom alebo odstránené
Voľba správneho postupu závisí od konkrétneho problému a tiež typu dát. V praxi je dôležité vždy zvážiť, ktoré doplnenie alebo odstránenie dát dáva zmysel práve z analytického hľadiska.
6/ Pridávanie a transformácia stĺpcov
Pridávanie nových stĺpcov sa často používa pri výpočtoch zliav, daní alebo iných odvodených hodnôt. Konverzia dátumu do formátu datetime, je zároveň nevyhnutná, ak chceme s dátumami ďalej pracovať a to napríklad pri časových analýzach.
# nový stĺpec s cenou po zľave
df[‚discounted_price‘] = df[‚price‘] * 0.9
# konverzia dátumu
df[‚date‘] = pd.to_datetime(df[‚date‘])
# výstupom je tabuľka s novým stĺpcom so zľavnenou cenou a dátumom prevedeným do správneho formátu
7/ Zoradenie dát pre rýchle zistenie najdrahších alebo najlacnejších položiek
df.sort_values(by=’price‘, ascending=False)
# výsledkom je tabuľka zoradená od najdrahších po najlacnejšie produkty
Najčastejšie chyby začiatočníkov pri práci s knižnicou Pandas:
- použitie nesprávnych úvodzoviek namiesto štandardných
- nenačítanie dátumu ako typu datetime
- práca s číselnými hodnotami ako s textom
- vynechanie kontroly chýbajúcich hodnôt
- úprava dát bez uloženia výsledku späť do dátovej tabuľky
V tomto článku sme si ukázali základné techniky práce s dátami v knižnici Pandas, od načítania CSV súboru, cez kontrolu dát až po jednoduché analýzy a úpravy. Tieto kroky tvoria základ takmer každej dátovej analýzy v jazyku Python.
V ďalšom kroku je možné tieto dáta vizualizovať pomocou knižníc Matplotlib alebo Seaborn, prípadne ich použiť ako vstup pre pokročilejšiu analýzu alebo strojové učenie.
Zaujal Vás článok?
Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.

