Python a práca s dátami

python data

Článok je určený pre začiatočníkov v jazyku Pythone a dátovej analýze, ktorí sa chcú naučiť pracovať s dátami pomocou knižnice Pandas. Ukážeme si, ako načítať CSV súbor, skontrolovať jeho štruktúru, filtrovať dáta a pripraviť ich na ďalšiu analýzu alebo vizualizáciu.

Príklady vychádzajú z jednoduchej objednávkovej dátovej sady, ktorá reprezentuje typ dát, s ktorými sa bežne stretávame v praxi, napríklad pri analýze predajov alebo zákazníckeho správania.

Ako som už spomenul v minulom článku, programovací jazyk Python patrí dnes medzi najpoužívanejšie jazyky v oblasti dátovej vedy. Práca s dátami je základom každej dátovej analýzy. Bez ohľadu na to, či pracujeme s malým CSV súborom alebo s veľkým databázovým exportom, vždy je potrebné dáta najskôr načítať, pochopiť, vyčistiť a upraviť do použiteľnej podoby.

Najskôr si vytvoríme modelovú dátovú sadu s ktorou budeme pracovať počas celého článku:

order_id

customer

product

price

Date

1

Peter

Notebook

1100

11.10.2025

2

Michal

Myš

15

11.10.2025

3

Eva

Monitor

420

11.10.2025

4

Michal

Klávesnica

25

11.10.2025

5

Lucia

Slúchadlá

80

11.10.2025

Popis:

order_id – identifikátor objednávky
customer – meno zákazníka
product – názov produktu
price – cena v EUR
date – dátum objednávky

Dátovú sadu si treba uložiť do súboru data.csv.

V nasledujúcej časti si krok za krokom ukážeme, ako dáta načítať, skontrolovať ich štruktúru a začať s ich spracovaním pomocou knižnice Pandas.

Dôležité: Aj keď sa na stránke zobrazia úvodzovky ako „text“, pri písaní zdrojového kódu v jazyku Python vždy používajte "text", inak kód nebude fungovať správne.

1/ Import knižnice a načítanie dát

Prvým krokom pri práci s dátami s knižnicou Pandas, je ich načítanie do tabuľky s dátami. Táto tabuľka s dátami je tabuľková dátová štruktúra, podobná Excelu alebo databázovej tabuľke, s ktorou Pandas pracuje. Najčastejším formátom vstupných dát je CSV súbor.

import pandas as pd
df = pd.read_csv(„data.csv“)
df.head()
# výsledkom je tabuľka s piatimi prvými riadkami dátovej sady, kde vidíme názvy stĺpcov aj príklady hodnôt

Po načítaní dát pomocou funkcie read_csv() je vhodné si hneď na začiatku overiť, či sa dáta načítali správne. Funkcia head() zobrazí prvých päť riadkov dátovej sady, vďaka čomu rýchlo je vidieť názvy stĺpcov vrátane ukážky hodnôt.

 

2/ Základná kontrola dát pre rýchle zistenie chýbajúcich alebo nesprávnych hodnôt

Kontrola dát je jeden z najdôležitejších krokov v dátovej analýze. V reálnych dátach sa často nachádzajú chýbajúce hodnoty, nesprávne dátové typy alebo nekonzistentné záznamy. Pomocou nasledujúcich funkcií je možné rýchlo urobiť základný prehľad o kvalite dát.

df.info()
df.describe()
df.isnull().sum()
# info() – pomáha odhaliť nesprávne typy stĺpcov, napr. ak čísla sú načítané ako text
# describe() – štatistiky pre numerické stĺpce
# isnull().sum() – počet chýbajúcich hodnôt
# výsledkom je rýchly prehľad dát: typy stĺpcov, počet hodnôt, štatistiky a počet chýbajúcich hodnôt

Tieto príkazy umožnia zistiť, ktoré stĺpce obsahujú chýbajúce hodnoty, aké dátové typy Pandas automaticky priradil a tiež, či numerické stĺpce obsahujú očakávané hodnoty. Práve v tomto kroku sa často odhalia prvé problémy v dátach.

 

3/ Výber stĺpcov a riadkov (rýchle filtrovanie a výber dát)

Pri práci s dátami zvyčajne nie je potrebné pracovať so všetkými stĺpcami naraz. Knižnica Pandas umožňuje veľmi jednoducho vybrať konkrétne stĺpce alebo filtrovať riadky na základe podmienky, napríklad podľa ceny alebo názvu produktu.

# vyber stĺpce
df[[‚product‘, ‚price‘]]
# vyber riadky podľa podmienky
df[df[‚price‘] > 100]
# výstupom je vybraná časť tabuľky: konkrétne stĺpce alebo riadky, ktoré spĺňajú zadanú podmienku

Toto filtrovanie je užitočné napríklad pri hľadaní drahších produktov, analýze konkrétneho typu objednávok alebo príprave dát pre ďalší výpočet.

 

4/ Základné operácie s dátami

Knižnica Pandas poskytuje množstvo vstavaných funkcií na rýchle výpočty nad dátami. Medzi najčastejšie používané patria súčty, priemery, počty unikátnych hodnôt alebo zoskupovanie dát podľa kategórií.

# súčet, priemer
df[‚price‘].sum()
df[‚price‘].mean()
# počet unikátnych hodnôt
df[‚product‘].nunique()
# analýza dát podľa kategórií
df.groupby(‚product‘)[‚price‘].sum()
# výstupom sú jednoduché štatistiky: súčet, priemer, počet unikátnych produktov a celková cena podľa produktov

Výsledkom týchto funkcií môžu byť napríklad informácie o celkovom obrate, priemernej cene produktov alebo prehľad tržieb podľa jednotlivých produktov. Takéto výstupy sa často používajú v reportoch alebo pri rozhodovaní v obchode.

 
5/ Práca s chýbajúcimi hodnotami

Chýbajúce hodnoty sú v podstate bežnou súčasťou reálnych dát. Ak s nimi nepracujeme správne, môžu výrazne skresliť výsledky analýzy. Knižnica Pandas ponúka viacero možností, ako sa s nimi vysporiadať a to buď ich doplniť, alebo odstrániť.

# doplniť priemernou hodnotou
df[‚price‘].fillna(df[‚price‘].mean(), inplace=True)
# odstrániť riadky s chýbajúcimi hodnotami
df.dropna(inplace=True)
# výsledkom je upravená tabuľka, kde chýbajúce hodnoty sú doplnené priemerom alebo odstránené

Voľba správneho postupu závisí od konkrétneho problému a tiež typu dát. V praxi je dôležité vždy zvážiť, ktoré doplnenie alebo odstránenie dát dáva zmysel práve z analytického hľadiska.

 

6/ Pridávanie a transformácia stĺpcov

Pridávanie nových stĺpcov sa často používa pri výpočtoch zliav, daní alebo iných odvodených hodnôt. Konverzia dátumu do formátu datetime, je zároveň nevyhnutná, ak chceme s dátumami ďalej pracovať a to napríklad pri časových analýzach.

# nový stĺpec s cenou po zľave
df[‚discounted_price‘] = df[‚price‘] * 0.9
# konverzia dátumu
df[‚date‘] = pd.to_datetime(df[‚date‘])
# výstupom je tabuľka s novým stĺpcom so zľavnenou cenou a dátumom prevedeným do správneho formátu

 
7/ Zoradenie dát pre rýchle zistenie najdrahších alebo najlacnejších položiek

df.sort_values(by=’price‘, ascending=False)
# výsledkom je tabuľka zoradená od najdrahších po najlacnejšie produkty

 

Najčastejšie chyby začiatočníkov pri práci s knižnicou Pandas:

  • použitie nesprávnych úvodzoviek namiesto štandardných
  • nenačítanie dátumu ako typu datetime
  • práca s číselnými hodnotami ako s textom
  • vynechanie kontroly chýbajúcich hodnôt
  • úprava dát bez uloženia výsledku späť do dátovej tabuľky

 

V tomto článku sme si ukázali základné techniky práce s dátami v knižnici Pandas, od načítania CSV súboru, cez kontrolu dát až po jednoduché analýzy a úpravy. Tieto kroky tvoria základ takmer každej dátovej analýzy v jazyku Python.

V ďalšom kroku je možné tieto dáta vizualizovať pomocou knižníc Matplotlib alebo Seaborn, prípadne ich použiť ako vstup pre pokročilejšiu analýzu alebo strojové učenie.