Python a práca s dátami

python data

Dnešný článok je určený pre začiatočníkov v jazyku Pythone a dátovej analýze, ktorí sa chcú naučiť pracovať s dátami pomocou knižnice Pandas. Ukážeme si, ako načítať CSV súbor, skontrolovať jeho štruktúru, filtrovať dáta a pripraviť ich na ďalšiu analýzu alebo vizualizáciu.

Nadväzujem teda na úvod do programovacieho jazyka Python, kde sme si vysvetlili základné princípy práce s týmto jazykom. Teraz sa zameriame na praktickú oblasť práce s dátami, ktorá patrí medzi najdôležitejšie zručnosti v dátovej vede, analytike aj business reportingu. Príklady vychádzajú z jednoduchej objednávkovej dátovej sady, ktorá reprezentuje typ údajov, s ktorými sa možno stretnúť, napríklad pri analýze predajov alebo zákazníckeho správania.

Programovací jazyk Python patrí dnes medzi najpoužívanejšie jazyky v oblasti dátovej vedy. Práca s dátami je základom pre každú dátovú analýzu. Bez ohľadu na to, či pracujeme s malým CSV súborom alebo s veľkým databázovým exportom, vždy je potrebné dáta najskôr načítať, pochopiť ich štruktúru, vyčistiť a upraviť ich do použiteľnej podoby.

Modelová dátová sada

Najskôr si vytvoríme modelovú dátovú sadu s ktorou budeme pracovať počas celého článku.

order_id

customer

product

price

Date

1

Peter

Notebook

1100

11.10.2025

2

Michal

Myš

15

11.10.2025

3

Eva

Monitor

420

11.10.2025

4

Michal

Klávesnica

25

11.10.2025

5

Lucia

Slúchadlá

80

11.10.2025

Popis:

order_id – identifikátor objednávky
customer – meno zákazníka
product – názov produktu
price – cena v EUR
date – dátum objednávky

Dátovú sadu si treba uložiť do súboru data.csv.

V nasledujúcej časti si krok za krokom ukážeme, ako dáta načítať, skontrolovať štruktúru a začať s ich spracovaním pomocou knižnice Pandas.

Dôležité: Aj keď sa na tejto stránke zobrazia úvodzovky ako „text“ alebo ‚text‘, pri písaní zdrojového kódu v jazyku Python vždy používajte bežné ASCII úvodzovky "text" alebo ‘text‘, inak kód nebude fungovať správne.

 
1/ Import knižnice a načítanie dát

Prvým krokom pri práci s dátami s knižnicou Pandas, je ich načítanie do tabuľky s dátami. Táto tabuľka s dátami je tabuľková dátová štruktúra, podobná Excelu alebo databázovej tabuľke, s ktorou Pandas pracuje. Najčastejším formátom vstupných dát je CSV súbor.

import pandas as pd
df = pd.read_csv(„data.csv“)
df.head()
# read_csv() – načíta CSV súbor do objektu typu DataFrame
# read_csv() – zobrazí prvých päť riadkov dátovej sady

DataFrame je tabuľková dátová štruktúra podobná Excelu alebo databázovej tabuľke. Po načítaní dát pomocou funkcie read_csv() je vhodné si hneď na začiatku overiť, či sa dáta načítali správne. 

2/ Základná kontrola dát pre rýchle zistenie chýbajúcich alebo nesprávnych hodnôt

Kontrola dát je jeden z najdôležitejších krokov v dátovej analýze. V reálnych dátach sa často nachádzajú chýbajúce hodnoty, nesprávne dátové typy alebo nekonzistentné záznamy. Pomocou nasledujúcich funkcií je možné rýchlo urobiť základný prehľad o kvalite dát.

df.info()
df.describe()
df.isnull().sum()
# info() – zobrazí dátové typy a počet hodnôt a  pomáha odhaliť chyby, napr. ak sa čísla načítali ako text
# describe() – štatistiky pre numerické stĺpce
# isnull().sum() – počet chýbajúcich hodnôt

Tieto príkazy umožňujú identifikovať prvotné problémy v dátach, ako sú chýbajúce hodnoty, nesprávne nastavené dátové typy, neúplné údaje alebo výskyt extrémnych alebo podozrivých hodnôt.

3/ Výber stĺpcov a riadkov (rýchle filtrovanie a výber dát)

Pri práci s dátami zvyčajne nie je potrebné pracovať so všetkými stĺpcami naraz. Knižnica Pandas umožňuje veľmi jednoducho vybrať konkrétne stĺpce alebo filtrovať riadky na základe podmienky, napríklad podľa ceny alebo názvu produktu.

# výber konkrétnych stĺpcov
df[[‚product‘, ‚price‘]]
# filtrovanie podľa podmienky
df[df[‚price‘] > 100]

Filtrovanie podľa zadanej podmienky predstavuje základ každej analýzy, pretože je to užitočné napríklad pri vyhľadávaní drahších produktov, analýze konkrétneho typu objednávok alebo príprave dát pre ďalší výpočet.

4/ Základné výpočty a agregácie

Knižnica Pandas poskytuje množstvo vstavaných funkcií na rýchle výpočty nad dátami. Medzi najčastejšie používané patria súčty, priemery, počty unikátnych hodnôt alebo zoskupovanie dát podľa kategórií.

# súčet, priemer
df[‚price‘].sum()
df[‚price‘].mean()
# počet unikátnych hodnôt
df[‚product‘].nunique()
# analýza dát podľa kategórií
df.groupby(‚product‘)[‚price‘].sum()

Tieto funkcie umožňujú zistiť celkový obrat, priemernú cenu, počet unikátnych produktov alebo tržby podľa produktov. Funkcia groupby() patrí medzi najdôležitejšie nástroje v knižnici Pandas a využíva sa pri reportingu aj obchodnej analýze. V reálnej firme by toto predstavovalo výpočet tržieb podľa kategórie produktu a to je základný report pre obchodné oddelenie.

5/ Práca s chýbajúcimi hodnotami

Chýbajúce hodnoty sú v podstate bežnou súčasťou reálnych dát. Ak s nimi nepracujeme správne, môžu výrazne ovplyvniť výsledky analýzy. Knižnica Pandas ponúka viacero možností, ako sa s nimi vysporiadať a to buď ich doplniť, alebo odstrániť. 

# doplniť priemernou hodnotou
df[‚price‘].fillna(df[‚price‘].mean(), inplace=True)
# odstrániť riadky s chýbajúcimi hodnotami
df.dropna(inplace=True)
# výsledkom je upravená tabuľka, kde chýbajúce hodnoty sú doplnené priemerom alebo odstránené

Voľba správneho postupu závisí od konkrétneho problému a tiež typu dát. Dôležité je ale uvedomiť si, že správne riešenie vždy závisí od kontextu analýzy, pretože niekedy odstránenie dát môže skresliť výsledky.

6/ Pridávanie a transformácia stĺpcov

Pridávanie nových stĺpcov sa často používa pri výpočtoch zliav, daní alebo iných odvodených hodnôt. Konverzia dátumu do formátu datetime, je zároveň nevyhnutná, ak chceme s dátumami ďalej pracovať a to napríklad pri časových analýzach.

# nový stĺpec s cenou po zľave
df[‚discounted_price‘] = df[‚price‘] * 0.9
# konverzia dátumu
df[‚date‘] = pd.to_datetime(df[‚date‘])

Výstupom je tabuľka s novým stĺpcom so zľavnenou cenou a dátumom prevedeným do správneho formátu Bez konverzie na datetime nie je možné efektívne robiť časové analýzy (napr. mesačné alebo ročné porovnania).

7/ Zoradenie dát

df.sort_values(by=’price‘, ascending=False)

Výsledkom je tabuľka zoradená od najdrahších po najlacnejšie produkty.

Najčastejšie chyby začiatočníkov pri práci s knižnicou Pandas:

  • použitie nesprávnych úvodzoviek namiesto štandardných
  • nenačítanie dátumu ako typu datetime
  • práca s číselnými hodnotami ako s textom
  • vynechanie kontroly chýbajúcich hodnôt
  • úprava dát bez uloženia výsledku späť do dátovej tabuľky

 

V tomto článku sme si ukázali základné techniky práce s dátami v knižnici Pandas, od načítania CSV súboru, cez kontrolu dát až po jednoduché analýzy a úpravy. Tieto kroky tvoria základ takmer každej dátovej analýzy v jazyku Python.

V ďalšom článku sa pozrieme na vizualizáciu dát pomocou knižníc Matplotlib a Seaborn, kde si ukážeme, ako z dát vytvoriť prehľadné grafy a reporty.


Zaujal Vás článok?  

Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.