SQL a základy práce s dátami

sql zaklady

V minulom článku sme si popísali typy dátových súborov, dnes sa pozrieme na základy práce s dátami pri použití jazyka SQL. V článku používam zjednodušenú dátovú sadu a jednotlivé SQL dotazy slúžia na vysvetlenie základných princípov práce s dátami. V praxi sa môžu názvy tabuliek a stĺpcov samozrejme líšiť, ale postup zostáva rovnaký.

Dnes si teda povieme čo je to ten SQL jazyk, ako vyzerá práca s dátami v databáze a súčasne ako vyzerajú základné analytické dotazy.

Jazyk SQL (angl. Structured Query Language) je jeden z najdôležitejších nástrojov dátového vedca.

1/ Čo je SQL

Väčšina dát v reálnych firmách je uložená v databázach a práve SQL je jazyk, ktorým sa k týmto dátam môžeme dostať. SQL je jazyk, ktorý slúži na:

  • čítanie dát z databáz
  • filtrovanie a triedenie dát
  • agregáciu (počítanie, priemerovanie)
  • spájanie tabuliek
  • prípravu dát pre analýzu

SQL je teda jazyk, ktorým sa pýtame databázy na dáta.

 

2/ Dátová sada a tabuľka (modelový príklad)

Ako príklad by som použil tabuľku pre predaj nejakého tovaru.

order_id customer product price date
1 Anna Notebook 900 10.8.2025
2 Peter Klávesnica 25 22.8.2025
3 Peter Myš 10 22.8.2025
4 Eva Monitor 220 25.8.2025

Táto tabuľka je teda naša dátová sada, ktorá je uložená v databáze.

A teraz uvediem niekoľko jednoduchých príkladov v jazyku SQL, čo by sa s dátami uloženými v databáze dalo robiť s použitím tohto jazyka:

Načítanie dát cez príkaz SELECT

SELECT *
FROM sales;

Tento dotaz načíta všetky riadky zo všetkých dostupných stĺpcov tabuľky s názvom sales.

Výber konkrétnych stĺpcov

SELECT product, price
FROM sales;

Tento zápis sa používa vtedy, keď nie je potrebné načítať celú dátovú sadu (ako je to v príklade vyššie), ale chcem len menší a prehľadnejší výstup.

Filtrovanie dát cez príkaz WHERE

SELECT *
FROM sales
WHERE price > 100;

V tomto príklade sa zobrazia len produkty, ktoré sú drahšie ako 100 €.

Triedenie dát cez príkaz ORDER BY

SELECT *
FROM sales
ORDER BY price DESC;

Tu sa zoradia dáta od najdrahších po najlacnejšie.

Sumarizácia dát

SELECT COUNT(*) AS pocet_objednavok
FROM sales;

Súčet tržieb

SELECT SUM(price) AS trzby
FROM sales;

Zistenie priemeru

SELECT AVG(price) AS priemerna_cena
FROM sales;

Zistenie, ktoré produkty generujú najviac tržby

SELECT product, SUM(price) AS trzby
FROM sales
GROUP BY product;

Zistenie, v ktorý deň boli najvyššie tržby

SELECT date, SUM(price) AS trzby
FROM sales
GROUP BY date
ORDER BY trzby DESC;

 

Na záver len niekoľko informácií.

Jazyk SQL je kľúčový pre dátových vedcov, pretože pracuje priamo s veľkými dátami, šetrí čas (filtruje ešte pred analýzou), je to štandard vo firmách a funguje napríklad s použitím programovacieho jazyka Python, alebo s nástrojmi ako je Power BI, alebo Tableau.

Bez jazyka SQL sa dátový vedec v praxi nezaobíde.