V minulom článku sme si popísali typy dátových súborov, dnes sa pozrieme na základy práce s dátami pri použití jazyka SQL. V článku používam zjednodušenú dátovú sadu a jednotlivé SQL dotazy slúžia na vysvetlenie základných princípov práce s dátami. V praxi sa môžu názvy tabuliek a stĺpcov samozrejme líšiť, ale postup zostáva rovnaký.
Dnes si teda povieme čo je to ten SQL jazyk, ako vyzerá práca s dátami v databáze a súčasne ako vyzerajú základné analytické dotazy.
Jazyk SQL (angl. Structured Query Language) je jeden z najdôležitejších nástrojov dátového vedca.
1/ Čo je SQL
Väčšina dát v reálnych firmách je uložená v databázach a práve SQL je jazyk, ktorým sa k týmto dátam môžeme dostať. SQL je jazyk, ktorý slúži na:
- čítanie dát z databáz
- filtrovanie a triedenie dát
- agregáciu (počítanie, priemerovanie)
- spájanie tabuliek
- prípravu dát pre analýzu
SQL je teda jazyk, ktorým sa pýtame databázy na dáta.
2/ Dátová sada a tabuľka (modelový príklad)
Ako príklad by som použil tabuľku pre predaj nejakého tovaru.
| order_id | customer | product | price | date |
| 1 | Anna | Notebook | 900 | 10.8.2025 |
| 2 | Peter | Klávesnica | 25 | 22.8.2025 |
| 3 | Peter | Myš | 10 | 22.8.2025 |
| 4 | Eva | Monitor | 220 | 25.8.2025 |
Táto tabuľka je teda naša dátová sada, ktorá je uložená v databáze.
A teraz uvediem niekoľko jednoduchých príkladov v jazyku SQL, čo by sa s dátami uloženými v databáze dalo robiť s použitím tohto jazyka:
Načítanie dát cez príkaz SELECT
SELECT *
FROM sales;
Tento dotaz načíta všetky riadky zo všetkých dostupných stĺpcov tabuľky s názvom sales.
Výber konkrétnych stĺpcov
SELECT product, price
FROM sales;
Tento zápis sa používa vtedy, keď nie je potrebné načítať celú dátovú sadu (ako je to v príklade vyššie), ale chcem len menší a prehľadnejší výstup.
Filtrovanie dát cez príkaz WHERE
SELECT *
FROM sales
WHERE price > 100;
V tomto príklade sa zobrazia len produkty, ktoré sú drahšie ako 100 €.
Triedenie dát cez príkaz ORDER BY
SELECT *
FROM sales
ORDER BY price DESC;
Tu sa zoradia dáta od najdrahších po najlacnejšie.
Sumarizácia dát
SELECT COUNT(*) AS pocet_objednavok
FROM sales;
Súčet tržieb
SELECT SUM(price) AS trzby
FROM sales;
Zistenie priemeru
SELECT AVG(price) AS priemerna_cena
FROM sales;
Zistenie, ktoré produkty generujú najviac tržby
SELECT product, SUM(price) AS trzby
FROM sales
GROUP BY product;
Zistenie, v ktorý deň boli najvyššie tržby
SELECT date, SUM(price) AS trzby
FROM sales
GROUP BY date
ORDER BY trzby DESC;
Na záver len niekoľko informácií.
Jazyk SQL je kľúčový pre dátových vedcov, pretože pracuje priamo s veľkými dátami, šetrí čas (filtruje ešte pred analýzou), je to štandard vo firmách a funguje napríklad s použitím programovacieho jazyka Python, alebo s nástrojmi ako je Power BI, alebo Tableau.
Bez jazyka SQL sa dátový vedec v praxi nezaobíde.

