V minulom článku sme si popísali typy dátových súborov, dnes sa pozrieme na základy práce s dátami pri použití jazyka SQL. V článku používam zjednodušenú dátovú sadu a jednotlivé SQL dotazy slúžia na vysvetlenie základných princípov práce s dátami. V praxi sa môžu názvy tabuliek a stĺpcov samozrejme líšiť, ale postup zostáva rovnaký.
SQL patrí medzi najdôležitejšie technológie v oblasti dátovej analýzy, business intelligence a správy databáz. Kto chce pracovať ako dátový analytik, dátový vedec alebo BI špecialista, znalosť SQL je nevyhnutná.
V tomto článku si vysvetlíme čo je jazyk SQL, ako funguje práca s dátami v databáze a ako vyzerajú základné analytické dotazy používané v dátovej analýze. SQL je základný nástroj každého dátového analytika a dátového vedca, pretože umožňuje efektívne pracovať s veľkými objemami dát.
1/ Čo je SQL
Jazyk SQL (angl. Structured Query Language) je jeden z najdôležitejších nástrojov dátového vedca, štandardizovaný jazyk určený na prácu s relačnými databázami. Väčšina dát v reálnych firmách je uložená v databázach a práve SQL je jazyk, ktorým sa k týmto dátam môžeme dostať.
SQL je jazyk, ktorý slúži na:
- čítanie dát z databáz
- filtrovanie a triedenie dát
- agregáciu (počítanie, priemerovanie, sčítanie)
- spájanie tabuliek
- prípravu dát pre ďalšiu analýzu
SQL je teda jazyk, ktorým sa „pýtame“ databázy na konkrétne dáta.
Bez znalosti jazyka SQL je práca s dátami vo firemnom prostredí veľmi obmedzená. Väčšina reportov, dashboardov a analytických výstupov (napr. v Microsoft Power BI alebo Tableau) je postavená práve na SQL dotazoch.
2/ Dátová sada a tabuľka (modelový príklad)
Ako modelový príklad by som použil tabuľku s predajom tovaru.
| order_id | customer | product | price | date |
| 1 | Anna | Notebook | 900 | 10.8.2025 |
| 2 | Peter | Klávesnica | 25 | 22.8.2025 |
| 3 | Peter | Myš | 10 | 22.8.2025 |
| 4 | Eva | Monitor | 220 | 25.8.2025 |
Táto tabuľka predstavuje našu dátovú sadu uloženú v databáze (napríklad MySQL alebo PostgreSQL). V reálnej praxi môže mať tabuľka tisíce až milióny riadkov a práve preto je SQL také dôležité, lebo umožňuje pracovať s veľkým objemom dát efektívne a bez nutnosti exportovať celé dáta do Excelu.
3/ Základné SQL dotazy
Načítanie dát cez príkaz SELECT
SELECT *
FROM sales;
Tento dotaz načíta všetky riadky zo všetkých dostupných stĺpcov tabuľky s názvom sales. Symbol * znamená „všetky stĺpce“. V praxi sa však odporúča vyberať len potrebné stĺpce, aby bol dotaz efektívnejší (t.j. neodporúča sa používať SELECT *).
Výber konkrétnych stĺpcov
SELECT product, price
FROM sales;
Tento zápis sa používa vtedy, keď nie je potrebné načítať celú dátovú sadu (ako je to v príklade vyššie), ale iba konkrétne informácie a to znamená že nebol použitý SELECT *.
Filtrovanie dát cez príkaz WHERE
SELECT *
FROM sales
WHERE price > 100;
V tomto príklade sa zobrazia len produkty, ktoré sú drahšie ako 100 €. Filtrovanie je veľmi dôležité pri práci s veľkými dátami, pretože výrazne znižuje množstvo spracovávaných údajov. Podmienky je možné kombinovať pomocou operátorov AND a OR.
Triedenie dát cez príkaz ORDER BY
SELECT *
FROM sales
ORDER BY price DESC;
Tu sa zoradia produkty od najdrahších po najlacnejšie.
4/ Agregácia dát
Agregačné funkcie umožňujú sumarizovať veľké množstvo dát do jedného prehľadného výsledku.
Sumarizácia dát (počet objednávok)
SELECT COUNT(*) AS pocet_objednavok
FROM sales;
Súčet tržieb
SELECT SUM(price) AS trzby
FROM sales;
Zistenie priemeru
SELECT AVG(price) AS priemerna_cena
FROM sales;
Agregačné funkcie umožňujú sumarizovať veľké množstvo dát do jedného prehľadného výsledku. Tieto funkcie sú základom každej dátovej analýzy.
5/ Zoskupovanie dát s použitím GROUP BY
Zistenie, ktoré produkty generujú najvyššie tržby
SELECT product, SUM(price) AS trzby
FROM sales
GROUP BY product;
Zistenie, v ktorý deň boli najvyššie tržby (podľa dátumu)
SELECT date, SUM(price) AS trzby
FROM sales
GROUP BY date
ORDER BY trzby DESC;
Príkaz GROUP BY umožňuje analyzovať dáta podľa kategórií (produkt, dátum, zákazník). Ide o jeden z najpoužívanejších analytických nástrojov v SQL. Bez GROUP BY by nebolo možné vytvárať reporty typu tržby podľa mesiaca, predaj podľa regiónu alebo počet objednávok podľa zákazníka.
6/ Prečo je SQL kľúčové pre dátového analytika?
Jazyk SQL je kľúčový pre dátových vedcov a analytikov, pretože pracuje priamo s veľkými dátovými sadami, šetrí čas (umožňuje filtrovať dáta ešte pred ich exportom), je štandardom vo väčšine firiem a funguje v kombinácii s nástrojmi ako Python, Power BI alebo Tableau.
SQL sa používa takmer vo všetkých odvetviach, ako je napríklad bankovníctvo, e-commerce, logistika, zdravotníctvo alebo výroba. Bez základnej znalosti SQL sa dátový analytik nezaobíde. V praxi analytik často kombinuje SQL s jazykom Python (napr. knižnica Pandas) alebo s BI nástrojmi, kde SQL dotaz tvorí základ dátového modelu.
SQL predstavuje základ práce s dátami v databázach. Umožňuje efektívne filtrovať, triediť, agregovať a analyzovať dáta ešte predtým, než budú použité v analytických nástrojoch alebo vizualizáciách. Pre každého, kto chce začať s dátovou analýzou, je zvládnutie základných SQL dotazov ako SELECT, WHERE, GROUP BY alebo ORDER BY je prvým krokom k profesionálnej práci s dátami.
Tento článok je súčasťou série o SQL pre dátových analytikov. V ďalšej časti sa budeme venovať spájaniu tabuliek pomocou príkazu JOIN, poddotazom a indexom, ktoré patria medzi kľúčové nástroje pri práci s relačnými databázami a veľkými dátovými sadami.
Zaujal Vás článok?
Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.

