SQL a základy práce s dátami

sql zaklady

V minulom článku sme si popísali typy dátových súborov, dnes sa pozrieme na základy práce s dátami pri použití jazyka SQL. V článku používam zjednodušenú dátovú sadu a jednotlivé SQL dotazy slúžia na vysvetlenie základných princípov práce s dátami. V praxi sa môžu názvy tabuliek a stĺpcov samozrejme líšiť, ale postup zostáva rovnaký.

SQL patrí medzi najdôležitejšie technológie v oblasti dátovej analýzy, business intelligence a správy databáz. Kto chce pracovať ako dátový analytik, dátový vedec alebo BI špecialista, znalosť SQL je nevyhnutná.

V tomto článku si vysvetlíme čo je jazyk SQL, ako funguje práca s dátami v databáze a ako vyzerajú základné analytické dotazy používané v dátovej analýze. SQL je základný nástroj každého dátového analytika a dátového vedca, pretože umožňuje efektívne pracovať s veľkými objemami dát.

1/ Čo je SQL

Jazyk SQL (angl. Structured Query Language) je jeden z najdôležitejších nástrojov dátového vedca, štandardizovaný jazyk určený na prácu s relačnými databázami. Väčšina dát v reálnych firmách je uložená v databázach a práve SQL je jazyk, ktorým sa k týmto dátam môžeme dostať.

SQL je jazyk, ktorý slúži na:

  • čítanie dát z databáz
  • filtrovanie a triedenie dát
  • agregáciu (počítanie, priemerovanie, sčítanie)
  • spájanie tabuliek
  • prípravu dát pre ďalšiu analýzu

SQL je teda jazyk, ktorým sa „pýtame“ databázy na konkrétne dáta.

Bez znalosti jazyka SQL je práca s dátami vo firemnom prostredí veľmi obmedzená. Väčšina reportov, dashboardov a analytických výstupov (napr. v Microsoft Power BI alebo Tableau) je postavená práve na SQL dotazoch.

2/ Dátová sada a tabuľka (modelový príklad)

Ako modelový príklad by som použil tabuľku s predajom tovaru.

order_id customer product price date
1 Anna Notebook 900 10.8.2025
2 Peter Klávesnica 25 22.8.2025
3 Peter Myš 10 22.8.2025
4 Eva Monitor 220 25.8.2025

Táto tabuľka predstavuje našu dátovú sadu uloženú v databáze (napríklad MySQL alebo PostgreSQL). V reálnej praxi môže mať tabuľka tisíce až milióny riadkov a práve preto je SQL také dôležité, lebo umožňuje pracovať s veľkým objemom dát efektívne a bez nutnosti exportovať celé dáta do Excelu.

3/ Základné SQL dotazy

Načítanie dát cez príkaz SELECT

SELECT *
FROM sales;

Tento dotaz načíta všetky riadky zo všetkých dostupných stĺpcov tabuľky s názvom sales. Symbol * znamená „všetky stĺpce“. V praxi sa však odporúča vyberať len potrebné stĺpce, aby bol dotaz efektívnejší (t.j. neodporúča sa používať SELECT *).

Výber konkrétnych stĺpcov

SELECT product, price
FROM sales;

Tento zápis sa používa vtedy, keď nie je potrebné načítať celú dátovú sadu (ako je to v príklade vyššie), ale iba konkrétne informácie a to znamená že nebol použitý SELECT *.

Filtrovanie dát cez príkaz WHERE

SELECT *
FROM sales
WHERE price > 100;

V tomto príklade sa zobrazia len produkty, ktoré sú drahšie ako 100 €. Filtrovanie je veľmi dôležité pri práci s veľkými dátami, pretože výrazne znižuje množstvo spracovávaných údajov. Podmienky je možné kombinovať pomocou operátorov AND a OR.

Triedenie dát cez príkaz ORDER BY

SELECT *
FROM sales
ORDER BY price DESC;

Tu sa zoradia produkty od najdrahších po najlacnejšie.

4/ Agregácia dát

Agregačné funkcie umožňujú sumarizovať veľké množstvo dát do jedného prehľadného výsledku.

Sumarizácia dát (počet objednávok)

SELECT COUNT(*) AS pocet_objednavok
FROM sales;

Súčet tržieb

SELECT SUM(price) AS trzby
FROM sales;

Zistenie priemeru

SELECT AVG(price) AS priemerna_cena
FROM sales;

Agregačné funkcie umožňujú sumarizovať veľké množstvo dát do jedného prehľadného výsledku. Tieto funkcie sú základom každej dátovej analýzy.

5/ Zoskupovanie dát s použitím GROUP BY

Zistenie, ktoré produkty generujú najvyššie tržby

SELECT product, SUM(price) AS trzby
FROM sales
GROUP BY product;

Zistenie, v ktorý deň boli najvyššie tržby (podľa dátumu)

SELECT date, SUM(price) AS trzby
FROM sales
GROUP BY date
ORDER BY trzby DESC;

Príkaz GROUP BY umožňuje analyzovať dáta podľa kategórií (produkt, dátum, zákazník). Ide o jeden z najpoužívanejších analytických nástrojov v SQL. Bez GROUP BY by nebolo možné vytvárať reporty typu tržby podľa mesiaca, predaj podľa regiónu alebo počet objednávok podľa zákazníka.

6/ Prečo je SQL kľúčové pre dátového analytika?

Jazyk SQL je kľúčový pre dátových vedcov a analytikov, pretože pracuje priamo s veľkými dátovými sadami, šetrí čas (umožňuje filtrovať dáta ešte pred ich exportom), je štandardom vo väčšine firiem a funguje v kombinácii s nástrojmi ako Python, Power BI alebo Tableau.

SQL sa používa takmer vo všetkých odvetviach, ako je napríklad bankovníctvo, e-commerce, logistika, zdravotníctvo alebo výroba. Bez základnej znalosti SQL sa dátový analytik nezaobíde. V praxi analytik často kombinuje SQL s jazykom Python (napr. knižnica Pandas) alebo s BI nástrojmi, kde SQL dotaz tvorí základ dátového modelu.

SQL predstavuje základ práce s dátami v databázach. Umožňuje efektívne filtrovať, triediť, agregovať a analyzovať dáta ešte predtým, než budú použité v analytických nástrojoch alebo vizualizáciách. Pre každého, kto chce začať s dátovou analýzou, je zvládnutie základných SQL dotazov ako SELECT, WHERE, GROUP BY alebo ORDER BY je prvým krokom k profesionálnej práci s dátami.

 

Tento článok je súčasťou série o SQL pre dátových analytikov. V ďalšej časti sa budeme venovať spájaniu tabuliek pomocou príkazu JOIN, poddotazom a indexom, ktoré patria medzi kľúčové nástroje pri práci s relačnými databázami a veľkými dátovými sadami.


Zaujal Vás článok?  

Zvážte možnosť jeho zdieľania na sociálnych sieťach alebo sa podeľte o svoj názor a pripomienky k článku a to odoslaním správy na e-mailovú adresu info@dataspark.sk.