MySQL: Először szűrni és az eredményt JOIN-olni, howto?

Van egy főtábla (`employees`):

emp_no	int(11)	
birth_date	date	
first_name	varchar(14)	
last_name	varchar(16)	
gender	enum('M','F')	
hire_date	date

Egy segédtábla (`titles`):

emp_no	int(11)	
title	varchar(50)	
from_date	date	
to_date	date NULL

És egy másik segédtábla (`salaries`):

emp_no	int(11)	
salary	int(11)	
from_date	date	
to_date	date

Mind a két segédtáblában foreign key az `emp_no`. A szűrés és lekérdezés megy így is:

SELECT `employees`.*, `titles`.`title`, `salaries`.`salary`
FROM `employees`
LEFT JOIN `titles` ON
	(`titles`.`emp_no` = `employees`.`emp_no`) AND
	(`titles`.`from_date` = (SELECT MAX(`from_date`) FROM `titles` WHERE `titles`.`emp_no` = `employees`.`emp_no`))
LEFT JOIN `salaries` ON
	(`salaries`.`emp_no` = `employees`.`emp_no`) AND
	(`salaries`.`from_date` = (SELECT MAX(`from_date`) FROM `salaries` WHERE `salaries`.`emp_no` = `employees`.`emp_no`))
WHERE (`titles`.`title`='Staff') AND (`salaries`.`salary`>='120000')
LIMIT 0, 20

De ez így nagyon lassú, 4-5 másodperceket kotorászik, pedig alig hárommillió rekord van a `salaries`-ben, négyszázezer a `titles`-ben és háromszázezer az `employees`-ben. (Ha pedig még sorrendezés is kerül bele, akkor aztán több, mint 10 másodperc...)

Próbáltam így is

SELECT `employees`.*, `titles`.`title`, `salaries`.`salary`
FROM `employees`
LEFT JOIN `titles` ON
	(`titles`.`emp_no` = `employees`.`emp_no`) AND
	(`titles`.`from_date` = (SELECT MAX(`from_date`) FROM `titles` WHERE `titles`.`emp_no` = `employees`.`emp_no`))
LEFT JOIN `salaries` ON
	(`salaries`.`emp_no` = `employees`.`emp_no`) AND
	(`salaries`.`from_date` = (SELECT MAX(`from_date`) FROM `salaries` WHERE `salaries`.`emp_no` = `employees`.`emp_no`))
WHERE `employees`.`emp_no` IN
(
	SELECT `ut`.`emp_no` FROM
	(
		(SELECT `titles`.`emp_no` FROM `titles` WHERE `titles`.`title`='Staff')
		UNION
		(SELECT `salaries`.`emp_no` FROM `salaries` WHERE `salaries`.`salary`>='100000')
	) `ut`
)
LIMIT 0, 20

viszont így nem jó a végeredmény, rossz értékek jelennek meg a szűrt oszlopokban. Próbáltam úgy is, hogy először megszűröm az eredményt és aztán JOIN-olok

SELECT `employees`.*, `titles`.`title`, `salaries`.`salary` FROM
(
	SELECT * FROM `employees`
	WHERE `employees`.`emp_no` IN
	(
		SELECT `ut`.`emp_no` FROM
		(
			(SELECT `titles`.`emp_no` FROM `titles` WHERE `titles`.`title`='Staff')
			UNION
			(SELECT `salaries`.`emp_no` FROM `salaries` WHERE `salaries`.`salary`>='100000')
		) `ut`
	)
) AS `employees`
LEFT JOIN `titles` ON
	(`titles`.`emp_no` = `employees`.`emp_no`) AND
	(`titles`.`from_date` = (SELECT MAX(`from_date`) FROM `titles` WHERE `titles`.`emp_no` = `employees`.`emp_no`))
LEFT JOIN `salaries` ON
	(`salaries`.`emp_no` = `employees`.`emp_no`) AND
	(`salaries`.`from_date` = (SELECT MAX(`from_date`) FROM `salaries` WHERE `salaries`.`emp_no` = `employees`.`emp_no`))
LIMIT 0, 20

de dettó rossz adatok jöttek ki.

Sajnos már vagy 8-10 év óta nem foglalkoztam SQL-lel a sima SELECT/INSERT/UPDATE/DELETE szinten túl, így keresni is hiába kerestem, mert igazából nem tudom, hogy mit keressek.
Hogyan lehet ezt tisztességesen megcsinálni, hogy előbb leválogatja a két segédtáblából azokat a sorokat, amik érintettek és csak azokat kérje le a főtáblából, amik csatolhatóak?

MySQL-t ~~sajnos~~ hál' Istennek sosem kellett élesben használnom, de amik dialektustól függetlenül eszembe jutnak (csak a helyes eredményt mutató query-t megnézve):

1) Én megpróbálnám, hogy nem az egész táblával JOIN-olok, hanem egy subquery-vel, ami eleve csak azokat tölti be a két segédtáblából, amire szükség van

2) Ha van ráhatásod a DB struktúrára, akkor megfontolhatod a DB-t denormalizálva a current_title és current_salary mezőket letárolni az employee táblában. (Ofc erről az adatbázis kliensnek is tudnia kell, vagy DB oldalon csinálod meg, hogy ott legyen a cache)

3) from_date ha nincs indexelve, az is megér egy próbát

Imho itt a bottleneck az egyes pont: a hárommillió soros tábla minden soránál kétszer nyálazod végig mindkét segédtáblát ahelyett, hogy egyszer csinálnád meg a segédtáblás lekérdezést (emp_no, title, MAX(from_date)), és onnan szednéd ki, ami kell.

szerk: aztán persze ki tudja, nálam eddig kb. 70% T-SQL, 29% PL/SQL, 1% egyéb :)

1 szavazat

A hozzászóláshoz be kell jelentkezni

1) Így gondoltad?

SELECT `employees`.*, `titles_t`.`title`, `salaries_t`.`salary`, `departments`.`dept_name`, `departments`.`dept_no`
FROM `employees`
LEFT JOIN
(
	SELECT `titles`.`emp_no`, `titles`.`title`, MAX(`titles`.`from_date`) FROM `titles` GROUP BY `titles`.`emp_no`
) AS `titles_t` ON (`titles_t`.`emp_no` = `employees`.`emp_no`)
LEFT JOIN
(
	SELECT `salaries`.`emp_no`, `salaries`.`salary`, MAX(`salaries`.`from_date`) FROM `salaries` GROUP BY `salaries`.`emp_no`
) AS `salaries_t` ON (`salaries_t`.`emp_no` = `employees`.`emp_no`)
WHERE (`titles_t`.`title`='Senior Engineer') AND (`salaries_t`.`salary`<'100000')
ORDER BY `salaries_t`.`salary` DESC
LIMIT 0, 20

Mert így kb. a 2x-esére gyorsult és a sorrendezéssel sem sokkal lassabb, így kb. 1-2-3 sec, amíg bejön. Köszi a tippet.

2) Nincsen. Ez most localban van, de ahol majd tesztelni fogják, ott az a DB felállás lesz, ahogy most van. Amúgy nekem is az első gondolatom az lett volna, hogy csinálok egy redundáns tárolótáblát, a pillanatnyi értékekkel, dehát ez itt nem játszik.

3) De az indexelve van. A `salary` nincs és a `title` sem, de utóbbira már nem is tudnék FULLTEXT-et nyomni, mert az InnoDB csak kreáláskor engedi, a kreálást pedig nem én végzem: importálni kell. :( A `salary`-ra rakhatnék, de ld. 2)-es pont.

Valószínűleg igazad van, mert így jelentősen gyorsabb lett. Még majd bütykölöm, hátha bírok rajta valamit csinálni, de a lényeg, amit a topiccímben is feltettem, az előszűrés már megvan, úgyhogy, thx again.

MySQL: Először szűrni és az eredményt JOIN-olni, howto?

Hozzászólások