( golgota | 2024. 02. 26., h – 17:05 )

Kepzeld el, hogy az adatod nem rendelkezik schema-val. Igen tudom, hogy akkor basszuk bele egy JSON mezobe az RDBMS-be. Azt is lehet

Mi peldaul 37 TB-os clustert uzemeltettunk az egyik cegnel, ahol nagyjabol 150K+ dokumentum ment bele masodpercenkent es mondjuk 50K+ lekerdezes volt (jo vannak sajat query cache implementacionk is, szoval ezert csak ennyi). Igazabol a shard mereteket volt nehez eltalalni. Hogy stabilla tegyuk az egeszet. 

Na mikor kieserr egy-ket node (ami elofordult viszonylag gyakran), akkor szepen kavet zsurcsolgetve mosolyogva beallitottunk helyettuk node-okat mintha mi sem tortent volna. Menet kozben meg is szoktuk updatelni azt a majd 100 node-ot minden gond es leallas nelkul, mert az ES szepen kezeli.

Ezen felul voltak warm es cold node-jaink, ahol automatikusan rontottuk a granuralitast (a masodperces adatokat egy het utan percesse alakitva taroljuk ott, harom havonta napra rontjuk, stb stb)

Van hogy neha szarul kuldtek az adatot es a mapping nem megfelelo volt, akkor hozza kellet nyulni (ment egy reprocess az eppen aktualis index shardjara), de amugy szepen tette/teszi a dolgat az egesz hobelebanc.

Amugy ES-nek is van SQl query nyelve, meg meg piped is a JSON/KQL/EQL-en es a Lucene-en kivul.