arpi_esp blogja

22 éves az MPEGplayer, az MPlayer őse...

Nézem minden nap itt trey történelmi posztjait, kb. minden nap XY éves lett valami, ami nem csoda ha azt nézzük hány ezer szoftvert írtak az elmúlt 20-30 évben ... szóval csupa történelmi mérföldkő :) erről eszembe jutott, hogy valamikor 2000 szeptemberben született meg az mplayer is, és sokáig minden évben "megünnepeltük", ami abból állt, hogy az eredeti magyar core team (én+Gabucino+Pontscho+LGB) összeültünk piálni dumálni. Mondjuk már az a kocsma-kávézó sincs meg jópár éve :(
 

Stable Diffusion Public Release

Biztos látott már mindenki az utóbbi hónapokban DALL-E vagy MidJourney AI szoftverek által generált képeket. Ha nem, akkor röviden a lényege: ezek text2image AI modellek, azaz szöveges utasítás ("prompt") alapján rajzolnak/generálnak képeket, amik sokszor nagyon ijesztőek máskor nagyon élethűek, vagy épp nagyon művésziek. Tegnap megjelent a legújabb ilyen AI szoftver, a Stable Diffusion, ami ráadásul opensource, a model pedig szabadon letölthető és használható, bár 10GB memóriás GPU erősen ajánlott hozzá:

https://stability.ai/blog/stable-diffusion-public-release

JPEG validator pythonban VS. truecolor terminal :)

Adódott egy probléma, kb 100 ezer jpg filét kellett volna ellenőrizni nem sérültek-e, anélkül hogy végignézném. A legtöbb képnéző / konvertáló / libjpeg viszont elég jól viseli a hibákat, és nem is nagyon lehet automatizáltan lekérdezni a kisebb sérüléseket, inkább kijavítják / átugorják. Elkezdtem hát írni egy jpg file parsert, már nem tudom miért, de pythonban ( ezt később megbántam )

Ekezetesito program :)

Ha mar ennyire (kovaszos) uborkaszezon van, elovettem egy regi otletem: irni egy olyan programot, ami ekezet nelkuli szoveget ekezetesit. Tuti irt mar valaki ilyet, hallottam mar olyanrol aki ismer olyat akinek az ukannya latott is talan valahol az erdoben, de en nem talaltam.

Az eredeti otletem az volt, hogy neuralis haloval, szovegkornyezet alapjan word2vec-et felhasznalva talalna ki, hogy a tobbfele irasmod kozul vajon ott melyikre lehet szukseg. Ehhez eloszor is fogtam par ezer ujsagcikket, es osszedobtam egy python scriptet (gen_map.py) ami szavankent megnezi a gyakorisagot es a vegen kilistazza melyikek azok a szavak, ahol tobbfele ekezetes alak tartozik ugyanahhoz az ekezet nelkulihez. A meglepetes akkor jott, mikor lefuttattam (par bugfix utan:)), es kiderult, hogy a szavak kb 90%-anak csak egyfele alakja van, tehat 1:1 lekepzesrol van szo. A maradekban viszont nagyon sok olyan van, ahol nem a szoveg temaja (amire a word2vec jo lenne) miatt kell kulonbozo alakot hasznalni, hanem a nyelvtan, pl. ragozas miatt. Igy elso korben el is vetettem a neuralis halot, nezzuk meg csak siman statisztikailag hogy mukodik!

Ubuntu 20.04 openssl vs. TLS <v1.2

tegnap fel napi debug es anyazas utan megtalaltam valahol, hogy az ubuntuek patchelik az openssl-t hogy ne is tamogassa az 1.2-nel kisebb verzioju TLS-t. ez nagyon szep es jo, csak epp ha webszervert uzemeltetsz rajta, nem feltetlen a biztonsag az elsodleges cel, hanem sokszor inkabb az, hogy ne csak a legujabb/leguptodatebb eszkozokkel lehessen megnezni az oldalt.

hiaba allitgatod akar az apache-ban, akar a python ssl-ben a minimum tls verziot, a patchelt ubuntus openssl pont leszarja...

ujra tamad a "magyar spam"

bizonyara mindenki talalkozott az elmult 3 evben az olcso gagyi kinai termekeket DoS-szeru email bombazassal (2400 fiokra 1 honap alatt 197000 jott belole) hirdeto magyar spam-el. kerti locsolocso, szunyogriaszto, stb... altalaban 1-1 temat hetekig nyomattak.

a szoveg minden levelben mas volt, ezt ugy ertek el, hogy minden mondatot 10-20 felekeppen megfogalmaztak, majd ezt permutaltak veletlenszeruen. meg 30% egyezeses deduplikacioval is megmaradt 10k+ kulonbozo level...

sok kozos nem volt bennuk, de a felado (from) domainje mindig ugyanarra az IP cimre, vagy szuk (/26-/28) tartomanyra mutatott, ami par havonta valtozott ugyan, de viszonylag kis energiaval lehetett szurni.

na hat most strategiat valtottak. most epp traffipaxdetektoros temaban tamadnak kb 2 hete, hasonlo a stilus, de mostmar a from ip-je is eleg random. a benne levo url-t lehetne csak megfogni, de hogy ezt megnehezitsek, van levelenkent vagy 100 url benne, a legtobb 5-6 karakteres random string + pont + 2 random betu + /? + ujabb 5-6 random betu. ezzel DoS-oljak az url blacklisteket, akik sok query miatt elobb utobb letiltanak ugyis... viszont ez a vesztuk is, eleg jol lehet regex-el szurni, parszazat mar megfogtam 1 nap alatt, eddig nincs false positive se.  procmail szintaxissal igy nez ki, ha mind a 4 regex match-el (random http es https url-eket hasznalnak), akkor van hit:

* http://[a-z][a-z][a-z][a-z][a-z][a-z]\.[a-z][a-z]/\?[a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z]*.
* http://[a-z][a-z][a-z][a-z][a-z]\.[a-z][a-z]/\?[a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z]*.
* https://[a-z][a-z][a-z][a-z][a-z][a-z]\.[a-z][a-z]/\?[a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z]*.
* https://[a-z][a-z][a-z][a-z][a-z]\.[a-z][a-z]/\?[a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z]*.