( arpi_esp | 2023. 06. 18., v – 21:43 )

megnezhetem erdekesseg keppen, de gondolom az a YT html-jere van kihegyezve, ami vszinu valid...

probaltam sokfele html2text libet/megoldast, de egyik se igazan jo a spam emailek html reszehez, mert azok trukkoznek direkt rossz szintaktikaval, hogy megkeruljek a szuroket...  eleve az email text/html partja egy kulon allatfaj, probaltam webkittel is kirendereltetni de nem volt jo. gondolom az outlookban egy elcseszett ie6-szeru html dll-t hasznalnak, a tobbi levelezo app meg probal azzal kompatibilis lenni...  tele van legacy hackekkel (pl. a css-t berakja egy kommentbe, hogy amelyik program nem ismeri az atugorja), meg olyan uj hackekkel mint a hidden preview, ami azt hasznalja ki, hogy az appok previewkor a style-t nem veszik figyelembe, csak amikor megnyitod a levelet, es igy kulonbozo szoveget tudnak mutatni. meg tele van ie verzio-fuggo if-ekkel az egesz.

amugy a pythonban irt parserem (amit eredetileg a spamszurohoz irtam sok eve) mar egesz jol elboldogul, masfel hetnyi javitgatas utan... es az egesz kb 2 oldalnyi kod csak. majd lehet irok arrol is 1-2 blogposztot, hogy milyen szivasok vannak az atgondolatlan html szintaktikaval :)

ez is gyonyoru, nem?

<style type="text/css" style="display:none">
/*<![CDATA[*/
<!--
p
        {margin-top:0;
        margin-bottom:0}
-->
/*]]>*/
</style>