( arpi_esp | 2020. 08. 29., szo – 20:04 )

en csak annyit fuznek hozza, hogy pdf-bol txt-t csinalni nagyon nem trivialis, es legtobbszor nem is sikeres muvelet, igy elemezni en sem azt kernek.

a pdf-ben ugyanis betunkent van tarolva a szoveg, minden betuhoz letaroljak az x;y koordinatat, es igy rendereli ki pontosan ugyanugy mindenhol. viszont a space nincs letarolva, minek, hisz a semmit ugye nem nyomtatod ki... igy a pdf2txt algoritmusok nagyreszt abbol allnak, hogy megprobaljak eldonteni minden betukozrol hogy az betukoz vagy space, ami mondjuk egy sorkizart tordelesnel vagy agyon kerningezett fontnal kb sose lesz jo. meg pl. a dolt betus szovegnel sem, ahol a bounding-boxok akkor is kb osszeernek ha kozte space van.

az utobbi idoben volt "szerencsem" par 10ezer pdf-et szovegge konvertalni (nagyreszt konyvek, szakdolgozatok, doktorik), az eredmeny siralmas, ugy jo ha a 10%-aban volt hasznalhato...

ha meg xml-t kernenek, plane egy altaluk adott schemaban, akkor szerintem nem sok jelentkezo lenne :)