en csak annyit fuznek hozza, hogy pdf-bol txt-t csinalni nagyon nem trivialis, es legtobbszor nem is sikeres muvelet, igy elemezni en sem azt kernek.
a pdf-ben ugyanis betunkent van tarolva a szoveg, minden betuhoz letaroljak az x;y koordinatat, es igy rendereli ki pontosan ugyanugy mindenhol. viszont a space nincs letarolva, minek, hisz a semmit ugye nem nyomtatod ki... igy a pdf2txt algoritmusok nagyreszt abbol allnak, hogy megprobaljak eldonteni minden betukozrol hogy az betukoz vagy space, ami mondjuk egy sorkizart tordelesnel vagy agyon kerningezett fontnal kb sose lesz jo. meg pl. a dolt betus szovegnel sem, ahol a bounding-boxok akkor is kb osszeernek ha kozte space van.
az utobbi idoben volt "szerencsem" par 10ezer pdf-et szovegge konvertalni (nagyreszt konyvek, szakdolgozatok, doktorik), az eredmeny siralmas, ugy jo ha a 10%-aban volt hasznalhato...
ha meg xml-t kernenek, plane egy altaluk adott schemaban, akkor szerintem nem sok jelentkezo lenne :)