Fórumok
Sziasztok!
Olyan pdf libet keresek amivel értelmesen lehet olvasni olyan pdf-eket amikben táblázat van. Pl. egy MVM-es földgázszámlát.
python, java, javascript első körben, de bármi másra is nyitott vagyok ami nem csak egymásra hányja a betűket a táblázatban, hanem normális formában kezeli. Tudom, hogy a pdf jellegéből adódóan ez elég komoly elvárás, de hátha mégis találkozott valaki ilyennel.
Köszi!
Hozzászólások
Up.
Nekem a Tigázossal volt gondom, azt kellett időzítetten letölteni, feldolgozni. Valami HTML alapú táblát tolt ki xls kiterjesztéssel, de azt volt a legkönnyebb dekódolni. De pár hét után valami félrement az oldalon és egy tapasztaltabb kolléga segített (nem a Tigáztól :D, szerintük használjak iexplorer-t az a tuti 2022-ben :D) hogy ha a bejelentkezés után újra visszalépek bejelentkező felületre, újra beírva a bejelentkezési adatokat, akkor működik a letöltés. Valami URL átírás ment félre a szerveren, de úgy tűnik, csak egy bizonyos fiókkal, mert egy másik telephely fiókján ilyen hibát nem tapasztaltunk.
Azt néztem közben, hogy esetleg az Apache PDFBox projektet kellene nézegetni, leírás szerint kiolvasni is tud adatokat PDF-ből.
esetleg ez (python): https://github.com/camelot-dev/camelot
kimenetek: json, html, excel, csv, df, list
whitespace-es táblázatoknál lehet jobb a tabula: https://github.com/tabulapdf/tabula-java
Úgy emlékszem ez az excelből mentett pdf-eket nem eszi meg rendesen, de ránézek újra!
+1, a Camelot egy nagyon hatékony tool. A visual debugging funkciója nekem nagyon jól jött ronda zsúfolt táblázatoknál.
Én https://github.com/jsvine/pdfplumber -rel dolgoztam fel bank kivonatokat.
Hulye otlet, de talan be lehetne tanitani valami ML logikat ra, nem? Ha mar egy sotetben fotozott villanyorat elolvas, akkor talan egy rendezett tablazatra is kepes.
Mondjuk igy a jatek fontosabb, mint a megoldas :)
Ja, alakítsa képpé, aztán OCR-t rá :)
Szerintem nem az a nyerő ötlet, ha a nyers táblázat kibányászható.