fasza pdf olvasó lib táblázathoz

Sziasztok!

Olyan pdf libet keresek amivel értelmesen lehet olvasni olyan pdf-eket amikben táblázat van. Pl. egy MVM-es földgázszámlát.

python, java, javascript első körben, de bármi másra is nyitott vagyok ami nem csak egymásra hányja a betűket a táblázatban, hanem normális formában kezeli. Tudom, hogy a pdf jellegéből adódóan ez elég komoly elvárás, de hátha mégis találkozott valaki ilyennel.

Köszi!

Up.

Nekem a Tigázossal volt gondom, azt kellett időzítetten letölteni, feldolgozni. Valami HTML alapú táblát tolt ki xls kiterjesztéssel, de azt volt a legkönnyebb dekódolni. De pár hét után valami félrement az oldalon és egy tapasztaltabb kolléga segített (nem a Tigáztól :D, szerintük használjak iexplorer-t az a tuti 2022-ben :D) hogy ha a bejelentkezés után újra visszalépek bejelentkező felületre, újra beírva a bejelentkezési adatokat, akkor működik a letöltés. Valami URL átírás ment félre a szerveren, de úgy tűnik, csak egy bizonyos fiókkal, mert egy másik telephely fiókján ilyen hibát nem tapasztaltunk.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Azt néztem közben, hogy esetleg az Apache PDFBox projektet kellene nézegetni, leírás szerint kiolvasni is tud adatokat PDF-ből.

0 szavazat

A hozzászóláshoz be kell jelentkezni

esetleg ez (python): https://github.com/camelot-dev/camelot

kimenetek: json, html, excel, csv, df, list

1 szavazat

A hozzászóláshoz be kell jelentkezni

whitespace-es táblázatoknál lehet jobb a tabula: https://github.com/tabulapdf/tabula-java

0 szavazat

A hozzászóláshoz be kell jelentkezni

Úgy emlékszem ez az excelből mentett pdf-eket nem eszi meg rendesen, de ránézek újra!

0 szavazat

A hozzászóláshoz be kell jelentkezni

+1, a Camelot egy nagyon hatékony tool. A visual debugging funkciója nekem nagyon jól jött ronda zsúfolt táblázatoknál.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Én https://github.com/jsvine/pdfplumber -rel dolgoztam fel bank kivonatokat.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Hulye otlet, de talan be lehetne tanitani valami ML logikat ra, nem? Ha mar egy sotetben fotozott villanyorat elolvas, akkor talan egy rendezett tablazatra is kepes.

Mondjuk igy a jatek fontosabb, mint a megoldas :)

0 szavazat