Sziasztok!
Olyan pdf libet keresek amivel értelmesen lehet olvasni olyan pdf-eket amikben táblázat van. Pl. egy MVM-es földgázszámlát.
python, java, javascript első körben, de bármi másra is nyitott vagyok ami nem csak egymásra hányja a betűket a táblázatban, hanem normális formában kezeli. Tudom, hogy a pdf jellegéből adódóan ez elég komoly elvárás, de hátha mégis találkozott valaki ilyennel.
Köszi!
- 404 megtekintés
Hozzászólások
Up.
Nekem a Tigázossal volt gondom, azt kellett időzítetten letölteni, feldolgozni. Valami HTML alapú táblát tolt ki xls kiterjesztéssel, de azt volt a legkönnyebb dekódolni. De pár hét után valami félrement az oldalon és egy tapasztaltabb kolléga segített (nem a Tigáztól :D, szerintük használjak iexplorer-t az a tuti 2022-ben :D) hogy ha a bejelentkezés után újra visszalépek bejelentkező felületre, újra beírva a bejelentkezési adatokat, akkor működik a letöltés. Valami URL átírás ment félre a szerveren, de úgy tűnik, csak egy bizonyos fiókkal, mert egy másik telephely fiókján ilyen hibát nem tapasztaltunk.
Színes vászon, színes vászon, fúj!
Kérem a Fiátot..
- A hozzászóláshoz be kell jelentkezni
Azt néztem közben, hogy esetleg az Apache PDFBox projektet kellene nézegetni, leírás szerint kiolvasni is tud adatokat PDF-ből.
Színes vászon, színes vászon, fúj!
Kérem a Fiátot..
- A hozzászóláshoz be kell jelentkezni
esetleg ez (python): https://github.com/camelot-dev/camelot
kimenetek: json, html, excel, csv, df, list
- A hozzászóláshoz be kell jelentkezni
whitespace-es táblázatoknál lehet jobb a tabula: https://github.com/tabulapdf/tabula-java
- A hozzászóláshoz be kell jelentkezni
Úgy emlékszem ez az excelből mentett pdf-eket nem eszi meg rendesen, de ránézek újra!
- A hozzászóláshoz be kell jelentkezni
+1, a Camelot egy nagyon hatékony tool. A visual debugging funkciója nekem nagyon jól jött ronda zsúfolt táblázatoknál.
- A hozzászóláshoz be kell jelentkezni
Én https://github.com/jsvine/pdfplumber -rel dolgoztam fel bank kivonatokat.
- A hozzászóláshoz be kell jelentkezni
Hulye otlet, de talan be lehetne tanitani valami ML logikat ra, nem? Ha mar egy sotetben fotozott villanyorat elolvas, akkor talan egy rendezett tablazatra is kepes.
Mondjuk igy a jatek fontosabb, mint a megoldas :)
- A hozzászóláshoz be kell jelentkezni
Ja, alakítsa képpé, aztán OCR-t rá :)
Szerintem nem az a nyerő ötlet, ha a nyers táblázat kibányászható.
Színes vászon, színes vászon, fúj!
Kérem a Fiátot..
- A hozzászóláshoz be kell jelentkezni