10000db word file tablázatából kiolvasni az adatokat és elmenti egy adatbázisba

Fórumok

Hello!

A problémám a következő. Van több ezer word file-om. A fileok azonos sémájúak (van 4 oszlopa meg x sora). Ezeknek a táblázatoknak az értékeit szeretném kiolvasni és elmenteni egy adatbázisba (JDBC-vel).

Van olyan módszer amivel exelben lévő táblazatból is kitudok olvasni vagy csináljam úgy hogy a word-filet átkonvertálom exel-be és úgy csinálom a továbbiakban?

A bajom ezzel a módszerrel csak annyi lenne hogy file-ok .doc kiterjesztésűek és a http://www.convertwordtoexcel.com/ lapon csak .docx kiterjesztést tudok konvertálni tehát a .doc file-ok mindegyikét szintén módosítani kell ahhoz, hogy exelbe tudjam konvertálni. Ami a nagy file-szám miatt megint csak időigényes és ezidáig nem találtam olyan megoldást ahol betudom tallózni az összes filet és egyszerre megcsinálni a konverziót.

Esetleg ha van valakinek valami ötlete azt megköszönném :)
Nem megoldást várok csak ötletet ami elvezet majd engem a megoldáshoz!

Üdv!

Hozzászólások

Ha ugy adodna, hogy nem talalsz kesz toolt a feladatra, akkor az Apache POI libbel neki mehetsz, hogy progibol egyenesen feldolgozd a word fajlokat.
Nekem van konkret tapasztalatom poi-val, mind word generalas, mind szoveg kinyeres reszrol, par eve meg nem mindenfajta wordot tudott megenni (es mindent kinyerni).

Amugy, ahogy elottem is javasoltak, inkabb a csv-be konvertalasra torekedj azt konnyebb feldolgozni (pl.: opencsv-vel kenyelmes).

Ha excelt kellene azt is lehet poi-val, vagy jexcelapi-val. Excel olvasas jobban kiforrott javaban, mint a word.

Azt nem tudom, hogy Java alatt mennyire van lehetőség COM interopra, de pl. .NET alatt meglepően jól kezelhetőek az Excel fájlok. Nekem van egy belsős fejlesztésem, ami C#-ban készült és Excellel operál COM Interopon, stabil, jól használható.

Szerintem Worddel is megoldható lenne egyszerűen.

(Gondolom valami egyszeri tool kellene).

----------------
Lvl86 Troll, "hobbifejlesztő" - Think Wishfully™

Ha jól veszem ki, nem folyamatosan lesznek fájljaid, hanem most vannak, és a db-be feltöltés egyszeri művelet.
Ha így van, ne ragadj le a JDBC mint határkő meghúzásánál, mert saját lehetőségeidet szűkíted be.

Ahogy lentebb/fentebb említették, a .NET, és a sokkal egyszerűbb PowerShell lehetőséget ad a .COM-on keresztül a docok közvetlen feldolgozására, és onnan már csak ízlés kérdése, hogy helyből db-be dugod-e a rekordokat, vagy egyébbe, és onnan.

"Van olyan módszer amivel exelben lévő táblazatból is kitudok olvasni vagy csináljam úgy hogy a word-filet átkonvertálom exel-be és úgy csinálom a továbbiakban?"

VBA?
Gondolom eseti dologról van szó, nem kívántok hosszútávon doc-ból importálgatni.

Jómagam is öszelopkodtam már mindenféle formátumban összekalapált szószedetet, definíciótárat, hogy stardictesítsem. A legtöbbet eredetileg puskának vagy vizsgakidolgozásnak szánták eredetileg.

Inkább legyen több lelkes, de tévelygő adatrögzítő, mint lusta XML-mágusok hada, én aszondom.