Szavak kinyerése Outlook levelezésből

TL;DR: Futó Outlook alkalmazásból vagy a fájlrendszeren lévő ".pst" fájlokból szeretnék szavakat kinyerni és letárolni programozott módon, egyszeri alkalommal szótár készítése céljából. A szó definíciója egyelőre csak annyi, hogy a levelek törzsében lévő, egybefüggő értelmes karakterláncok szóközzel határolva. Az egyetlen intelligencia ezen kívül amit elvárok majd az a duplikáció kezelése, de felőlem ez lehet a letárolás után is. Te milyen módon állnál ennek neki?

 

A munkám 95%-át angolul intézem, amiből a céges tesztek alapján C1-C2 szinten vagyok. Önszorgalomból tanulok németül pár éve és tavaly előtt csináltam egy B2 nyelvvizsgát, de azóta nem tudok továbblépni innen akárhogy erőlködöm (korábban dolgoztam is Németországban igaz angolul). Az évente változó IT cuccok helyett hosszú távú befektetésként tekintek a nyelvtudásra, ezért rövid távú célként tűztem ki, hogy legközelebb olyan irányba fogok váltani, ahol németül is kell beszélnem, hogy végre áttörjem a gátat és fellépjek a C szintre. A könyvesboltokban elérhető "Geschäftsdeutsch" témájú cuccok nem nagyon segítenek, mert a szókincsük nem releváns. Ekkor ötlött fel a gondolat, hogy a 10+ évre visszamenő Outlook archívum nagyjából az írásos lenyomata az angol szókincsemnek, ezáltal 100% releváns is számomra, tehát ha mindezt tudnám németül is, akkor át tudnék/mernék ülni egy német céghez hasonló munkakörbe. Ezért akarom valahogy ezeket a fájlokat feldolgozni, kinyerni a szavakat angolul, kidobni a nem releváns cuccokat, aztán bulkban lefordítani németre, majd végül szövegkörnyezetbe helyezni és megtanulni/begyakorolni.

Tud valaki erre ajánlani módszert? Hülyeség ez? Szívesen veszek tanácsokat olyanoktól is, akik két idegen nyelvet használnak aktívan munkájuk során.

Hozzászólások

Háttőőő... előre is elnézést hogy nem konkrétan a problémára válaszolok, de... szóval kb. tudod mi van a levelezésedben. Felteszem valamilyen arányban műszaki és business szöveg. Mindkettőhöz rogyásig van szótár. Illetve szerintem ha nem használsz egy adott nyelvet, akkor ha fejreállsz, akkor is kopni fog, pláne ha mellette viszont még használsz 1-2-x másikat aktívan.

Illetve... ahogy én tapasztaltam, nem mindegy hogy milyen céghez mész. Ha autógyárból mész akár csak buszgyárba is, már érnek már meglepetések, pláne ha mondjuk energetikai céghez/től mész. A Festplatte az ugyanaz, de ez sokszor kevés :D

Köszi a választ.

Felteszem valamilyen arányban műszaki és business szöveg. Mindkettőhöz rogyásig van szótár.

Ebben igazad van, de nekem ezeknek a létező szótáraknak egy speciális halmaza (ami nekem releváns) kellene és egyszerűbbnek tűnik rendezni egy meglévő adathalmazt, mint megírni a logikát, ami egy már rendezett de sokkal nagyobb halmazból leválogatja, amire gondolt a költő (regexp vs. mestint?). Ha csak elkezdem benyalni ezeket a könyveket akkor pont az lesz amit később is irtál; ha a szót nem használom angolul sem, akkor 3 nap után el fogom felejteni.

Illetve szerintem ha nem használsz egy adott nyelvet, akkor ha fejreállsz, akkor is kopni fog

Pont ezt ismertem be most magamnak, ezért írtam, hogy rövid távon (mondjuk egy év) váltani akarok. Lennének olyan lehetőségek előttem, ahol mindkét nyelv kellene hasonló munkakörben mint most, és erre szeretnék felkészülni.

Exportálnék eml-be s azt dolgoznám fel.