Kötőjelek eltávolítása szövegből

Fórumok

Sziasztok.

A következő a probléma:
Adott némi szöveg, word dokumentumban. A gond az, hogy a doksiban hardcodeolva vannak a kötőjelek, attól függően, hogy hogy jött ki a tördelés. Én szeretném eltávolítani ezeket a kötőjeleket (és automatikus elválasztásra cserélni őket). A dologban az a bonyodalom, hogy az illető gondolatjelként is kötőjeleket használ, nem mindig szóközzel elválasztva, illetve hogy helyenként valóban szükséges a kötőjel, mint például irgalmatlanul hosszú összetett szavak, ahol a helyesírési szabályzat diktálja a használatukat.
Létezik erre a problémára magyar nyelven működő megoldás?
Ha nem, van egy egész egyszerű ötletem, amivel többé-kevésbé jó eredményt lehetne elérni. Ahhoz viszont kellene egy szótárállomány, amiben szerepel közel az összes értelmes magyar szó. Valahol tudtok esetleg ilyet?

Előre is köszi!

Hozzászólások

Valami LibreOffice, vagy mi annak a neve.. :)

Jól értem, hogy kézzel csinálta a sortördelést is? Mert ha igen, akkor ezen kötőjelek után bekezdés vége van, így kereshető. Igaz, a gondolatjelek és az összetett szavak kötőjelei is eshettek sor végére.
Ha egyszerűen kitörlöd az összeset, akkor a helyesírás-ellenőrző - épp most kell egy ilyen szót írnom - elvileg megtalálja amit meg akarsz tartani.

Sorelején gondolatjel lesz lesznek nagy valséggel.
Minden egyébesetet kivenni a kötőjeleket, majd helyesírás ellenörzés
Gondolm gatyába rázza a hossszú szavakt.

perl/awk/sed -del txtben sztem nem nagyon bonyi....

;)

Erre a hozzászólásra is mehetett volna egy helyesírás-ellenőrzés... :)

A gondolatjelek egyszeri elolvasás során elég könnyen javíthatóak manuálisan, mivel jellemzően nem szokták tömegesen alkalmazni. Ezután minden kötőjel törlése. Az összetett szavakra pedig a helyesírás-ellenőrző tud javaslatot adni. Mindezek után pedig még egy átolvasás. Úgy vélem, a legalább egyszeri átolvasás nem úszható meg.

Jónéhány hasonló eset után biztos vagyok benne, hogy nem mentesülsz a kézi, egyenkénti átnézéstől. Ha automatizmust raksz bele, jó eséllyel marad benne néhány rendhagyó eset (mégsem rakott szóközt, vagy éppen többet) -- amit akár el is fogad a helyesírás-ellenőrző, mégsem jó.

(Sajnos az ilyen szerkesztők a rossz gyakorlatban sem következetesek, és kiszámíthatatlan ravaszsággal képesek övön aluli trükkökkel az algoritmikus gondolkodásúakat végkimerülésbe kergetni.)

szaszi

word nem annyira, szal, lehet enter "karaktert" is cserelni benne, mint ahogy tabot is. jelold ki a sorvegi '-'-t ES az enter karaktert (feltetelezem h sor vegen entert nyomott, es nem egy bekezdesben van tobb ilyen sorveg, ahogy eppen esett). ha ez megvan, akkor lehet ra cserleni.

Elég sok hasonlót végigcsináltam már, de mivel nincs empirikus megoldás, a szöveg ismerete nélkül nem tudok jó javaslatot adni. Keress meg privátban!

Jellemző, hogy megint pont a "trivi" megoldás nem jut eszembe, már kb. mesterséges intelligenciát akartam írni a problémára :D
Valószínű az lesz, hogy az összes olyan kötőjelet, aminek egyik oldala szóköz, a másik újsor, gondolatjelre cserélem, a többi helyet valahogy megjelölöm, maradék kötőjelet törlöm, spelchecker, aztán a nem egyértelmű eseteket kézzel végigbogarászom.
Köszönöm a tippeket!

Tapasztalatból azt javaslom, hogy:
1.) hívd fel a dokumentum készítőjének figyelmét az általa elkövetett hibára,
2.) utána mondd meg neki, hogy szívesen javítod egy algoritmussal, de emeld ki, hogy ez nem lesz hibamentes megoldás, pontosabban még hibákat is generálhat, ezért
3.) add vissza neki, hogy javítsa benne a hibákat (immár a szövegszerkesztő alapvető funkcióinak és mechanikus írógéptől való különbözőségének ismeretében).
Ezzel a szerkesztői feladat a szerkesztőnél marad és nem lesz belőle félreértés, ha netán rosszul döntesz egy egybeírás-különírás vagy kötőjel megítélése során. Illetve ebben segíthet a lektor is, ha utána úgyis megy lektorálásra az anyag. (Valószínű, hogy az anyag készítőjének nem fog mindig tetszeni a megoldási javaslatod, ezért kell felhívni a figyelmét a hibára és ő magával kijavíttatni.)