Jó példa arra, hogy az összetett szavak taghatárán való elválasztás hogyan növeli az olvashatóságot, a pácsa-vak → pác-savak és matracsí-rok → matrac-sírok elválasztás. Az új beállítással lehetővé vált a címbekezdésekben, tartalomjegyzékben, hasáb-, illetve oldalhatárokon az olvashatósági és tipográfiai követelményeknek megfelelő, teljesen automatizált tördelés. Javultak a huhyphn-LibO elválasztási minták is (pl. *kö-rí-mél → kör-ímél, *halk-rém → hal-krém, *hód-ara → hó-dara és még ezer más összetett szónál). Az elválasztási minták nem tudják egy elválasztási pontról, hogy taghatár-e, vagy sem, így nem is tudják tiltani a taghatár közelében az elválasztást kettő vagy több karakter távolságban. Ezt a Writer a Hunspell helyesírás-ellenőrző és morfológia elemző segítségével teszi meg, ha az elválasztás taghatártól való minimális karaktertávolságát háromra vagy többre állítjuk a bekezdésformázásban. A Hunspell magyar szótárában, a Szabad magyar szótárban további közel 10 ezer szótári szónál, illetve szóalaknál került megadásra a taghatár. A többszörös összetételek taghatárainak súlyozása is segít már az olvashatóság növelésében, pl. főbe-járat → fő-bejárat, érel-záródás → ér-elzáródás, magánút-levél → magán-útlevél.
Míg a magyar iskolákban is gyakran használt Office 365 és Google Dokumentumok egyáltalán nem választ el a weben, a LibreOffice-ra építő webes technológiák, mint a Collabora Online és a ZetaOffice Web/ZetaJS a javított magyar elválasztást ott is elérhetővé teszik. Az OpenDocument szabványosítással pedig még több program számára válhat elérhetővé az opcionális taghatáron való elválasztás. (Kapcsolódó jó hír az iskoláknak, hogy míg a Scribus kiadványszerkesztő nem választja el a magyar többjegyű mássalhangzókat, az iskolák számára ingyenesen használható Affinity Publisher/Designer programok a LibreOffice nyílt forráskódú hyphen programkönyvtárával már igen – Kisantal Tibor közlése.)
A fejlesztések listája, valamint képernyőkép a Writer bekezdésformázás ablakáról az új beállítási lehetőséggel a LibreOffice.hu hírében tekinthető meg.
- A hozzászóláshoz be kell jelentkezni
Hozzászólások
Mi értelme van 3-nál kisebbre venni, akkor visszakapjuk a régi (nem olyan jó) viselkedést, igaz? Vagy 3-nál többre, az mit változtat? Mi indokolja, hogy ez egy számmal beállítható opció?
Ezt a taghatáron való elválasztást, ha jól értem, be lehet állítani nem csak a magyar nyelvnél. De más nyelveknél van hatása?
- A hozzászóláshoz be kell jelentkezni
Normál bekezdésekben, de különösen szűk sorkizárt hasábokban jobb a 2. Ez a helyesírási szabályzatban is szereplő egykarakteres távolságnak felel meg („nem ajánlott elválasztási forma: »bale-set«, »fela-dat«.”). A tiltás itt csak a huhyphn elválasztási mintákból jön.
Címekben, vagy hasábhatáron, ahol alapból nem, vagy csak végső esetben választunk el, jobb a 3 vagy több. Itt lép be a Hunspell is, de csak akkor, ha már kiderült, hogy a szó pont sorhatárra esik, és elválasztható a Hyphen minták szerint.
Ha nincs lehetőség a korrektúrára (nagy a dokumentum, vagy gyakran változik), nem sorkizárt a szöveg, akkor is jobb lehet a 3 vagy több.
A karakterszám helyett lehetne betűszám (gy), vagy hossz. A betűszám az y-os többjegyű mássalhangzóknál nem számít, de a cs, dz, dzs, sz, zs esetében érdekes lehet. Megfontolandó, hogy felismerje a program, hogy kerülendő valamilyen elválasztás (szar-vas), és ezt lehetőleg ne tiltsa, hanem súlyozza, kiválasztva a legjobb, legkevésbé értelemzavaró vagy csúnya elválasztást a több lehetséges jó tördelés közül. (Igazából a több jó tördelés felmutatására már most van példa: az InDesign-ban egy csúszkával állítható, hogy az adott bekezdésben egyenletes szürkeséget szeretnénk több elválasztással, vagy kevésbé értelemzavaró elválasztást, melyik az olvashatóság és esztétikai kritériumok szempontjából a legjobb kompromisszum.
A zóna-beállítással, azaz a méretküszöbbel a karakterszám kombinálható és kombinálódik is: míg az elválasztás megengedi a fi-atal elválasztást, a nemrég hozzáadott elválasztási zónával kérhetjük, hogy azért a fi-atal elválasztást ne engedje, ha a sor végén maradó szórészlet, itt a „fi-”, nagyon keskeny volna. Mivel ez ma már egy betű szélességű ligatúrával van szedve még a LibreOffice-ban is az OpenType vagy Graphite betűkészletekkel, illik is kérni. (Sőt, a Microsoft Word alapból is kérte ezt, ha nincs megadva az elválasztási zóna, és a magyar dokumentumok esetében ráadásul egy nem publikus, nem szabványosított, pontosabban az ISO DOCX szabványnak ellentmondó nagyobb értékkel. Ez most valamiért elavult tulajdonságnak van jelölve a Word felületén, de lehet, hogy azért, mert alapból jót állít be.)
A taghatáron való elválasztásnak jelenleg is van hatása más nyelveknél, legalább a német, norvég, svéd és holland esetében, de mivel azok szótára nem tartalmazza az elválasztási helyeket a szótári szavaknál, csak a heurisztikával (szóbontással) felismert szavaknál van változás.
A következő lépés lehetne az, hogy a Writer az új magyar dokumentumoknál eleve tartalmazza az elválasztást, kiindulásnak mondjuk a 3-as értékkel, hogy ne válasszon el sűrűn. Lehetne automatikus is az elválasztás mikéntje, sorszélességtől függően (és van erre példa, az InDesignban van lehetőség az automatikus sorköz-beállításra, amikor a betűmérettől (sorszélességtől) függően arányosan növeli a sorközöket, nem kell kézzel módosítgatni mindkettőt), de nem mindig szerencsés mindent automatizálni, valószínűleg ezt sem.
Ha sikerülne olyan szedést elérni a dokumentumszerkesztőkben, hogy a (pl. több hasábba szedett) sorok ne olvashatatlanul hosszúak legyenek, de a hiányos vagy hibás elválasztás miatt ne is legyenek olvashatatlanul nagy szóközei, vagy sor, oldal stb. határai, nagyon sok tanár és diák lehetne hálás ezért, és nemcsak azok, akiknek nehézségbe ütközik az olvasás (nemcsak azért, mert éppen olvasni tanul). A taghatáron való (súlyozott) elválasztás ennek egy fontos eleme.
- A hozzászóláshoz be kell jelentkezni
részben off: Pár éve egy project kapcsán felmerült, hogy szükség lenne magyar szöveg szótagolására. Van olyan megoldás a magyar szoftveres ég alatt amivel ez meg lehet csinálni? (amennyire láttam a hunspell/hyphen is csak elválasztást tud, szótagolást nem)
- A hozzászóláshoz be kell jelentkezni
Egysoros megoldás (ha van egy LibreOffice build éppen kéznél):
~/libreoffice/workdir/UnpackedTarball/hyphen/example ~/libreoffice/dictionaries/hu_HU/hyph_hu_HU.dic /dev/stdin | sed 's/^\([aáeéiíoóöőuúüű]\)\(\([^aáeéiíoóöőuúüű]\|cs\|gy\|ny\|sz\|ty\|zs\)\?[aáeéiíoóöőuúüű]\)/\1=\2/;s/\([aáeéiíoóöőuúüű]\)\([aáeéiíoóöőuúüű]\)/\1=\2/'
(Pár éve küldtem egy aggódó apukának, akinek olvasni tanították a gyermekét, de a tanultak nem voltak kompatibilisek a tankönyvi házi feladattal. Ez az egysoros egy kicsit javított változat, amely elválasztja a taghatár előtti két magánhangzót is összetett szavakban: konferenci-aprezentáció), de emiatt téved a történelmi és idegen neveknél: Pa-izs, Mon-ta-igne. Az eredeti a plusz egy dollárjellel, amellyel csak a szó végi magánhangzót javítja külön szótagra:
~/libreoffice/workdir/UnpackedTarball/hyphen/example ~/libreoffice/dictionaries/hu_HU/hyph_hu_HU.dic /dev/stdin | sed 's/^\([aáeéiíoóöőuúüű]\)\(\([^aáeéiíoóöőuúüű]\|cs\|gy\|ny\|sz\|ty\|zs\)\?[aáeéiíoóöőuúüű]\)/\1=\2/;s/\([aáeéiíoóöőuúüű]\)\([aáeéiíoóöőuúüű]\)$/\1=\2/'
Az ideális az volna, ha ezt a LibreOffice egy kattintásra megcsinálná. Bővítménnyel vagy alapból.)
- A hozzászóláshoz be kell jelentkezni
köszi!
Annak kapcsán amit írtál rájöttem, hogy nekem tulajdonképpen az új jövevényszavakkal és idegen nevekkel nem is kell foglalkoznom. A szöveg régi és nem változik, viszont a mennyisége nagy, dallam jöhet új. Erre a szögere kell formázást tenni adott szótagra (dallamban a hajlítása határozza meg hova), vagy később kottára kell ráhúzni tetszőleges versszakot. Manuálisan iszonyat meló lenne megcsinálni és nagyon statikus az egész, hibalehetőség viszont tapasztalat szerint sok, így inkább gépesíteném, mert úgy pontosabb eredményt lehet elérni.
Megnézem majd a LO mit tud segíteni ebben.
- A hozzászóláshoz be kell jelentkezni
A szótagolás csak beszédben létezik, az fonetikai szabályokat követ. Persze, valahogy utánozható írásban is, de nem sztenderd. Szótagolást csak úgy tudsz csinálni, hogy az összes használt szót és rag kiejtését felveszed, elválasztási helyekkel. Más megoldás nincs, senki nem használ írásban elválasztást, csak szótagolást.
Persze nem is vagyok benne biztos, hogy te szótagolást akarsz, és nem mondjuk morfémákra bontást, mert az meg megint egy másik műfaj, különbözik a szótagolástól és az elválasztástól is. Van közöttük sok átfedés, de lehet eltérés is.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
- A hozzászóláshoz be kell jelentkezni
s/senki nem használ írásban elválasztást, csak szótagolást/senki nem használ írásban szótagolást, csak elválasztást/
- A hozzászóláshoz be kell jelentkezni
Igen, bocs, belekeveredtem. Fordítva van valóban.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
- A hozzászóláshoz be kell jelentkezni
Magyar nyelvnél elég jelentős kérdés, mivel hosszúak a szavaink, eleve több szótagosak, erre még rájön a többszöri rag/jel, stb.. Angol nyelvterületen viszont mindennapi tapasztalatból tudom, hogy NEM nagyon használnak elválasztást. Régies, igényes nyomdai anyagban talán, de a mindennapokban nem találkozni vele egyáltalán. Sőt, még sorkizárást sem használnak, betűtípusból is a legigénytelenebb, legunalmasabb, talpatlan Arial-t, és annyi. Nem bonyolítanak túl semmit esztétikailag. Nem is kell nekik, mivel az angol szavak rövidek, 1-2 szótagosak, általában rag nélküliek, ha van is rag, az sokszor nem is egy komplett kiírt szótag, csak egy extra betű, emiatt nem csak az elválasztást, de a sorkizárást sem annyira igényli.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
- A hozzászóláshoz be kell jelentkezni
Milyen sokat segítene, ha a magyar kiosztású billentyűzeten és a karakterkészletben is dedikált helye lenne a hosszú mássalhangzóknak!
A magyar ember jelképe a hátrafelé nyilazás. Vakon rohanunk a semmibe, miközben a múltunkat támadjuk.
- A hozzászóláshoz be kell jelentkezni
Miért most nincs? A magyar billentyűzeten külön billentyű van az ékezetes karakterekre. Magyar karakterkészlet meg nincs, minden modern megoldás UTF-8-as már, és azok is mind támogatják a magyar karaktereket, meg definiálva van a magyar UTF-8 collation is.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
- A hozzászóláshoz be kell jelentkezni
Hosszú mássalhangzókról volt szó, nem hosszú magánhangzókról. Ugyanis a cs az nem c+s, a gy az nem g+y stb. Ezek kettősbetűk - egy betűnek számítanak, de két latin betűvel írjuk le őket. Használhatnánk persze ékezeteket is, ahogy a szlávok teszik (č meg Đ, meg š), de a magyar írás nem így alakult ki, hanem s és z karakterekből lesz az sz betű.
A billentyűzeten meg nem tudod ezeket egy gombbal bevinni, és a Unicode-ban sincs külön gy, ty, ly, sz, dzs stb. betű.
Ha lenne ilyen bevitel és külön karakter rá, akkor lehetne tudni, hogy a pácsót hogyan kell elválasztani, mert akkor p + á + c + s + ó lenne az input a megtévesztő p + á + cs + ó helyett.
- A hozzászóláshoz be kell jelentkezni
Igen, pontosan erről van szó. Köszi a részletes magyarázatot!
A magyar ember jelképe a hátrafelé nyilazás. Vakon rohanunk a semmibe, miközben a múltunkat támadjuk.
- A hozzászóláshoz be kell jelentkezni
Most hogy lehet elerni Wordben, LO-ban es TeX-ben, hogy tipografiailag helyes cs betunk legyen?
- A hozzászóláshoz be kell jelentkezni
Nem a tipográfia a lényeg - az helyes volt eddig is, mert a csé betűnk úgy néz ki ortográfiailag, mint a c+s, nincs köztük semmi különbség. Pont ez okozza a bajt.
A baj ugyanis az, hogy tipográfiailag a csé kettősbetű (például a foncsor szóban) meg a c és s betű egymás mellett (például a láncsor szóban) pontosan ugyanúgy néz ki (hiszen tipográfiailag nem is szabad, hogy legyen köztük különbség), de mást jelentenek.
Ha egy elválasztószoftver számára meglenne az az extra információ, hogy a láncsor szóban c+s van, a foncsor szóban meg csé, akkor tudná, hogy az utóbbit nem választhatja el a c után, míg az előbbit igen. Mert ugye a foncsor szavunk az vizuálisan (és számítógépes input szerint) f + o + n + c + s + o + r, de valójában f + o + n + cs + o + r, míg a láncsor szó az l + á + n + c + s + o + r vizuálisan is, és nyelvtanilag is. Mindkettőt írásjegyenként visszük be a gépbe, és nem betűnként, pont ahogy nevergone mondja: a kettős mássalhangzóknak nincs külön írásjegye nálunk.
- A hozzászóláshoz be kell jelentkezni
U+200D ZERO WIDTH JOINER
felel meg erre talán?
- A hozzászóláshoz be kell jelentkezni
Ugyanis a cs az nem c+s, a gy az nem g+y stb.
Ejtésben nem, írásban dehogynem. (Ahogy máshol magad is mondod.)
Ha lenne ilyen bevitel és külön karakter rá, akkor lehetne tudni,
Most is lehet tudni, lásd szóelemző írásmód. (A "pácsó" nem létezik máshogy, mint összetett szóként, ennyit kell "megértetni" a helyesírás-ellenőrzővel/elválasztóval. Innen már következik, hogy meg kell találni az alkotó tagokat, onnan az elválasztás is adja magát. Vagy még egyszerűbb külön felvenni a szótárba, elválasztási információval együtt, és akkor keresgélni sem kell.) Nem kell ehhez megváltoztatni az írásunkat, nem is lenne szabad: nem az embert kell szivatni, dolgozzon a gép. (Azért van.)
- A hozzászóláshoz be kell jelentkezni
Innen már következik, hogy meg kell találni az alkotó tagokat, onnan az elválasztás is adja magát. Vagy még egyszerűbb külön felvenni a szótárba, elválasztási információval együtt, és akkor keresgélni sem kell.
Pont arról van szó, hogy ez eléggé nagy szívás, és egyik szoftver sem tudja igazán jól csinálni. Nyilván igen, egyszerű azt mondani, hogy "meg kell találni az alkotó tagokat", csak éppen ez a kurva nehéz feladat benne.
Olyan ez, mint amikor azt mondják, hogy nem olyan bonyolult a fúzió, csak fent kell tudni tartani a plazmát hosszú időn át, más feladat nincs.
- A hozzászóláshoz be kell jelentkezni
Ahogy írtam, ennél még egyszerűbb a szótárba való (előzetes) felvétel elválasztási információval. Bármit, csak ne az élő nyelvet igazítsuk a géphez. (És ne ragaszkodjunk a nehezebb megoldáshoz. :) )
- A hozzászóláshoz be kell jelentkezni
Pont azzal történik az élő nyelv megerőszakolása igazítása, hogy a hosszú mássalhangzók bevitele és tárolása nem megoldott megfelelően.
A magyar ember jelképe a hátrafelé nyilazás. Vakon rohanunk a semmibe, miközben a múltunkat támadjuk.
- A hozzászóláshoz be kell jelentkezni
Hol, mi nem megoldott? Hol nem lehet "tt"-t meg "ccs"-t írni? Ahogy nézem, elsöprő többségünknek sikerült.
- A hozzászóláshoz be kell jelentkezni
A magyar ember jelképe a hátrafelé nyilazás. Vakon rohanunk a semmibe, miközben a múltunkat támadjuk.
- A hozzászóláshoz be kell jelentkezni
Az. Van egy számítástechnikai probléma, te megtaláltad a(z egyik?) lehető legrosszabb megoldást, és most ahhoz ragaszkodsz.
- A hozzászóláshoz be kell jelentkezni
Igen, ez egy számítástechnikai probléma, amiket az (egyik) eredete az, hogy a számítógép billentyűzetét alapvetően az írógép billentyűzete alapján alkották meg és ott valóban nem volt ennek értelme. De most már lenne és az általam vázolt megoldás az egyetlen igazi megoldás, minden más maximum workaround.
A magyar ember jelképe a hátrafelé nyilazás. Vakon rohanunk a semmibe, miközben a múltunkat támadjuk.
- A hozzászóláshoz be kell jelentkezni
(elnézést, féreértettem)
- A hozzászóláshoz be kell jelentkezni
hosszú mássalhangzókat a "ll", "gg", "kk", stb. ún. geminátákkal jelöljük.
meg vannak a rövid hangot jelölő kettős betűk: gy, ny, ty, …
meg a hosszú hangot jelölő kettős betűk: ggy, nny, tty, … (geminált digráf? trigráf??) :-)
- A hozzászóláshoz be kell jelentkezni
Le a kalappal, köszi a fejlesztést!
- A hozzászóláshoz be kell jelentkezni
erdekes lenne ezt osszekombinalni az LLM-ek tokenizalasara hasznalt SentencePiece algoritmussal, hogy a magyar szovegeket is igy tokenizalja. az most is 3-4 betus szotagokara bontja a szoveget de nem igazan jol...
- A hozzászóláshoz be kell jelentkezni