felirat karakter kódolási probléma

 ( mismis | 2009. május 22., péntek - 13:05 )

Hi all!

Adott egy feliratfájl .STL formátumban, ezt kéne mencoderrel ráégetni videóval.
Az .STL fájlt Subtitle Workshoppal lehet .SRT formátumba konvertálni, amit már megesz a mencoder.
A probléma, hogy a feliratfájlban az ékezetes karakterek nem jók:

Az eredeti fájlban ilyenek vannak:
"hogy egÂesz EurÂopa vele tÂancoljon"
tehát minden hosszú ékezetes karakter rövid és előtte van az a spéci Á betű.

UTF8-ba vagy ISO-8859-2-be kéne áttolni a fájlt,
de az iconv eldobja magát ha UTF8-ként kezelem az inputot (illegal input sequence),
ha nem UTF8-ként kezelem, akkor váltoazatos megoldásokat produkál de sehogy sem az igazi... :S

Találkozott már valaki ilyen kódolással és tud segíteni a megoldásban?

üdv. mis

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

___Hangsúlyozom___, ez egy elég gány megoldás:
nyisd meg a feliratfájlt egy gedit-el, vagy amivel szereted, menj a csere funkcióra, s adott karaktereket cseréld le a megfelelőjére (pl.: Âe -> é). Ezután mentsd el a számodra megfelelő kódolással.

..és tényleg gány megoldás !!! ;)
Na de a lényeg, hogy a probléma tovább bonyolódik, mert ugyanilyen feliratfájlok nem csak magyarul,
hanem csehül, románul stb is előfordulnak :D
Bár gyanítom, hogy ha megvan a magyar helyes "értelmezése", akkor nem lesz probléma a többi nyelv sem.

üdv: mis

S működik legalább? :D
Más nyelvek megfelelő karaktereit is ki lehet nézni.
Egyszer egy text fájlt sikerült így rendbe tennem. Végül is túl sok ékezetünk nincs a magyarban ;)

Főleg, hogy van iconv is. :D :D
--
Coding for fun. ;)

Na látod, ez eszembe se jutott :)

Van a helpjében egy fordítási hiba. Keresgéltem, hol lehetne bejelenteni, de nem találtam, ki a fordító.

"-?, --help Ezt segítséget írja ki" -> "Ezt a segítséget írja ki"

enca/enconv hasznalata talan megoldja problemad (lehet ez is iconv t hasznal de mukodik mikor iconv nem).

enca -L hungarian MOSZKVA_HU.STL
Unrecognized encoding...

sajnos az enca/enconv sincs a helyzet magaslatán.

valahova fel tudnad rakni ezt az stl filet, vagy az srt re konvertalt valtozatat plz.

~/.mplayer/config-ba írd be ezt a sort:

subcp=latin2

--
Debian squeeze

subcp=latin2 nem segít, egy az egyben kiírja ugyanazokat a nagy fura Á betűket... :S

Hát a kettő közül valamelyik?

subcp=latin2
slang=en,hu

vagy

subfont-encoding=unicode
unicode=yes
utf8=yes

--
Debian squeeze

a felirat sima szövegfájl, nem? gondolom az  karakter az ékezetes betűkön kívül nem szerepel valami gyakran. sh, egy sor, nem is hosszú.

:: by BRI.
:: config :: Acer TravelMate // Ubuntu Jaunty
:: tothab [a] gmail [pötty] kom
:: black rose immortal's weblog

Igen sima szövegfáj, de nem az a lényeg hogy shell scriptből hogyan lehetne meghákolni a dolgot,
hanem ez nyilván valami szabványos kódolási formátum, és hogyan lehet más kódolásra,
pl. UTF8 vagy ISO-8859-2-re konvertálni.

miért akarsz valamit úgy csinálni, ahogy nem tudod, ahelyett, hogy úgy csinálnád, ahogy de? főleg, hogy az eredmény ugyanaz...

:: by BRI.
:: config :: Acer TravelMate // Ubuntu Jaunty
:: tothab [a] gmail [pötty] kom
:: black rose immortal's weblog

Sajna azt nem tudom, amit idéztél, milyen formátumban lehet, de
- nem ISO 8859-2, mert az 1 bájt/karakter, itt meg az ékezetes betűk láthatóan 2 bájton vannak
- nem UTF-8, mert ott második bájton nem az adott betű ékezet nélküli formája jelenik meg ASCII-ban nézve.

Azaz nem csodálkozom, ha iconv és társai nem érvényes UTF-8-nak látják.