Szeretnék felismertetni folyó szövegben címeket, amik utcákat, tereket tartalmaznak perles regex-szel.Három találatot szeretnék pl a következő szövegben:
Hogy aszondja példának okáért Budapest X. ker. Basa tér 15/A az very good. Viszont hasonlóan szuper a Budapest Áldás utca 12 de akkor már Debrecenben is egy: 2131 Debrecen Nagy u. 34 nem máshol ám.
A http://www.regexpal.com/ -on teszteltem és ez elég jól működik ezen a szövegen:
(\d{4})?\s*[A-ZÁÉÍÓŐÚŰ]\S*\s*\S*\s*(Ker.|ker.|kerület|Kerület)*\s*[A-ZÁÉÍÓŐÚŰ]\S*\s(tér|utca|u\.)\s\S*
Jó lesz ez így?
- 3804 megtekintés
Hozzászólások
Egy cimbol nem szokott hianyozni a telepulesnev, marpedig ebbol kb. 1200 darab van az orszagban (gondolom a hazai cimek erdekelnek, a regexped is arra van kihegyezve). Ezeket talan a posta oldalarol toltottem le egy iranyitoszamos tablazattal egyutt.
Szoval en a helyedben eloszor megkeresnem az osszes telepulest a szovegben, es annak a kornyezetet analizalnam regexppel a telepulesnev parametereben. Az utca/ut/ter/sugarut/korut stb. nevekbol is van egy par, de az is megall ugy 30 korul (talan az adobevallasos xml-bol kinyerheted mindet).
Ha szamit, akkor a helyrajzi szamos cimek formatumara is figyelj! (illetve ha postacim, akkor a postafiok is kellhet)
A telepules, a terulet tipusa, es az esetleges iranyitoszam meglete mar eleg jo alapot ad a tovabbi elemzeshez.
--
"Ne kúrd el mégegyszer a karakterkészletet, mert akkor ez a file is conflictolni fog a merge serveren és ez azért eléggé bosszantó!"
- A hozzászóláshoz be kell jelentkezni
Köszi!
ezek remek ötletek, még annyit teszek hozzá az utókornak, hogy közterület jellege sem áll ám meg 30 körül:
akna\-alsó|akna\-felső|akna|alagút|alsórakpart|arborétum|autóút|barakképület|barlang|bejáró|bekötőút|bányatelep|bánya|bástyája|bástya|csárda|csónakházak|domb|dűlők|dűlősor|dűlőút|dűlőterület|dűlő|egyetemváros|egyéb|elágazás|emlékút|erdészház|erdészlak|erdősor|erdő|fasora|fasor|felső|forduló|főmérnökség|főtér|főút|föld|gyárváros|gyártelep|gyár|gyümölcsös|gátsor|gátőrház|gát|határsor|határút|hegy|hegyhát|hegyhát dűlő|hegyhát|köz|hrsz\.|hrsz|ház|hídfő|iskola|játszótér|kapu|kastély|kertsor|kert|kerület|kilátó|kioszk|kocsiszín|kolónia|korzó|krt\.|krt|kultúrpark|kunyhó|körtér|körvasútsor|körzet|körönd|körút|kör|köz|kút|kültelek|lakóház|lakókert|lakónegyed|lakópark|lakótelep|lejtő|lejáró|liget|ltp\.|ltp|lépcső|major|malom|menedékház|munkásszálló|mélyút|műút|oldal|orom|parkja|parkoló|park|part|pavilon|piac|pihenő|pincesor|pince|postafiók|puszta|pályaudvar|pálya|rakpart|repülőtér|rkp\.|rkp|rész|rét|sarok|sgt\.|sgt|sora|sor|sportpálya|sporttelep|stadion|strandfürdő|sugárút|szer|sziget|szivattyútelep|szállások|szállás|szél|szőlőhegy|szőlők|szőlő|sánc|sávház|sétány|tag|tanyák|tanya|telep|temető|tere|tető|turistaház|téli kikötő|tér|tömb|udvar|utak|utcája|utca|vadaskert|vadászház|vasúti megálló|vasúti őrház|vasútsor|vasútállomás|vezetőút|villasor|vágóhíd|várköz|város|vár|vízmű|völgy|zsilip|zug|állat és növ\.kert|állomás|árnyék|árok|átjáró|őrházak|őrházlak|őrház|útja|útőrház|út|üdülő\-sor|üdülő\-part|üdülő|u\.|u
- A hozzászóláshoz be kell jelentkezni
Ezt én leginkább machine learning-re bíznám.
- A hozzászóláshoz be kell jelentkezni
+1 Erre a problémára csak részleges megoldás a regex. Minden lehetséges kombinációt (beleértve a félregépeléseket) nem lehet vele megoldani.
- A hozzászóláshoz be kell jelentkezni
[Feliratkozás]
- A hozzászóláshoz be kell jelentkezni