Olyan eszközt keresek, ami két adatsor alapján mond egy korrelációs együtthatót (a hasonlóság mértékére).
Olyasmikre gondolok pl., hogy mondjuk van két műsorújság, amiben egy-egy műsor címe esetleg másként van megfogalmazva, de szeretnénk infót kapni, hogy melyek tartoznak össze. Vagy két sportújságnál egy-egy csapat neve esetleg eltérően szerepel, de mégis, lehet tudni, hogy azok ugyanazok - csak ezt a "lehet tudni"-t szeretném gépesíteni.
Tehát pl. hogy e kettő igazából azonos:
China - Super League
Chongqing SWM
Qingdao Hainiu
china/super-league
Chongqing Lifan
Qingdao Huanghai
Nem olyanra vágyom elsősorban, hogy "valamelyik rész-string megegyezik", hanem valami hash függvényre, amiből kiderül a hasonlóság mértéke. (Python vagy PHP vagy valami Google API (tensorflow?) jön szóba.)
Szerk: Köszönöm a rengeteg segítséget és a tudományos alaposságú iránymutatásokat. Végül a similar_text is megfelelt a célomnak a kellő redundancia miatt. Mindenesetre van új a Nap alatt, mindig van mit tanulni...
- 212 megtekintés
Hozzászólások
- A hozzászóláshoz be kell jelentkezni
Fuzzy matching a kedvenc keresőkifejezésed. Fogsz rá találni kész, free könyvtárat, úgy sejtem.
Üdv,
Marci
- A hozzászóláshoz be kell jelentkezni
PHP-ban van beépített függvény hasonlóságra is (similar_text()) és Levenshtein távolságra is (levenshtein()).
- A hozzászóláshoz be kell jelentkezni
itt van pár algoritmus https://github.com/tdebatty/java-string-similarity
- A hozzászóláshoz be kell jelentkezni