[megoldva] Adatok hasonlósága

Olyan eszközt keresek, ami két adatsor alapján mond egy korrelációs együtthatót (a hasonlóság mértékére).

Olyasmikre gondolok pl., hogy mondjuk van két műsorújság, amiben egy-egy műsor címe esetleg másként van megfogalmazva, de szeretnénk infót kapni, hogy melyek tartoznak össze. Vagy két sportújságnál egy-egy csapat neve esetleg eltérően szerepel, de mégis, lehet tudni, hogy azok ugyanazok - csak ezt a "lehet tudni"-t szeretném gépesíteni.

Tehát pl. hogy e kettő igazából azonos:

China - Super League
Chongqing SWM
Qingdao Hainiu

china/super-league
Chongqing Lifan
Qingdao Huanghai

Nem olyanra vágyom elsősorban, hogy "valamelyik rész-string megegyezik", hanem valami hash függvényre, amiből kiderül a hasonlóság mértéke. (Python vagy PHP vagy valami Google API (tensorflow?) jön szóba.)

Szerk: Köszönöm a rengeteg segítséget és a tudományos alaposságú iránymutatásokat. Végül a similar_text is megfelelt a célomnak a kellő redundancia miatt. Mindenesetre van új a Nap alatt, mindig van mit tanulni...

Hozzászólások

Fuzzy matching a kedvenc keresőkifejezésed. Fogsz rá találni kész, free könyvtárat, úgy sejtem.

Üdv,
Marci