[megoldva] Adatok hasonlósága
Olyan eszközt keresek, ami két adatsor alapján mond egy korrelációs együtthatót (a hasonlóság mértékére).
Olyasmikre gondolok pl., hogy mondjuk van két műsorújság, amiben egy-egy műsor címe esetleg másként van megfogalmazva, de szeretnénk infót kapni, hogy melyek tartoznak össze. Vagy két sportújságnál egy-egy csapat neve esetleg eltérően szerepel, de mégis, lehet tudni, hogy azok ugyanazok - csak ezt a "lehet tudni"-t szeretném gépesíteni.
Tehát pl. hogy e kettő igazából azonos:
China - Super League
Chongqing SWM
Qingdao Hainiu
china/super-league
Chongqing Lifan
Qingdao Huanghai
Nem olyanra vágyom elsősorban, hogy "valamelyik rész-string megegyezik", hanem valami hash függvényre, amiből kiderül a hasonlóság mértéke. (Python vagy PHP vagy valami Google API (tensorflow?) jön szóba.)
Szerk: Köszönöm a rengeteg segítséget és a tudományos alaposságú iránymutatásokat. Végül a similar_text is megfelelt a célomnak a kellő redundancia miatt. Mindenesetre van új a Nap alatt, mindig van mit tanulni...
- Tovább ([megoldva] Adatok hasonlósága)
- 212 megtekintés