egymáshoz hasonló stringek keresése

Fórumok

Adott egy cég több telephellyel. Valami régi dbase alapú alkalmazást használnak telephelyenként. Természetesen telephelyenként külön adatbázissal, viszont ugyan azzal a raktárkészlettel. De rengeteg terméket nem ugyan olyan néven vittek fel. Hasonló, de mégis más. Az ember meg tudja állapítani, hogy az ugyan az a termék de mivel 60 ezer tételről van szó kicsit macerás lenne kézzel összehasonlítani őket, viszont migrálni kellene az adatokat a mi rendszerünkbe.

pl.:
B 80186 KARIFA CH.SWI.LUX 160CM
B 80186 KARÁCSONYFA CH.SWIERK LUX MCHS01/160

vagy

Jégoldó spray
Jégoldó-spray

esetleg sima elgépelés

Kulcstartó
Kulctarto

Van esetleg erre valami lib ami megpróbálja eldönteni, hogy A és B string x valószínűséggel ugyan az e?

Hozzászólások

Mindenkeppen kezzel kell majd a vegen eldonteni, a gep viszont segithet.
Egyebkent tobb rendszerben mar implementaltak a korabban emlitett algoritmust, vagy valami hasonlot:
http://php.net/manual/en/function.similar-text.php
http://php.net/manual/en/function.levenshtein.php

Osszedobsz valami egyszeru feluletet, ami lekeri az osszes nevet, megkeresi ez alapjan a hasonlokat, es felajanlja a usernek, hogy ha szerinte is azonos, akkor osszevonhatja (es valaszthat melyik legyen a vegleges elnevezes).

Ha ujraimplementalod valami masban, a szamokat esetleg erdemes kicsit jobban sulyozni, mert a:
B 80186 KARIFA CH.SWI.LUX 160CM
jobban fog hasonlitani erre:
B 80186 KARIFA CH.SWI.LUX 180CM, mint arra, amit megadtal.

Gepi segitseggel a 60k tetel mar kezelheto meretu.

--
Worrying about killer AI and the superintelligent robots is like worrying about overcrowding on Mars. - Garry Kasparov