Adott egy cég több telephellyel. Valami régi dbase alapú alkalmazást használnak telephelyenként. Természetesen telephelyenként külön adatbázissal, viszont ugyan azzal a raktárkészlettel. De rengeteg terméket nem ugyan olyan néven vittek fel. Hasonló, de mégis más. Az ember meg tudja állapítani, hogy az ugyan az a termék de mivel 60 ezer tételről van szó kicsit macerás lenne kézzel összehasonlítani őket, viszont migrálni kellene az adatokat a mi rendszerünkbe.
pl.:
B 80186 KARIFA CH.SWI.LUX 160CM
B 80186 KARÁCSONYFA CH.SWIERK LUX MCHS01/160
vagy
Jégoldó spray
Jégoldó-spray
esetleg sima elgépelés
Kulcstartó
Kulctarto
Van esetleg erre valami lib ami megpróbálja eldönteni, hogy A és B string x valószínűséggel ugyan az e?
- 819 megtekintés
Hozzászólások
- A hozzászóláshoz be kell jelentkezni
kurwajó.
--
GPLv3-as hozzászólás.
- A hozzászóláshoz be kell jelentkezni
Mindenkeppen kezzel kell majd a vegen eldonteni, a gep viszont segithet.
Egyebkent tobb rendszerben mar implementaltak a korabban emlitett algoritmust, vagy valami hasonlot:
http://php.net/manual/en/function.similar-text.php
http://php.net/manual/en/function.levenshtein.php
Osszedobsz valami egyszeru feluletet, ami lekeri az osszes nevet, megkeresi ez alapjan a hasonlokat, es felajanlja a usernek, hogy ha szerinte is azonos, akkor osszevonhatja (es valaszthat melyik legyen a vegleges elnevezes).
Ha ujraimplementalod valami masban, a szamokat esetleg erdemes kicsit jobban sulyozni, mert a:
B 80186 KARIFA CH.SWI.LUX 160CM
jobban fog hasonlitani erre:
B 80186 KARIFA CH.SWI.LUX 180CM, mint arra, amit megadtal.
Gepi segitseggel a 60k tetel mar kezelheto meretu.
--
Worrying about killer AI and the superintelligent robots is like worrying about overcrowding on Mars. - Garry Kasparov
- A hozzászóláshoz be kell jelentkezni