( arkhein | 2022. 10. 01., szo – 21:10 )

Szerintem itt valamit félreértettél. Szóval van egy felügyelet nélküli eljárásának, ami a épít egy rakás fát, és megjelöli kiugró értéknek azt amihez mindig gyorsan el lehet jutni a fa gyökeréből. A gond az, hogy nem tudod igazából az anomália vagy csak egy normális megfigyelés ami a PDF farkában van. Vagyis nem tudod, hogy mennyire szennyezett az adatsorod, mennyi igazi anomália van benne. És teljesen mindegy, hogy az valós vagy nem valós adatsor, innentől fogva ez vakrepülés. Például van 105 megfigyelés, 100 normális amiből 5 van az 5% farok tartományban, és 5 abnormális, ami szinten ott van. Ez azt jelenti, hogy optimális esetben is minden második “abnormális” megfigyelés hamis pozitív lesz. A gond, hogy igazából nincs erről az egészről fogalmad, addig amíg nem fogsz minden egyes hibát ellenőrizni.

Ez nem jelenti azt, hogy az iskolation forest rossz, de megvannak a korlátai. Mi is több helyen használjuk, de amikor 100 000+ megfigyelésed van negyedóránként ( mint nálunk ) akkor az 1% anomália is olyan sok hamis riasztást jelent amit nem lehet megnézni. Ez nem igazából az isolation forest hibája, hanem annak, hogy “felügyelet nélküli “ tanulásról van szó (egyszerűen a faroktartomany feláldozásán kívül sok mindent ilyen esetben nem lehet tenni). Viszont az isolation forest csak annyiban jobb mint mondjuk pl. a GMM, hogy független az adatok eloszlásáról.