Ahhoz, hogy PoC szintjén el tudd dönteni, hogy egy adatból lehet az üzlet számára értékes információt kinyerni, nem kell felépíteni egy teljes bigdata rendszert. Az akkor kell, amikor már tudod, hogy élesben X adatból Y információ kinyeréséhez nincs más mód, mint egy bigdata klaszter.
További nehezítés hogy egy csomó adat elveszik ha nem rakod el
Az az adat, amire nincs szükség, nyugodtan vesszen el.
Nekem megvan x évre visszamenőleg egy csomó mért hőmérséklet érték. Kinti, benti, fűtés állapota, stb.
Ha úgy ránézel nem ér semmit. Ha gépi tanulós rendszert akarsz betanítani ... na akkor mindjárt más a szitu.
Nem biztos, hogy egy X évvel ezelőtti érték használható arra, hogy a mostani állapot alapján prediktálj. Mivel más volt X éve a környezet, öregedett a fűtésrendszer vagy épp felújítást csináltál stb. Az adat is elavul idővel, és értéktelen/elavult adaton tanítani egy gépi tanulásos rendszert hibára vezet.
Ugyanez igaz a többi mért adatra is, tök irreleváns, hogy X évvel ezelőtt milyenek voltak az adatok, ha te a jelenlegi adatokból akarsz információt kinyerni.
Egy gyár esetében is, tök irreleváns, hogy 5 évvel ezelőtt milyen módon működött a gyártás, és milyen információt lehetne onnan kinyerni - a fontos, hogy most mi van.