- trey blogja
- A hozzászóláshoz be kell jelentkezni
- 482 megtekintés
Hozzászólások
Sokan nem tudják, de matematikailag bizonyított TÉNY, hogy egy neurális háló bármilyen cél függvényt képes közelíteni. Ennek az a következménye, hogy bármit képesek vagyunk megtanulni a gyakorlatban, ha elég sokáig csináljuk és van rá időnk.
Nyilván nem végtelen pontossággal, mert gyakorlati valóságunkban nincs 0% és 100% (a bemeneti információban is fluktuál a hiba szint), de a tanulásunk során folyamatosan módosítgatjuk idegi kapcsolatainkat a feedback alapján (mennyire volt pontos az ugrás?) és így az idegsejtek közti súlyozásokat, melyekkel ezért egyre jobban tudjuk közelíteni a célt.
Tehát tényleg nem érdemes feladni. A tanulás sebessége és minden egyéb faktor mindenkinél különböző, de önmagunkhoz képest mindig van előre lépés.
Ezért tudják tökéletesíteni a darts-osok vagy billiárdosok a képességüket hihetetlen szintre.
Amit el kell tudni fogadni, az az, hogy a tudás növekedése mindig logaritmikus lesz. Tehát önmagunkhoz képest lassuló.
https://www.geogebra.org/graphing/q4zb8wpf
Vagy másképpen fogalmazva, az idővel megtanulható ÚJ anyag mértéke hiperbolikus, vagyis az idő teltével egyre kisebb. De soha nem nulla!
https://www.geogebra.org/graphing/nnaenybm
Ez a csökkenés azért van általában, mert az általunk bejárt kombinációs térben a megtanult új tudás adag után a következő új tudás messzebb lesz térben és időben. Ezért tovább tart ahhoz eljutni. És hiába kezdjük gyorsabban és nagyobb adagban tanulni, akkor ahhoz a tempóhoz képest lesz lassuló.
Például ha valaki nyelvet tanul, akkor amilyen szakmában mozog, abban elkezded felszívni és megtanulni az új szavakat. De bizonyos fogalmakkal egyre ritkábban találkozik. Például egy szakácsnak nem valószínű hogy kelleni fog a csapágy fogalma. De ha találkozik vele és megtanulja, akkor ÖNMAGÁHOZ képest nő a tudás gömbje, de a még újabb dolgok még messzebb kerülnek, mert a saját területén belül mozog, mely terület így nőtt és egyre ritkábban fog "kiérni" belőle.
Végtelen ideig növelhetjük a képességünket, de csak lassuló módon.
- A hozzászóláshoz be kell jelentkezni
Sokan nem tudják, de matematikailag bizonyított TÉNY, hogy egy neurális háló bármilyen cél függvényt képes közelíteni.
Tudnád egy kicsit pontosabban idézni a tétel feltételeit? Mit értesz azon, hogy "bármilyen célfüggvényt képes közelíteni"? Gondolom, van valami simasági feltétel, mert csak úgy általánosan n változós valós függvény kontinuum sok van, arról véges sok már ismert pont semmit nem mond.
Arról is lehet mondani ezt-azt, hogy ez idézett tétel modellezi-e a valóságot. Arra is van tétel, hogy akkor is érvényes, ha a neurális háló amikor próbálkozik, akkor nem tudja meg a függvény változóját, hanem ahhoz is adunk egy zajt (érzékszervek pontossága)? Mond-e valamit a tétel konvergencia sebességéről és a szükséges neurális háló méretéről? Vagy csak annyi az eredmény, hogy végtelenül pontos kísérleteket végezve, végtelenül nagy aggyal bármit (ami a változóinak, mondjuk, kétszer folytonosan differenciálható függvénye) meg lehet tanulni?
- A hozzászóláshoz be kell jelentkezni
Az utóbbi mondatod a válasz. Tehát végtelenségig növelt idegi kapcsolatoknak van végtelen tanulási kapacitása.
https://en.wikipedia.org/wiki/Universal_approximation_theorem
Universal approximation theorems imply that neural networks can represent a wide variety of interesting functions when given appropriate weights. On the other hand, they typically do not provide a construction for the weights, but merely state that such a construction is possible.
De megmagyaráznám itt a végtelen kérdését, mely nem létezik gyakorlatunkban, de mégis a gyakorlatra vonatkoztattam.
Több dolog van. Egyrészt a megfelelő súlyok megállapítása elengedhetetlen. Ez maga a tanulás.
De ezt a gyakorlati mechanizmusok megoldják az emberekben is egy trial-and-error megközelítéssel, melynél a kivitelezés minősége látszik az eredményében, mely eredmény pedig a feedback-ből jön. Ezért látszik, hogy melyik irányba kell mozdulni. Így mindig tovább közelíthető. Illetve a T&E mellett a régebbi tapasztalatból származó tudás is tovább segíti a döntés irányát a következő próbánál, lásd lejjebb a genetikai algó hivatkozásomat.
Az is igaz azonban (ahogy feljebb én is utaltam rá), hogy maga a feeedback sem tökéletes (például nincs végtelen éles látásunk). És ha még az is lenne, akkor is kell a trial-and-error.
Véleményem az, hogy a "gyors" konvergálást a jobb eredményre 2 dolog garantálja:
1) A Monte Carlo mintavétel gyors konvergálása az elején (ez is lassuló), mely ugye úgy működik, hogy ha egy tetszőleges dimenziójú és nagyságú kombinációs térből teljesen véletlen módon mintavételezünk, akkor a kombinációs tér fontos struktúráinak (halmazainak) bejárása (megismerése) nagyon gyors az elején. Ezt pont a nagy számok törvényének matematikai tétele garantálja és segíti. Miért? Mert a mintavétel számának növelésével egyre pontosabb képet kapunk a struktúrák (halmazok) valós arányáról. Tehát ez az egyik erős mechanizmus a gyors tanulási konverzióban.
https://en.wikipedia.org/wiki/Law_of_large_numbers
(Rengeteget lehetne még erről beszélni. például a MC konverzió lassulása hogy ugorható át. Ide szintén használható egy új dimenzióban megvalósított trial-and-error, lásd például a genetikai algoritmusokat, melyek a véletlen eredmények közül a sikereseket kombinálják tovább, így a véletlen és a konzekvens döntés is mind szerepet játszik. Illetve a trial-and-error kombináció dimenziója tovább emelhető. Ez a reinforcement learning kutatási területe. Lásd Q learning és hasonlók.)
2) A másik ok pedig a fenti tétel, hogy elegendő mértékű modell komplexitással (elég idegsejt és kapcsolat szám) "elegendő" komplexitást tudunk leírni. Itt az elegendő szó a legfontosabb kulcs. Ugyanis ha a gyakorlati tökéletlenségek (információs zaj) szintjén belülre tudunk jutni a közelítéssel, akkor már elegendő a tanulás mértéke. Ez viszont szintén gyorsan tud megtörténni, ugyanis a feedback hiba szintjén belülre akarunk eleve kerülni a gyakorlatban. Ezzel magyarázom meg a végtelen kontra véges elégségét.
Példa: ahogy a fenti videóban látszik, a srácnak NEM KELL végtelen, atomi pontossággal elérkeznie egy tanulási fázishoz. Hanem ez helyett amint átfordul a deszka és rajta tud maradni az ugrás után, azt már sikernek definiálja.
Ezt fontos megérteni, hogy materiális valóságunkban a fizikai folyamatoknál nem végtelen kicsi hibát célzunk közelíteni, hanem egy adott gyakorlati limiten belülre akarunk csak kerülni. Viszont ahhoz meg "bőven" elég az idegi kapcsolatok száma. Ez is megmutatható a modell komplexitás elégségével a kombinációs tér méretéhez képest viszonyítva.
Itt találkozik az elmélet és a gyakorlat.
Remélem érthetően megválaszoltam a kérdésedet.
- A hozzászóláshoz be kell jelentkezni
Igen, valami ilyesmire gondoltam, hogy folytonos függvényről van szó, és a konvergencia sebességéről, a szükséges bonyolultságról semmit sem mond. Ami nagyon szép, csak kellene még egy csomó további eredmény ahhoz, hogy a gyakorlatra is vonatkozzon. A neurális hálókkal nem foglalkoztam eddig, de más közelítési problémánál már láttam ilyet: az, hogy közelíthető valamilyen függvényosztály egy tetszőleges tagja valamilyen másik függvényosztállyal (polinomokkal, szakaszosan polinomiális függvénnyel, az bizonyítható. Aztán, hogy a gyakorlatról is szóljon, még meg kell mutatni, hogy ez akkor is igaz, ha az együtthatókat csak véges sok számjegy pontosan ábrázolod, és ehhez már a hibát is meg kell becsülni, és további megszorításokat ad a függvényre.
A nagy számok tételével éppen a MC integrálás és a szimulált hőkezeléses optimalizációval kapcsolatban van némi tapasztalatom: az 1/sqrt(N) hiba egy idő után nem lassú, hanem szinte áll. És ha a végén be akarod fejezni valamilyen gradiens- vagy kvázi-Newton-módszerrel, akkor megint nagyon sok megszorítást kapsz.
Ezzel csak azt akartam mondani, hogy milyen messze van egy matematikai eredmény attól, hogy olyan filozófiai következtetéseket vonjunk le belőle, hogy "soha ne add fel". Mert látszólag az approximációs tételek ezt mondják. De ha már van hibabecslés, akkor úgy hangzana, hogy "soha ne add fel, de tudd, mibe kezdesz bele".
- A hozzászóláshoz be kell jelentkezni
Pont, hogy a hiba nem nagy (alacsony a megugrandó kerítés).
Másik, hogy a fenti tételben nem az az izgalmas, hogy a konverzió lassul és így a végtelen nem elérhető. Hanem az az izgalmas, hogy bármilyen és bármennyi absztrakciós rétegen keresztül is meg tud tanulni bármit.
Vegyük példának az emberi kart. Hogyan mozgatjuk a karunkat? Hogyan tudunk feedback-et kapni és irányítani, miközben egy komplex N dimenziójú idegi hálón keresztül tudjuk csak megtenni?
Úgy tudjuk, hogy bármit meg tud tanulni. (Természetesen van hozott tudás a gén programja miatt, de erről később.). Tehát mindegy milyen komplex az absztrakciós réteg (mennyire komplex a fekete doboz az input és output között), tudja közelíteni "elég" pontossággal az idegi háló. Ez a fenti lényege.
Ahhoz, hogy lefelé nyúljunk és megfogjunk egy tányért, nagyon komplex mechanizmus megy végbe. És ha mellé nyúlnánk, akkor a vizuális feedback miatt tudunk korrigálni. Nyilván a neurális háló backpropagation metódusa biztos messze van az emberi agy tanulási mechanizmusától (nekem alapból nem tetszik a backprop), de az eredmény ugyanaz.
Nem abban kell gondolkodni, hogy a log növekedés szinte nulla lesz egy idő után. Hanem hogy a gyakorlatban több, mint elegendő a modell komplexitás evolúciós szempontból. Ez az izgalmas. De ehhez kell a fenti tétel.
Gyakorlati optimalizációknál nem szabad végtelenekben gondolkodni, mert akkor csak falakat látni és a nulla és végtelen között nem látszik az optimum (kivitelezhető lehetőség).
Tehát igen, egyetértünk, hogy véges komplexitású modellel nem lehet végtelen komplex összefüggést megtanulni. Viszont a gyakorlatban elég magasan vannak a hiba korlátok. Persze ehhez kell elég tanító adat is. Ez külön érdekes terület.
Ugye az ember kevés adatból is jól tanul. Ez mondjuk egyrészt a gén emlékezetnek is köszönhető (a macska nem azért tudja születése után, hogy hogyan kell tisztálkodni, mert elleste a szüleitől, hanem emlékezik a génje, tehát az agya előre programozott tudást IS hoz). Erre van külön kutatási terület, hogy a formák adnak inputot (félkör, kör, négyzet "szerű" alak, ahhoz hogyan kapcsolódik más egyszerű forma, például egy teherautó egy téglalap és 2 kör stb és ez alapján generalizálni a tudást, egyre részletesebb és mélyebb összefüggésekkel).
De ez a jelenlegi téma szempontjából nem érdekes, mert ez már az idegi kapcsolatok súlyának beállításáról szól (ami a tanulás). De mi arról beszélünk, hogy létezik olyan súly kombináció, amely "elég" jól közelíti, és ez a gyakorlati lényeg.
Egyetértek, hogy nem mindegy, mekkora hibával kell közelíteni, és hogy az megugorható-e. Viszont mivel a további tanulás arról szól (aka ne add fel), hogy még több infót viszünk be, majd azt szintetizáljuk a gondolatainkban, ezért ez tovább növekvő tanító adatot jelent. És mivel a gyakorlatban a cél függvény egyszerű (rajt tud-e maradni az ugrás után a deszkán vagy nem), ezért belátható, hogy a modell komplexitás elegendő. (Persze, ez nem rigorous bizonyítás, de ettől most tekintsünk el).
Tehát a cél függvény "egyszerűsége" adja a megugorható korlátot. Nyilván jövő jóslása túl bonyolult lenne az embernek, pl politikai szempontból, a sok trilliárd befolyásoló faktor miatt. Ez már nem kivitelezhető. Csak itt már a cél függvény magasan komplex.
Tehát a cél függvény relatív egyszerűsége a kulcs.
- A hozzászóláshoz be kell jelentkezni
Na, először is meg kéne érteni, hogy mit mond a matetmaikai tétel. Nem azt, hogy tetszőleges neurális háló tetszőleges függvényt képes tetszőleges epszilon pontossággal közelíteni, hanem azt, hogy bármely függvényre és epszilonra található olyan neurális háló, amely a függvényt közelíti.
Viszont ez nem mond semmit arról, hogy az a neurális háló mennyire pontosan közelít más függvényeket.
Megint az van, hogy nem igazán érted ennek a matekját, csak olvastál róla.
A dartosok meg a billiárdosok azért tudnak ilyen képességekre szert tenni, mert van agyi plaszticitás, az agy neurális hálója rugalmas.
Másként mondva: polinomok összegével is tetszőlegesen tudok közelíteni bármely függvényt (lásd Taylor-polinom és Taylor-sor), de egy adott Taylor-polinom csak egy adott függvényt közelít.
Mint ahogy egy adott neurális háló is csak egy adott függvényt közelít. Nem lettünk semmivel sem előrébb az igazi AI felé, és ennek semmi köze a biológiai neurális hálókhoz.
Csak persze könnyű keverni a tudományt meg a tudományos ismeretterjesztés elnagyolt fogalmait.
- A hozzászóláshoz be kell jelentkezni
Szerintem nem beszéltem tetszőleges NN konfigurációról, mert akkor egyetlen perceptront is például vehetnénk, ami könnyen láthatóan rossz lenne.
Nézd meg kérlek az elmélet gyakorlathoz való átmenetéhez a magyarázatomat. Könnyű helyet foglalnod a végtelen tökéletes elmélet szempontjából a vitában és így azt sejtetni, hogy az én érvem rossz, mert nem felel meg az általad most kitalált végtelenül tökéletes feltétel rendszernek. Ez egy vitatkozási hack részedről.
Pont hogy a gyakorlati nehézségről beszélek, mely mégis ad kivitelezési lehetőséget. Ez az izgalmas. Azt megérteni, hogy miért járulnak ezek mégis hozzá ahhoz, hogy rendkívül komplex folyamatokat meg tudunk tanulni, mi emberek és az állatok is. Például, hogy egy majom miért tud ennyire pontosan ugrani két fa között és elkapni az ágat, miközben ingadozik az az ág is, amiről elugrik. Elég komplex feladat.
- A hozzászóláshoz be kell jelentkezni
Ezt mondd annak a focistanak aki szazezredik tizenegyest rugva is kepes egyszerre fole es mellerugni. :)
- A hozzászóláshoz be kell jelentkezni
> Sokan nem tudják, de matematikailag bizonyított TÉNY, hogy egy neurális háló bármilyen cél függvényt képes közelíteni. Ennek az a következménye, hogy bármit képesek vagyunk megtanulni a gyakorlatban, ha elég sokáig csináljuk és van rá időnk.
Ezzel a gondolattal pontosan ugyanaz a probléma, mint a statisztikai elemzéseiddel: ha nincsen meg a bemenet, vagy csak zaj a bemenet, vagy ha nem is létezik optimum, akkor az egésznek se füle se farka és akármeddig üthetjük vasat értelmetlen marad.
A videóhoz: a kunsztot azért lehet megcsinálni vakon, mert nincsen elég olyan véletlen külső zavarforrás, amit csak a látás alapján tudna visszacsatolni. Tehát ez még egy olyan kunszt, amit _meg lehet csinálni vakon_ és ezért volt értelme gyakorolnia, és valóban sikerült is neki.
De ettől még vannak olyan kunsztok, amiket képtelenség vakon megcsinálni, és azokat gyakorolhatja akármeddig, sosem fog sikerülni neki.
Ez a "bármire képes vagy" egy amerikai filmes idióta szlogen, ami helyett az igazság az, hogy "sok gyakorlással tetszőlegesen meg tudod közelíteni a fizikai korlátaidat". Csak ez utóbbi nem hangzik olyan jól, pedig valójában éppen annyira motiváló egy jó közegben, és nemutolsósorban legalább igaz is.
A "bármire képes vagy" szlogennel az a baj, hogy sokan szó szerint értik, aztán depressziósak lesznek, hogy nem lett belőlük Amerika Kapitány, akárhogy is akarták, akármennyit is gyakoroltak.
- A hozzászóláshoz be kell jelentkezni
A fizikai korlátok miatt lassuló a konvergencia. De fejlődés akkor is van.
Arról nem beszéltem szerintem, hogy szupermenné válhatsz. Kicsit kisarkítod, torzítod és figyelmen kívül hagysz elhangzott dolgokat.
- A hozzászóláshoz be kell jelentkezni
.
- A hozzászóláshoz be kell jelentkezni
LIKE! :)
- A hozzászóláshoz be kell jelentkezni
Elképzelem:
Deszkázott korábban is. lefejelt egy korlátot, azóta nem lát. Folytatja a deszkázás. Kimegy egy busz elé és meghal.
Ez az! Soha ne add fel! :)
Amúgy ostoba arts poetica, még ha jól is hangzik. Egy okos ember tudja mikor az elég.
- A hozzászóláshoz be kell jelentkezni