( sinexton | 2022. 07. 11., h – 21:35 )

Jól hangzik :) Pont az a szuper RF-nél, hogy teledobálhatod sok feature vektorral, míg a többi modell leromlik, ez nem igazán.

Ettől a ponttól kezdve a feature engineeringen (FE) fog múlni a teljesítmény. Bármit is dobálsz be, ha van összefüggés, megtalálja.

További FE-re ötlet:

A betett vektorok egymás közötti szorzata, összege és különbségük abszolút értéke is bemehetne, nem baj ha szorozza a számukat - persze nem érdemes elrobbantani a számukat, mondjuk jó lenne ha 30 vagy legalább 100 alatt maradna az összes - tapasztalatom alapján ez a pár alap művelet elég, mert már megnyitja akkorára a kombinációs terét az összefüggéseknek, hogy a regressziós elemzésnek elégséges - tehát nincs szükség négyzetre, gyökre és hasonlókra

Hogy ne mindent mindennel kelljen összehasonlítani, lecsökkenthető az elrobbanó kombináció úgy, hogy determinisztikus módon összekevered az X-eket minden sorban ugyanúgy, és a szomszédos X-ek között csinálod a műveletet (összeadás stb). Ezzel csak 3-szorosára nő az X-ek száma a 3 művelet miatt, nem lesz négyzetes. A keverés azért fontos, hogy dolgozni tudjon a véletlen eloszlás és a nagy számok törvénye jól ossza szét a műveleteket.

Illetve amiket írtam feljebb FE-ket is megcsinálhatnád ha lesz rá időd.

Lehetne szó kezdetről csinálni FE-t és a végéről is. Például magánhangzók és mássalhangzók aránya.

Illetve lehetne egy csökkenő súlyozás a betűk típusára normál és fordított szóra is, mely így a szó kezdetére és végére is ad egy szempontot. Például úgy, hogy nullának vesszük a mássalhangzót, és 1-nek a magánhangzót, majd minden szónál úgy csinálod ezt a pontozást, hogy végig mész a betűkön és a pozíciójuk köbét veszed súlynak és súlyozott átlagot számolsz. Nézzük az alma szót:

0. index = a betű, tehát értéke 1

1. index = l betű, értéke 0

2. index = m, értéke 0

3. index = a, értéke 1

Súlyozott aritmetikai átlag:

( 0^3 * 1 + 1^3 * 0 + 2^3 * 0 + 3^3 * 1 ) = 27

ez osztva a súlyok összegével:

( 0^3 + 1^3 + 2^3 + 3^3 ) = 36

eredmény:

0.75

Így egy balanszot kapunk a szavakban a mással és magánhangzók eloszlásáról. Lehet hogy segít, lehet hogy nem.

Meg ilyenekkel kellene teletenni, aztán a 3 műveleti kombináció, és úgy ráengedni :)