Jól hangzik :) Pont az a szuper RF-nél, hogy teledobálhatod sok feature vektorral, míg a többi modell leromlik, ez nem igazán.
Ettől a ponttól kezdve a feature engineeringen (FE) fog múlni a teljesítmény. Bármit is dobálsz be, ha van összefüggés, megtalálja.
További FE-re ötlet:
A betett vektorok egymás közötti szorzata, összege és különbségük abszolút értéke is bemehetne, nem baj ha szorozza a számukat - persze nem érdemes elrobbantani a számukat, mondjuk jó lenne ha 30 vagy legalább 100 alatt maradna az összes - tapasztalatom alapján ez a pár alap művelet elég, mert már megnyitja akkorára a kombinációs terét az összefüggéseknek, hogy a regressziós elemzésnek elégséges - tehát nincs szükség négyzetre, gyökre és hasonlókra
Hogy ne mindent mindennel kelljen összehasonlítani, lecsökkenthető az elrobbanó kombináció úgy, hogy determinisztikus módon összekevered az X-eket minden sorban ugyanúgy, és a szomszédos X-ek között csinálod a műveletet (összeadás stb). Ezzel csak 3-szorosára nő az X-ek száma a 3 művelet miatt, nem lesz négyzetes. A keverés azért fontos, hogy dolgozni tudjon a véletlen eloszlás és a nagy számok törvénye jól ossza szét a műveleteket.
Illetve amiket írtam feljebb FE-ket is megcsinálhatnád ha lesz rá időd.
Lehetne szó kezdetről csinálni FE-t és a végéről is. Például magánhangzók és mássalhangzók aránya.
Illetve lehetne egy csökkenő súlyozás a betűk típusára normál és fordított szóra is, mely így a szó kezdetére és végére is ad egy szempontot. Például úgy, hogy nullának vesszük a mássalhangzót, és 1-nek a magánhangzót, majd minden szónál úgy csinálod ezt a pontozást, hogy végig mész a betűkön és a pozíciójuk köbét veszed súlynak és súlyozott átlagot számolsz. Nézzük az alma szót:
0. index = a betű, tehát értéke 1
1. index = l betű, értéke 0
2. index = m, értéke 0
3. index = a, értéke 1
Súlyozott aritmetikai átlag:
( 0^3 * 1 + 1^3 * 0 + 2^3 * 0 + 3^3 * 1 ) = 27
ez osztva a súlyok összegével:
( 0^3 + 1^3 + 2^3 + 3^3 ) = 36
eredmény:
0.75
Így egy balanszot kapunk a szavakban a mással és magánhangzók eloszlásáról. Lehet hogy segít, lehet hogy nem.
Meg ilyenekkel kellene teletenni, aztán a 3 műveleti kombináció, és úgy ráengedni :)