Szerintem nem ugyanarról beszélünk. Feljebb offtopic módon tomi66 arról írt http://hup.hu/node/100959#comment-1249839, hogy a hash mögött mindig van keresgélés míg a tömb indexálás mögött nincs. Arra próbáltam utalni, hogy a tömb indexálást is fel lehet fogni mint egy egyszerű hasító függvényt.
Ez persze nem magyarázza miért gyorsabb az awk az eredeti problémában. Én úgy gondolom, hogy a valódi hasító függvények a direkt leképezés (a példám) és a leképezés nélküli adatelérés (sort) között helyezkedenek el sebességben.
1. Igen, de nem minden sztring fog ütközni és ha jó a hasító függvény akkor kis elemszámú bucketek lesznek így minimalizálhatja a rendezést/keresést.
2a. Ez nyilvánvaló, hogy súlyos korlátokkal rendelkezik.
2b. Mert elmentem offtopicba tomi66 miatt. Elnézést érte. Jónak láttam a tömb indexelést mint szélsőséges példát a hasító függvényre. Azt lásd be, hogy amit írtam az példa a triviális és perfekt hasító függvényre. A cél egy gyors hasító függvény bemutatása volt.
2. Több konkrét mérési eredményt is írtunk (ahol én publikus text fileokat használtam) és mindenhol az awk lett a gyorsabb nem is kevéssel.