En is igy tudom, csak probaltam ovatosan fogalmazni, mert egyeseknek itt nagyon mas elkepzeleseik vannak. Az eloszurest is nagyreszt automatizaljak, az emberek nyilvan csak annyit tudnak tenni, hogy random mintakat vesznek belole es, ha ratalalnak valami problemas szovegre, akkor arra is megprobalnak felvenni valami uj szabalyt. Nagyon kicsi a tenyleges rahatas, hogy mibol tanul a modell.
A tabu temakat tobbnyire egy belso "hidden prompt"-tal tiltjak le, ami ugyanolyan termeszetes nyelvu instrukcio, mint amit a felhasznalo ad. Csak ezt a hidden prompt-ot mindig elerakjak a felhasznalo keresenek. Aztan az elelmes felhasznalok rajottek, hogy kell prompt injection-t csinalni es hatastalanitani a belso prompt-ot. A Bing botot raadasul arra is ra tudtak venni, hogy mutassa meg a hidden prompt-ot a felhasznalonak.
A glitch token-es bug meg arrol szolt, hogy - ahogy irod - a betanitas annyira hosszu ido, hogy mindenkeppen sporolni akartak rajta. Az embedding-et nem ismeteltek meg, miutan a tanitohalmazbol kiszedtek valami problemas forrast. Emiatt a halonak megmaradt input node-ja olyan tokenre, amire sosem kapott peldat. Ha ezt meghajtotta valaki, akkor gyakorlatilag vegtelen ciklusba kerulve (nyilvan valami beallitott generalasi meretkorlat miatt vegul megallt) ismetelgette ugyanazt a mondattoredeket.
A supervisor bot-os vegeredmeny-szures amit a Microsoft csinalt a Bing-ben, de annyira benan, hogy a felhasznalo latta, amint szavankent generalodik a "problemas" nyevezetu valasz, aztan egyszercsak visszatorlodik az egesz es kicserelodik valami bugyuta irrelevans sablonvalaszra.
Ez a state of the art AI safety, 2023-ban...