Az OpenAI kiadta az o1-preview összetett érvelési feladatokban használható verzióját

OpenAI bemutatta az "o1"-et, egy új, nagy nyelvi modellt, amelyet megerősítéses tanulással képeztek ki összetett érvelési feladatokra. A modell jelentősen felülmúlja a korábbi modelleket a versenyszerű programozásban és az akadémiai teszteken.

  • A modell egy lépésről lépésre történő gondolkodási megközelítést alkalmaz, javítva érvelési képességeit azáltal, hogy a válaszadás előtt lépésenként gondolkodik. Figyelemre méltó fejlődést mutatott a fizikai, biológiai és kémiai problémamegoldásban, felülmúlva a PhD szintű emberi pontosságot.
  • Az OpenAI o1 modell kiemelkedő a komplex érvelésben és az akadémiai feladatokban, egy lánc-gondolkodási folyamatot használ, de továbbra is fejlesztések alatt áll a szélesebb körű használhatóság érdekében.
  • A modell a Codeforces versenyszerű programozásban a 89. percentilisbe tartozik, az USA Matematikai Olimpia (AIME) legjobb 500 diákja közé került, és meghaladja a PhD szintű emberi pontosságot a GPQA teszteken fizikában, biológiában és kémiában. A teljesítménye a tesztidőben növelt számítási kapacitással skálázódik.
  • Matematikai teszteken, mint az AIME, az "o1" 93%-os pontosságot ér el konszenzusos újrarangsorolással, jelentősen felülmúlva a GPT-4o-t (12%), és vetélkedve az emberi szakértőkkel. Az áteresztő pontossága 54/57 MMLU alkategóriában javult, azt mutatva, hogy a hosszabb gondolkodási láncok következetesen javítják az eredményeket az érvelés-központú feladatokban.
  • Az "o1" modell jelenleg egy korai kiadású verzióban érhető el, amelyet "o1-preview"-nak neveznek, és a ChatGPT-n keresztül, valamint megbízható API-felhasználók számára érhető el. A modellt továbbra is finomítják a könnyebb használhatóság érdekében.

(Claude 3 Opus-szal fordítva)

(A cikk nyomokban Mesterséges Intelligencia által szolgáltatott adatokat tartalmaz, így a tartalmát érdemes duplán ellenőrizni!)

Hozzászólások

A technikai részletekről nem sok minden derül ki, azon kívül hogy itt jobban megválogatják a tanítómintákat. 

Mit takar pontosan a "step-by-step before answering"? Valami kanban-szerű megközelítés?

Mashol inkabb PhD diak szintet irnak, de nyilvan az is elorelepes.

Nekem az volt a tippem, hogy a teljes szoveg likelihoodjat is nezik "gondolkodas" gyanant, de biztos mas modszereik is vannak (tobb lepcsos kimenet, reflexio). Ez mar a Stawbeery/Q-STaR,  legalabbis onmagat tanito es javito valtozat, szoval biztos van benne monte carlo kereses a legjobb valaszhoz.

na es tudja mar ki alapitotta a HUP-ot? ;)