- A hozzászóláshoz be kell jelentkezni
Hozzászólások
Egy virtualizalt kornyezetben hogyan mukodik a hypervisor az ilyen asymmetrikus processzorokkal? Hogy talalja ki, hogy a VM-ek vCPU-it P- vagy E-core-ra utemezze?
- A hozzászóláshoz be kell jelentkezni
Én meg úgy értettem, ebben csak P magok vannak és van ennek E magos változata is.
- A hozzászóláshoz be kell jelentkezni
Ja ok, akkor nem keverik egy tokban.
Mert ugye ezt elkezdtek mar a desktop vonalon, ahol kb. tobb problemat okozott, mint amennyit megoldott.
- A hozzászóláshoz be kell jelentkezni
Attól, hogy ezekben a procikban nem keverik, attól még másik modellekben megteszik. A kernel oldaláról az ütemező fel van erre készítve, a virtualizációs szoftvereknél passz, ott még nem láttam erre opciót, de lehet csak nem jó helyen néztem.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
- A hozzászóláshoz be kell jelentkezni
Csak ez egy olyan problema, amire nem igazan van megoldas.
Egy OS-en belul talan lehet a processzeket megjelolni, majd a scheduler aszerint futtatja. De egy VM-be nem lat bele a hypervisor, fogalma sincs, hogy egy 8 vCPUs VM eseten mely vCPU-k fognak jobban porogni. Raadasul a guest VM kerneljenek is tisztaban kellene lennie arrol, hogy hany P es E core-ral gazdalkodjon, ami nem konstans, mert a hypervisor atvarialhatja.
Mindenesetre ha valtani kell P es E core kozott, akkor nem csak context switch van, hanem az L1+L2 cache tartalma is elveszik, ami fajo lehet performance szempontbol.
- A hozzászóláshoz be kell jelentkezni
Erre (hagyományosan) a "NUMA tuning" és a "VCPU pinning" a megoldás. A VMM / management layer szintjén a VM memóriáját és CPU-it olyan fizikai NUMA node-okhoz és fizikai magokhoz kötjük, amelyek közel vannak egymáshoz, valamint a guest kernel számára ezt a memória és CPU "rész-hierarchiát", beleértve a CPU cache hierarchiát is, leírjuk (SRAT ACPI táblával, emulált CPUID utasítással stb). Tehát a VMM-nek a kezdeti leképezés után nem kell okosnak lennie; a guest kernel számára egy a fizikai hierarchiát pontosan tükröző virtuális rész-hierarchiát kell pontosan leírni, és onanntól a guest kernel ütemezőjének kell okosnak lennie.
- A hozzászóláshoz be kell jelentkezni
De ha nem extremen sebesseg kritikus esetrol van szo, akkor nem CPU pinnelunk, sot CPU overprovisioning is szokas.
- A hozzászóláshoz be kell jelentkezni
Valaki lefordítaná Intel bullshit-ből magyarra mit akart ezekkel a hangzatos kijelentésekkel mondani, mint :
" pairing exceptionally well with a GPU as a host node CPU"
" Xeon 6 provides up to 1.5x better performance in AI inference on chip using one-third fewer cores4"
Az AI modell vagy GPU-n fut, ilyenkor túl nagy csodát nem tud hozzáadni a CPU oldal 1.5x teljesítményt biztosan nem.
Ha CPU-ból megy akkor eddig azt láttuk, hogy rendesen le van maradva az Intel AMD mögött. "Erős" magszámban úgy 1.5x ver rá az AMD az Intelre, amit az Xeon nem tud kompenzálni magonként jobb teljesítménnyel. Intel Sierra Forest E-magokkal tud nagyobb magszámot, de ott a magonkénti átlagos teljesítmény eléggé siralmas.
Ami valóban nagyot szólhatna az egy RTX4090 erejű APU, amihez 100GB-számra lehetne rakni a ramot és unified memory miatt a GPU rész is közvetlenül elérné.
- A hozzászóláshoz be kell jelentkezni
Ami valóban nagyot szólhatna az egy RTX4090 erejű APU
Pár hete az NVIDIA kénytelen volt hivatalosan cáfolni, hogy a videokártyái csatlakozója megolvadhat.
És te ezt akarod beköltöztetni a processzor belsejébe.
Sajátos ötlet, de abban föltétlen igazad van, hogy nagyot szólna.
- A hozzászóláshoz be kell jelentkezni
Sokat fogyasztó CPU-k skálázását már több tíz éve gyakoroljuk, így őszintén én is reálisabbnak tartom, mint kártya formában berakni ugyanezt a fogyasztást. Hűtés, tömeg eloszlás, kábelezés értelmes megoldása sokkal nehezebb.
- A hozzászóláshoz be kell jelentkezni
> És te ezt akarod beköltöztetni a processzor belsejébe.
erdekes, az Applenek sikerult mar az M1-ben is, sot meg a mobilokban is... ott tartunk hogy egyes AI modelek jobban futnak egy iphone-on mint egy xeon procis szerveren.
- A hozzászóláshoz be kell jelentkezni
pairing exceptionally well with a GPU as a host node CPU
Halványan arra tippelnék, hogy itt a(-z integrált?) memóriavezérlő sávszélességét magasztalják. CPU és GPU (vagy bármilyen más PCIe végpont) között MMIO BAR-okon keresztül, ill. bus master DMA-val lehet tömegesen adatot cserélni. (Előbbi esetben a kártyán van a RAM, esetleg a kártya elcsórja a system RAM-ból, utóbbi esetben system RAM-ról van szó -- de lehet, hogy amit erről tudni vélek, az már elavult.) Arra utalhatnak, hogy az új Xeon-nal folyamatosan lehet "etetni" a modern GPU-kat.
- A hozzászóláshoz be kell jelentkezni
> amihez 100GB-számra lehetne rakni a ramot
az a baj, hogy nem lenne eleg gyors... a gpu-knal mar ddr6x es hasonloknal tartanak, szervereken meg meg a 3ghz ddr4 is ritkasag. raadasul a registered modulok eleve lassabb cimzesuek/eleresuek, bar jo cache prefetchel ez kompenzalhato. de mar egy 48 magos szervert sem lehet kihasznalni ai-ra mert folyton a memoriara var...
nezzunk pl egy deepseek-et (ott jott elo leginkabb ez a vegtelen sok memoriaigeny problema), a V3/R1 model 8 biten (Q8) 700GB, ezt minden egyes token generalashoz vegig kell olvasni, 2 t/s-hez 1500GB/s memoria savszel kell! ha csokkented a meretet (bitek szamat) akkor aranyosan gyorsul, pedig pontosan ugyanannyit kell akkor is szamolni, csak kevesebb bitbol tolti be a tensorokat.
- A hozzászóláshoz be kell jelentkezni