Megjöttek az új Intel Xeon 6 Performance-cores processzorok

Címkék
The Intel® Xeon® 6700/6500 series processor with P-cores is the ideal CPU for modern data centers, offering the perfect balance between performance and energy efficiency. Delivering an average of 1.4x better performance than the previous generation3 across a wide range of enterprise workloads, Xeon 6 is also the foundational central processing unit (CPU) for AI systems, pairing exceptionally well with a GPU as a host node CPU. When compared to 5th Generation AMD EPYC processors, Xeon 6 provides up to 1.5x better performance in AI inference on chip using one-third fewer cores4. Xeon 6 processors also enable substantial performance-per-watt efficiency, allowing for 5:1 consolidation of a 5-year-old server on average5, with potential for up to 10:1 in certain use cases, resulting in up to 68% savings in total cost of ownership (TCO)6.

Sajtóbejelentés itt.

Hozzászólások

Egy virtualizalt kornyezetben hogyan mukodik a hypervisor az ilyen asymmetrikus processzorokkal? Hogy talalja ki, hogy a VM-ek vCPU-it P- vagy E-core-ra utemezze?

Attól, hogy ezekben a procikban nem keverik, attól még másik modellekben megteszik. A kernel oldaláról az ütemező fel van erre készítve, a virtualizációs szoftvereknél passz, ott még nem láttam erre opciót, de lehet csak nem jó helyen néztem.

The world runs on Excel spreadsheets. (Dylan Beattie)

Csak ez egy olyan problema, amire nem igazan van megoldas.

Egy OS-en belul talan lehet a processzeket megjelolni, majd a scheduler aszerint futtatja. De egy VM-be nem lat bele a hypervisor, fogalma sincs, hogy egy 8 vCPUs VM eseten mely vCPU-k fognak jobban porogni. Raadasul a guest VM kerneljenek is tisztaban kellene lennie arrol, hogy hany P es E core-ral gazdalkodjon, ami nem konstans, mert a hypervisor atvarialhatja.

Mindenesetre ha valtani kell P es E core kozott, akkor nem csak context switch van, hanem az L1+L2 cache tartalma is elveszik, ami fajo lehet performance szempontbol.

Erre (hagyományosan) a "NUMA tuning" és a "VCPU pinning" a megoldás. A VMM / management layer szintjén a VM memóriáját és CPU-it olyan fizikai NUMA node-okhoz és fizikai magokhoz kötjük, amelyek közel vannak egymáshoz, valamint a guest kernel számára ezt a memória és CPU "rész-hierarchiát", beleértve a CPU cache hierarchiát is, leírjuk (SRAT ACPI táblával, emulált CPUID utasítással stb). Tehát a VMM-nek a kezdeti leképezés után nem kell okosnak lennie; a guest kernel számára egy a fizikai hierarchiát pontosan tükröző virtuális rész-hierarchiát kell pontosan leírni, és onanntól a guest kernel ütemezőjének kell okosnak lennie.

Szerkesztve: 2025. 02. 25., k – 17:47

Valaki lefordítaná Intel bullshit-ből magyarra mit akart ezekkel a hangzatos kijelentésekkel mondani, mint :
" pairing exceptionally well with a GPU as a host node CPU"

" Xeon 6 provides up to 1.5x better performance in AI inference on chip using one-third fewer cores4"

Az AI modell vagy GPU-n fut, ilyenkor túl nagy csodát nem tud hozzáadni a CPU oldal 1.5x teljesítményt biztosan nem. 

Ha CPU-ból megy akkor eddig azt láttuk, hogy rendesen le van maradva az Intel AMD mögött. "Erős" magszámban úgy 1.5x ver rá az AMD az Intelre, amit az Xeon nem tud kompenzálni magonként jobb teljesítménnyel. Intel Sierra Forest E-magokkal tud nagyobb magszámot, de ott a magonkénti átlagos teljesítmény eléggé siralmas. 

Ami valóban nagyot szólhatna az egy RTX4090 erejű APU, amihez 100GB-számra lehetne rakni a ramot és unified memory miatt a GPU rész is közvetlenül elérné. 

Ami valóban nagyot szólhatna az egy RTX4090 erejű APU

Pár hete az NVIDIA kénytelen volt hivatalosan cáfolni, hogy a videokártyái csatlakozója megolvadhat.

És te ezt akarod beköltöztetni a processzor belsejébe.

Sajátos ötlet, de abban föltétlen igazad van, hogy nagyot szólna.

pairing exceptionally well with a GPU as a host node CPU

Halványan arra tippelnék, hogy itt a(-z integrált?) memóriavezérlő sávszélességét magasztalják. CPU és GPU (vagy bármilyen más PCIe végpont) között MMIO BAR-okon keresztül, ill. bus master DMA-val lehet tömegesen adatot cserélni. (Előbbi esetben a kártyán van a RAM, esetleg a kártya elcsórja a system RAM-ból, utóbbi esetben system RAM-ról van szó -- de lehet, hogy amit erről tudni vélek, az már elavult.) Arra utalhatnak, hogy az új Xeon-nal folyamatosan lehet "etetni" a modern GPU-kat.

> amihez 100GB-számra lehetne rakni a ramot

az a baj, hogy nem lenne eleg gyors... a gpu-knal mar ddr6x es hasonloknal tartanak, szervereken meg meg a 3ghz ddr4 is ritkasag. raadasul a registered modulok eleve lassabb cimzesuek/eleresuek, bar jo cache prefetchel ez kompenzalhato. de mar egy 48 magos szervert sem lehet kihasznalni ai-ra mert folyton a memoriara var...

nezzunk pl egy deepseek-et (ott jott elo leginkabb ez a vegtelen sok memoriaigeny problema), a V3/R1 model 8 biten (Q8) 700GB, ezt minden egyes token generalashoz vegig kell olvasni, 2 t/s-hez 1500GB/s memoria savszel kell! ha csokkented a meretet (bitek szamat) akkor aranyosan gyorsul, pedig pontosan ugyanannyit kell akkor is szamolni, csak kevesebb bitbol tolti be a tensorokat.

Valaki lefordítaná Intel bullshit-ből magyarra mit akart ezekkel a hangzatos kijelentésekkel mondani,

Azt. hogy 70+% a market share-ünk szerver CPU téren

... Intel is an indisputable leader when it comes to volumes, as it still controlled some 75.9% of datacenter CPU shipments in the second quarter, ...

trey @ gépház