Cloudflare benchmark: Qualcomm Centriq ARM vs Intel Xeon

https://blog.cloudflare.com/arm-takes-wing/

The engineering sample of Falkor we got certainly impressed me a lot. This is a huge step up from any previous attempt at ARM based servers. Certainly core for core, the Intel Skylake is far superior, but when you look at the system level the performance becomes very attractive.

The production version of the Centriq SoC will feature up to 48 Falkor cores, running at a frequency of up to 2.6GHz, for a potential additional 8% better performance.

The largest win by far for Falkor is the low power consumption. Although it has a TDP of 120W, during my tests it never went above 89W (for the go benchmark). In comparison Skylake and Broadwell both went over 160W, while the TDP of the two CPUs is 170W.

Hozzászólások

Érdekes és valós. Érdemes lenne, egy ez alapján egy összehasonlítás, hogy azonos befektetés mellett mekkora teljesítményt kap az ember és a TCO eltérés mekkora egy teljese 5 éves életciklus alatt.

Az intel elaludt éveken keresztül, vagyis a kinevezett CEO rendkívül rossz döntéseket hozott például a grafikus fejlesztések leállítását is többek közt aminek az eredményét látjuk. Korábban is leírtam, hogy ha nem szedik össze magukat akkor az x64/x86 szép lassan a történelemkönyvekbe fog költözni, mivel már nem gyorsabb, viszont teljesen zárt és kötött, ráadásúl az intel cpu-k feltehetően backdoort/vészleállítót tartalmaznak nsa? megbízásából.

Az áttörést a Microsoft hozza el a Windows x64 emulálásával ARM magokon.

UPD:
A Power a szarnak se kell, a MIPS feltört keletről de mindig is komoly résztvevő volt, az IA64 kuka, x64 zárt és AMD az egyetlen komoly fejlesztő ... más nem jut eszembe. Az ARM a jövő.

Ha az Intel is 10nm-en hozná ki az ostyákat, akkor nem 170W lenne a fogyasztása....
All core-ban ugyan tartja a lépést, de még mindig nagyon sok nem vagy rosszul párhuzamosított alkalmazás van.
Single core-ban meg pont dobogóra került. 3-ból.
Emellett azért - az eddigi ARM-os szerver implementációkhoz képest - impresszív.

Ha nagyapám sárga lett volna, akkor ő lett volna a villamos :)
Egyrészt ezek az akárhány nm processzek leginkább csak marketingnevek, és valójában senkit se érdekelnek. A user-t a teljesítmény és a TCO érdekli, a többi nem.
És a cloudfare-t szerintem nem nagyon érdekli a single core teljesítmény.

Szerintem az usert legalább annyira érdekli az hogy mennyi ideig tud töltés nélkül filmet nézni (vagy épp excel cellákat tologatni) a laptopján, mint a teljesítmény. (szerver parkoknál ugyancsak fontos szempont)
Az energia hatékonyság meg elég erős összefüggésben van a csíkszélességgel.

Az energiahatékonyság (fogyasztás, perf/W) benne van a TCO-ban.
És nyilván van összefüggés a csíkszélességgel, de sok minden mással is. Pl. vannak kifejezetten nagy teljesítményre kihegyezett processzek és low power processzek is adott csíkszélességnél. De az architektúra, utasításkészlet, rengeteg más dolog ismeghatározza. Pl. az is, hogy mennyire sikerül jól megcsinálni az adott processzt, mert simán előfordulhat, hogy úgy jön ki a lépés, hogy 14-ről 10 nm-re átlépve csak pár százalékot tudsz javulni, mert a 14-es processz legendásan jól sikerült, a 10-es pedig eléggé rosszul.

A cloudflare elkezdte az ARM szerverek élesben futtatását: https://twitter.com/eastdakota/status/976560820611031040

Elmondásuk alapján a topicindító teszt óta is jelentősen javult a compilerek által generált ARM kód sebessége. (főleg go esetében)

“We think we're now at a point where we can go one hundred percent to ARM. In our analysis, we found that even if Intel gave us the chips for free, it would still make sense to switch to ARM, because the power efficiency is so much better.”

Huawei Kunpeng 920 is a 7nm 64-core Armv8 Server Processor

CPU – 64x Armv8 cores clocked at up to 2.6 Ghz delivering a 930 SPECint score
Memory I/F – 8x DDR4 @ 2933 MHz for 6 to 8 channels memory
Storage – 16x SAS/SATA interfaces
High Speed Interfaces – 40x PCIe 4.0 including 16 that can be used for CCIX (Cache Coherent Interconnect for Accelerators); 640 Gbps total bandwidth
Networking – 2x 100G RoCE (RDMA over Converged Ethernet)
Process – 7nm process

https://www.cnx-software.com/2019/01/07/huawei-kunpeng920-64-core-armv8…

Third-party benchmark: https://www.scylladb.com/2019/12/05/is-arm-ready-for-server-dominance/

The M6g class is 5 times faster than A1 for running reads in the Scylla NoSQL database. The performance of the Arm-based server is comparable to the x86 instance. With AWS claiming that prices will be 20% lower than x86, economic forces will push M6g ahead.