iPon Hírek

A kínaiaké a leggyorsabb szuperszámítógép-fürt

Dátum | 2016. 06. 20.
Szerző | J.o.k.e.r
Csoport | FŐ EGYSÉG

Napvilágot látott a legfrissebb, immár 47. alkalommal összeállított Top500-as lista, amelyen a világ leggyorsabb szuperszámítógép-fürtjeit találjuk. A lista évente kétszer szokott frissülni, júniusban és novemberben, de az utóbbi időszakban elég unalmas volt a 10 leggyorsabb szuperszámítógép-fürtöt tartalmazó összesítés, hiszen alig-alig történt rajta változás. A kínaiak Tianhe-2 névre keresztelt rendszere korábban zsinórban hatszor lett első, ám ezúttal letaszították a trónról, helyére pedig egy szintén kínai, de már saját fejlesztésű processzorral szerelt szuperszámítógép-fürt került. Az új összesítés
Az első helyezett Sunway TaihuLight nagyon ütősre sikeredett, ugyanis kétszer gyorsabb, illetve háromszor hatékonyabb, mint a korábbi listavezető, a Tianhe-2 volt. Az új rendszer 93 PetaFLOPS/s-os számítási teljesítményt ért el a LINPACK Benchmarkban, ami a Tianhe-2 33,86 PetaFLOP/s-os számítási teljesítményéhez képest óriási előrelépés. Az új szuperszámítógép-fürt összesen 10 649 600 processzormaggal rendelkezik, amelyek 40 960 node-ban foglalnak helyet, a rendszer fogyasztása pedig csak 15,37 megawatt, azaz egy watt fogyasztásra 6 GFLOP/s számítási teljesítmény jut. Ez nagyon jó hatásfokot jelent, így a friss rendszer az energiatakarékos szuperszámítógép-fürtöket tömörítő Green500-as listán is az élmezőnyben végezhet. A harmadik helyet ezúttal egy amerikai szuperszámítógép-fürt, a Titan szerezte meg, amely mindössze 17,59 PetaFLOP/s-os számítási teljesítményt kínál. Annak érdekében, hogy könnyedén ellenőrizhető legyen, milyen változások történtek a korábbi sorrendhez képest, egymás mellé helyeztük a régi és az új listát.
Balra az új, jobbra a régi lista látható. A kép nagyítható!
Fontos dolog, hogy a Top500-as lista történetében most először fordult elő az, hogy több kínai szuperszámítógép-fürt került az 500 leggyorsabb konfigurációt tartalmazó összesítésbe, mint amerikai: előbbiekből 167, utóbbiakból pedig 165 szerepel a teljes felsorolásban. Arra sem volt eddig példa, hogy Kína abszolút vezető legyen számítási teljesítmény terén: a világ három leggyorsabb szuperszámítógép-fürtje közül kettő kínai. Mit kell tudni az egyedi tervezésű kínai processzorokról? A kínaiak régóta foglalkoznak saját processzor fejlesztésével, amire remek példa a 2011-ben megépített BlueLight szuperszámítógép-fürt a maga 796 TeraFLOP/s-os számítási teljesítményével. Abban a rendszerben még egy régi, harmadik generációs, 140 GFLOP/s-os számítási teljesítményű ShenWei processzor dolgozott, amely 16 maggal rendelkezett és az SW1600-as típusjelzést viselte. Azóta a kínai mérnökök elkészítették a legújabb modellt, ami az SW26010 jelölést kapta, fedélzetén pedig nem kevesebb, mint 260 processzormag lapul. Egy ilyen központi egység valamivel több, mint 3 TeraFLOP/s-os számítási teljesítmény elérésére képes, azaz az Intel Knights Landing sorozatú Xeon Phi gyorsítóival lehet egy szinten. Egy ilyen processzorból csak egyetlen egy lapul egy node belsejében, így a 40 960 node-ból álló szuperszámítógép-fürt több, mint tízmillió processzormagra támaszkodik. Ezeket 74%-os hatékonysággal sikerült munkára fogni a LINPACK tesztben, azaz maradt még némi tartalék a rendszerben, de a 93 PetaFLOP/s-os csúcsteljesítmény így is elismerésre méltó.
A rendszer lelkét adó ShenWei SW26010-es processzor egy 64-bites RISC egység, amely SIMD utasításkészlet-támogatással érkezik, és soron kívüli utasítás kibocsátással dolgozik. A processzor a pletykák szerint DEC Alpha alapú architektúrát használ, pontosabb információ azonban nincs, ugyanis a kíniak nagyon titkolóznak ezzel kapcsolatban. Maga a központi egység egyébként négy darab magcsoportra van felosztva, amelyek egyenként 64 darab számítást végző elemet (CPE), illetve egy menedzsmentet végző elemet (MPE) tartalmaznak. Minden egyes magcsoporthoz tartozik egy memóriavezérlő, így egyetlen tokozáson keresztül 136,5 GB/s-os memória-sávszélesség érhető el. A processzormagok mindössze 1,45 GHz-es órajelen ketyegnek, ami elsőre alacsonynak tűnhet, de a többmagos megoldások szegmensében ez nem szokatlan. Cache terén érdekes a SoC felépítése, hiszen egy-egy maghoz csak 12 KB-nyi utasítás-gyorsítótár, valamint 64 KB-nyi scrachpad tartozik, ami kis túlzással elsőszintű gyorsítótárként is felfogható. Másod- és harmadszintű gyorsítótár abszolút nincs, így a memória-hozzáférések gyorsítása csak korlátozottan lehetséges. Memória terén ugyancsak érdekes képet fest a rendszer. Egy-egy node belsejében mindössze 32 GB-nyi DDR3-as rendszermemória található, így alig több, mint 1,3 PB-nyi rendszermemóriával gazdálkodhat a teljes szuperszámítógép-fürt. Ez a mezőny többi konfigurációjához képest alacsony érték. Energiahatékonyság terén ugyancsak érdekes az újonc, mivel a LINPACK teszt alkalmával 15,3 megawattot fogyasztott, ami a 93 PetaFLOP/s-os teljesítményhez képest elég szerény étvágy, hiszen a korábbi csúcstartó, a mindössze 33,83 PeataFLOP/s-os számítási teljesítményre képes Tianhe-2 ugyanilyen terhelés mellett 17,8 megawattot kért. A node-ok között húzódó interconnect rendszer saját fejlesztésű megoldás, ami a Sunlight BlueLight szuperszámítógép-fürttel ellentétben már nem QDR InfiBand alapú, hanem PCI Express 3.0 alapú technológiát használ. A node-ok között 16 GB/s-os adatátviteli sávszélesség húzódik, ami 1 mikroszekundumos válaszidővel bír, ám ez a sávszélesség MPI kommunikáció alkalmával 12 GB/s-ra csökken. A rendszer alapját szabványos Linux kernel adja, amely természetesen átesett némi finomhangoláson annak érdekében, hogy a speciális környezethez minél jobban passzoljon. A teljes TOP500-as lista itt található.
Új hozzászólás írásához előbb jelentkezz be!

Eddigi hozzászólások

15. Bloodx
2016.06.20. 18:41
En sem hasznalnek Intel processzort a helyukben ilyesmire (AMD-t sem...). Intel ME/AMT, out of band coprocessor -- olyan melyen van a backdoor, hogy orom nezni.
 
Válasz írásához előbb jelentkezz be!
14. thestock
2016.06.20. 19:21
Már csak egy jó videókártya kéne bele...
 
Válasz írásához előbb jelentkezz be!
13. Trivia
2016.06.20. 19:21
Kár, hogy a motorola kiszállt anno a CPU piacról, a 68xxx baromi jó proci volt a maga korában.
 
Válasz írásához előbb jelentkezz be!
12. alexcel
2016.06.20. 20:03
Meg a Cyrix 6x86MX-PRO
 
Válasz írásához előbb jelentkezz be!
2016.06.20. 23:26
minek? CPU-ból tolná szoftveresen a DOOM-ot 4k felbontásban ultrán
 
Válasz írásához előbb jelentkezz be!
10. lampe
2016.06.21. 01:22
Végülis egy CAT 797 helyett "szok kici kínai szok kici talickával" is el tud hordani egy hegyet

De azt hiszem ezek sem hallottak még Amdahl bácsiról
 
Válasz írásához előbb jelentkezz be!
9. asdsa lampe
2016.06.21. 01:33
Nyilván hülyék, azért építettek 10 millió magos gépet.
 
Válasz írásához előbb jelentkezz be!
8. lampe asdsa
2016.06.21. 01:43
Ugyanannyi PetaFLOPS kevesebb de nagyobb egyszálú teljesítményű maggal hatékonyabban használható ki.

A jelen eset kb olyan, minta telipakolták volna raktáron rakadt Mediatek mobilos Socokkal (hasonlat ).
 
Válasz írásához előbb jelentkezz be!
7. EVL2 lampe
2016.06.21. 09:52
Sokat tanulhatnának tőled a kínai szakemberek. Szerintem írd ide a telefonszámodat is hátha tanácsra lenne szükségük.
 
Válasz írásához előbb jelentkezz be!
6. kiskoller lampe
2016.06.21. 10:03
Ez nem igaz, csak bizonyos kódok esetében. Amelyeknél a több különböző szálak nem függenek egymástól, ott több maggal nem vesztesz sokat, ha egyáltalán. Nyilván itt ilyesmi kódot futtatnak.
 
Válasz írásához előbb jelentkezz be!
5. Konzi
2016.06.21. 10:23
Emlékeim szerint az amcsi kormány megmondta a cégeknek, hogy Kínába nem adhatnak el több "szupergépet". Talán egy fél éve volt a cikk. Ezért a saját fejlesztésű proci. Ami gondolom egy xeon koppintás.
Ha meg azt nézzük, hogy mekkora móka összerakni ilyen parkot, ami 15,37 MW-ot zabál, máris megéri bekapcsolni. Szerintem úgy fog járni, mint a Tianhe-2. A teljes rendszert csak 1szer kapcsolták be, azóta csak részei működnek néha, mert rájöttek, hogy nem olcsó lehűteni, meg behajlik a villanyoszlop...meg nem áll minden utcasarkon 1000 tudós, aki szingularitás-szimulációt szeretne lemodellezni.
Ha tényleg lenne értelme ilyeneket csinálni, akkor király dolog, de amúgy meg nőtt egy centit a kínai epeen.
 
Válasz írásához előbb jelentkezz be!
4. tibaimp
2016.06.21. 11:11
Jó dinnyetermesztők lennének...
 
Válasz írásához előbb jelentkezz be!
3. BiroAndras lampe
2016.06.21. 14:29
A m'sodik helzeyett intel procis géphez képest 3x nagyobb a magok száma, és a teljesítmény is. Tehát az egy szálú teljesítmény kb. ugyanaz.
 
Válasz írásához előbb jelentkezz be!
2. fofoka kisko...
2016.06.21. 18:39
Nyilván ezért kukázták a QDR Infiniband-et és használnak egy még gyorsabbat (latency meg kb. ugyanaz). Független szálak. Aha. Maradjunk annyiban, hogy ez a cluster azt is tudja.
 
Válasz írásához előbb jelentkezz be!
1. fofoka lampe
2016.06.21. 18:42
Köztünk legyen szólva, szerintem hallottak. Hogy te milyen következtetést vonsz le egy cikkből, meg egy másik történet.
 
Válasz írásához előbb jelentkezz be!