iPon Hírek

Nvidia Tesla P100: brutálisan erős, Pascal alapú VGA

Dátum | 2016. 04. 05.
Szerző | J.o.k.e.r
Csoport | FŐ EGYSÉG

Az Nvidia elnök-vezérigazgatója a most induló GTC 2016 amerikai állomásán – amit egy európai és egy japán is követ majd – egy érdekes nyitóelőadás keretén belül mutatta be a vállalat eddigi legkomolyabb Tesla sorozatú gyorsítókártyáját, amelyen már egy Pascal architektúra köré épülő, hatalmas teljesítményű GPU teljesít szolgálatot.
Az újdonság alapját egy GP100-as grafikus processzor adja, amely 610 négyzetmilliméternyi területet foglal és a TSMC 16 nm-es FinFET gyártástechnológiájával készül, méghozzá CoWoS® (Chip-on Wafer-on-Substrate) technológia segítségével. Utóbbi annyit jelent, hogy ugyanazon a szilícium lapkán található a GPU és a HBM2 típusú fedélzeti memória – a chip gyakorlatilag a Samsung 3D V-NAND memóriachipjeihez hasonlóan a TSV, azaz a vertikális összekötő vezetékek előnyeit kamatoztatja.
A Tesla P100 paraméterei a rendelkezésre álló adatok alapján. (Forrás: AnandTech)
HBM2-es fedélzeti memóriából egyébként 16 GB-nyi áll rendelkezésre, méghozzá négy darab 4 GB-os, 1024-bites HBM2-es chip formájában, az elérhető memória-sávszélesség értéke pedig 720 GB/s. A minden eddigi GPU-nál nagyobb GP100 a HBM2 memórialapkákkal együtt 150 milliárd tranzisztort tartalmaz, viszont önmagában „csak” alig több,mint 15 milliárd tranzisztorral bír. Egy-egy ilyen gyorsítókártya esetében 300 wattos TDP-re kell felkészülni.
Az óriási GPU óriási számítási teljesítményt nyújt, hiszen dupla pontosságú feladatok esetén 5,3 TFLOP/s-os, egyszeres pontosságú feladatok alatt 10,6 TFLOP/s-os, FP16-os módban pedig 21,2 TFLOP/s-os sebesség elérésére képes – utóbbi kifejezetten jól jön az újdonság által megcélzott Deep Learning szegmensben. A teljes pre-empció támogatással ellátott GP100-as grafikus processzor 49-bites virtuális címtartománnyal dolgozik, így az egyes alkalmazások számára nem csak a GPU, de a CPU teljes címtartományának elérését is lehetővé teszi. A korábbi megoldásoknál erre még nem volt mód, hisz csak akkora megosztott memória címtartomány elérésére volt lehetőség, mint amennyi fedélzeti memóriával gazdálkodhatott a GPU. Többkártyás rendszereknél a Tesla P100 PCI Express 3.0 x16-os csatolófelület helyett az Nvidia NVLink interfészét használja, ami a PCI Express 3.0-hoz képest nagyjából ötször nagyobb adatátviteli sávszélességet nyújt.
Az újdonság gyártása már megindult, szállítását pedig hamarosan megkezdik. A Tesla P100 lesz az alapja az Nvidia DGX-1 névre keresztelt szervermoduljának is, amelyben összesen nyolc darab ilyen videokártya foglal helyet, méghozzá úgynevezett Hybrid Cube Mesh rendszerben, két Xeon processzorral karöltve. Egy-egy ilyen rendszer 170 TFLOP/s-os FP16-os számítási teljesítményt nyújt, SSD alapú tárhelyből pedig 7 TB-nyit használhat.
A DGX-1 várhatóan június folyamán válik elérhetővé, ára pedig 129 000 dollár lesz. A vele felszerelt szerverek a következő év első negyedévében lesznek elérhetőek.
Új hozzászólás írásához előbb jelentkezz be!

Eddigi hozzászólások

32. siriq
2016.04.05. 23:00
Azert ettol egy bovebb leirast is lehetett volna irni.
https://devblogs.nvidia.com/parallelforall/inside-pascal/
http://www.anandtech.com/show/10222/nvidia-announces-tesla-p100-accelerator-pascal-power-for-hpc
https://forums.geforce.com/default/topic/929135/shield-tablet/nvidia-tegra-with-denver2-cpu-amp-integrated-pascal-gpu/
 
Válasz írásához előbb jelentkezz be!
31. ChoSimba
2016.04.05. 23:05
10.6TF-FP32 300W mellett ? Ennél 30%-kal erősebb a nemrég bemutatott firepro 9300, ugyanígy 300W mellett. Oké hogy FP64 alatt kb. nulla és FP16-nál is fele ennyi, meg két GPU van rajta, de az mégiscsak 28nm-es és nem 16, mint ez.
Összességében mondjuk nem rossz, de az FP32 kicsit furcsa.
 
Válasz írásához előbb jelentkezz be!
30. siriq ChoSi...
2016.04.05. 23:10
Szerintem meg is valaszoltad magadnak. Majd lesz rev 2 a pascalbol is. Inkabb rev 2 es 2.5 lesz, ez pontosabb.
 
Válasz írásához előbb jelentkezz be!
29. siriq
2016.04.05. 23:20
Lol . Most nezem ezt a youtube videot: https://www.youtube.com/watch?v=A7Lf1Wmt4f8
Nalam marad meg a GTX 580 3 gb vram 1 ghz verzio
Dying light : the following szinte minden maxon van ezzel a vga-val.
 
Válasz írásához előbb jelentkezz be!
28. Gunther siriq
2016.04.06. 00:32
Ha nem fake a videó akkor az elég szép teljesítmény mert jelenleg egy 980Ti hozza kb ezt a szintet.
De nem tudom mennyire lehet ennek hinni mivel nemrég volt hír arról hogy az 1070 nevet elvetették a játék meg 1070-nek ismeri fel a vga-t..
 
Válasz írásához előbb jelentkezz be!
27. gery84
2016.04.06. 05:13
Akkor a teljes mérete 3840Cuda mag! Gondolom most még elég rossz a kihozatali arány hogy ennyi egységet le kell tiltani.

A cikkben nincs leírva de az eddigi legnagyobb GPU: 610 mm²
 
Válasz írásához előbb jelentkezz be!
26. rambustibi siriq
2016.04.06. 05:43
"Nalam marad meg a GTX 580 3 gb vram 1 ghz verzio
Dying light : the following szinte minden maxon van ezzel a vga-val."
Gondolom 640X480 felbontáson, vagy a hülyék a túloldalon vannak...
 
Válasz írásához előbb jelentkezz be!
25. Meteoreso
2016.04.06. 06:24
Unlock Furyban 3840 mag van.
Az új Pascalban mennyi ? 3840.
129 000 dollár?? Símán megéri ... vegyétek
))))
 
Válasz írásához előbb jelentkezz be!
24. piter Meteo...
2016.04.06. 07:27
El kene olvasni hogy mirol is szol a cikk.Hogy jon ide a fury?Es 129ezer dollar 8 darab vga es ket xeon proci nameg ugye ssd.
 
Válasz írásához előbb jelentkezz be!
23. Morph76 Meteo...
2016.04.06. 08:00
Tehát egy komplett szerver!Olvasd csk el!
 
Válasz írásához előbb jelentkezz be!
22. Fzoltan
2016.04.06. 08:15
Mi ez, FP32-ben nem tud "nyerni" az nV, bevezeti az FP16-ot, mint valami brutális újítást?
 
Válasz írásához előbb jelentkezz be!
21. ChoSimba Fzolt...
2016.04.06. 08:38
Nem egészen. Kitalálta a Keplerrel az FP32only-t, csóri AMD végre rácuppant, most meg visszahozták a FP16/64-et és bemutatták a fityiszt. Nózinál fogva rángatják a piacot.
 
Válasz írásához előbb jelentkezz be!
20. Derivel Fzolt...
2016.04.06. 08:39
Ha jól tudom, a Fury X FP32-ben 8.6TFlop-ot tud, ez a P100 pedig 10,6-ot. Szóval ott is gyorsabb. Vagy én néztem el valamit?
 
Válasz írásához előbb jelentkezz be!
19. ChoSimba Deriv...
2016.04.06. 08:43
Annál igen, de a firepro9300 13TFlops fölött tud.
 
Válasz írásához előbb jelentkezz be!
18. rini
2016.04.06. 08:47
Ez éppen azért van mert a fejlesztések jelenleg az FP16 felé mozdultak el az FP32 felől. Ez a kártya éppen erre fekszik rá.

Egyébként a magok száma addig érdektelen amíg nem ismerjük azok feladatát, felépítését és azt, hogy hogyan kapcsolódik a többi egységhez.
 
Válasz írásához előbb jelentkezz be!
17. Derivel ChoSi...
2016.04.06. 09:08
Igen, de a Firepro S9300 X2 (gondolom, erre gondoltál, 13.9TFlops-szal) dupla GPU-s kártya, a Crossfire minden előnyével és hátrányával együtt. Papíron persze hogy erősebb, de a valóságban majd kiderül.
Mint a GTX 980Ti vs két db 970 esete. A 970-ek együtt papíron 25%-kal nagyobb teljesítményűek, a valóságban viszont az SLI miatt kb. ugyanolyan erős, mint egyetlen 980Ti.
Ki lehet jelenteni, hogy a GP100 a jelenlegi legerősebb consumer GPU papíron (persze még nem tudjuk, hogy a programokban hogyan fog teljesíteni).
 
Válasz írásához előbb jelentkezz be!
16. ChoSimba Deriv...
2016.04.06. 09:24
Ez nem gamer kártya, így teljesen lényegtelen, hogy hány GPUból áll össze, nincs SLI/CF. Egy rackben kvázi százasával vannak elhelyezve, szinte tök mindegy, hány GPU adja ki a teljesítményt, ameddig a fogyasztás azonos.

A P100 a legerősebb egy GPU-s megoldás és (talán) a legkisebb is.

Másrészt az a 30% eltérés miatt nem fognak áttérni a CUDA-ról opencl-re vagy akármire, mert az kerül igazán sokba.

Harmadrész az X2 az PCIe megoldás, ez meg ilyen izé, MXM modulhoz hasonlatos méretű vacok.
Persze valószínűleg lesz ebből is workstation megoldás PCIe felülettel.
 
Válasz írásához előbb jelentkezz be!
15. smate1990 Meteo...
2016.04.06. 09:30
Látszik gigahertz huszár vagy... jó eséllyel AMD FX procid van.
Az AMD 'mag' száma, bőven nem vethető össze a Cuda Core-okkal... a GCN (formerly known as TeraScale) 5 magot foglal egyben, szóval ha nagyon szigorúak akarunk lenni akkor az a 3840 AMDéknél valójában 768....
 
Válasz írásához előbb jelentkezz be!
14. siriq rambu...
2016.04.06. 09:35
1080p. Van amit 1440p-ben tolok.
 
Válasz írásához előbb jelentkezz be!
13. siriq rambu...
2016.04.06. 09:35
dupla
 
Válasz írásához előbb jelentkezz be!
12. Fzoltan smate...
2016.04.06. 12:24
Ne égesd magad... mi köze a TeraScale-nek a GCN-hez???
 
Válasz írásához előbb jelentkezz be!
11. Juliska Fzolt...
2016.04.06. 12:43
AMD vezette be. A FirePro S9300 X2 ~27 TFLOPS FP16-ban.
 
Válasz írásához előbb jelentkezz be!
10. ChoSimba Fzolt...
2016.04.06. 12:44
Pl. mind a kettő AMD ? Ja nem, a TS az ATI
 
Válasz írásához előbb jelentkezz be!
9. ChoSimba Julis...
2016.04.06. 12:45
Ez honnan jött le ? FP16 és FP32 ugyanolyan teljesítményű az X2-ben. Nem duplázódik.
 
Válasz írásához előbb jelentkezz be!
8. Fzoltan Julis...
2016.04.06. 12:56
??? S9300 X2 FP32 = FP16 !!!
Más miatt gyorsabb valamivel FP16 miatt (natív tárolás)!!!
 
Válasz írásához előbb jelentkezz be!
7. Fzoltan ChoSi...
2016.04.06. 12:57
És? Köze nincs a két architektúrának egymáshoz.
Kb. mintha az S mercit az A merci alapján ítélnénk meg.
 
Válasz írásához előbb jelentkezz be!
6. ChoSimba Fzolt...
2016.04.06. 13:31
Ezt mondom én is, csak úgy látszik nem ment át.
 
Válasz írásához előbb jelentkezz be!
5. Crytek01
2016.04.06. 13:35
Remélem asztali pc szinten is hasonló jóságot villantanak majd!
 
Válasz írásához előbb jelentkezz be!
4. Fzoltan ChoSi...
2016.04.06. 13:51
Zárlatos lett a szarkazmus detektorom... Dolgozom rajta
 
Válasz írásához előbb jelentkezz be!
3. Juliska ChoSi...
2016.04.06. 17:54
[LINK]
Chapter 13.3 Vector ALU instructions
 
Válasz írásához előbb jelentkezz be!
2. Fzoltan Julis...
2016.04.06. 22:04
Emeld már ki légyszíves, hogy hol találsz ezen belül olyan részt, hogy FP16-ban 2x-es sebességre képes a GPU FP32-höz képest.
 
Válasz írásához előbb jelentkezz be!
1. ChoSimba Fzolt...
2016.04.06. 22:33
Nem fog találni, mert nincs benne olyan. 32/64 bites az ALU. FP16-ot csak adat és konverzió szinten támogatja, de a 32-es ALUval dolgozik rajta, éppen ezért FP16=FP32.
 
Válasz írásához előbb jelentkezz be!