iPon Hírek

NVIDIA GPU útiterv frissítés: Maxwell után Volta

Dátum | 2013. 03. 20.
Szerző | gabi123
Csoport | FŐ EGYSÉG

Az NVIDIA frissítette GPU mikro-architektúra útitervét a nemrégiben megrendezett, 2013-as GPU Technology Conference (GTC) - GPU techológia konferencián. Jelenleg, mint tudjuk, a Kepler mikro-architektúra van porondon és folyamatosan tökéletesítve ez az alapja napjaink GeForce, Quadro és Tesla termékvonalainak, és ez fog dolgozni a 2014-ben megjelenő friss Tegra mobil SoC-okban is. Az NVIDIA következő generációs, Maxwell kódnévre hallgató architektúrája valamikor a jövő évben, 2014-ben debütál.

A zöldek kiszivárgott grafikonjainak értelmében az elsődleges cél a wattra lebontott teljesítmény növelése, magyarán mondva a leghatékonyabb működés a lehető legnagyobb teljesítménnyel ötvözve. Ha igaz a diagram tartalma, akkor a Maxwelltől közel megduplázott teljesítményre számíthatunk a Keplerhez képest, hasonló energiaigény mellett (valószínűleg ebben sokat segít a csíkszélesség váltás is). A Maxwell GPU-k egyesített virtuális memóriát fognak kínálni, amely azt jelenti, hogy a CPU vagy az APU elérheti és használhatja majd a dedikált grafikus kártyán dolgozó gyors RAM-ot kvázi rendszermemóriaként.
Bár a háttérben látható diákon a még újabb technológia alatt nem szerepel megjelenési dátum, egyesek úgy vélik, a Maxwell körülbelül két évig fog futni, és valamikor a 2016-os esztendőben már útjára indulhat az NVIDIA Volta GPU mikro-architektúrája. Amellett, hogy a Volta is bizonyos fokig az elődeiből fog építkezni, az ő égisze alatt kerülhet bevezetésre a "stacked DRAM technology", amit szó szerint "verembe helyezett memóriának kéne fordítani", de ennél talán barátságosabb és magyarosabb, ha halmozott RAM-ról, a DRAM chipek egymásra rétegezéséről beszélünk.

Ez azért fontos, mert így a lapkák kisebb helyet foglalnak egységnyi mennyiség mellett, ennek eredményeként pedig be fognak kerülni a GPU mag mellé, ha úgy tetszik, a "kupak alá". A NYÁK, amin a GPU fekszik majd, összesen hat darab ilyen egymásra pakolt DRAM köteget tartalmaz, és ez a csomag egyben fog felkerülni majd a videokártya PCB-jére a mostaniakkal megegyező BGA forrasztással. Ennek a megoldásnak a legnagyobb előnye az lesz, hogy a memória elérési sebessége, illetve az áteresztőképessége jelentősen megnő, és elérheti az 1 TB/s-os tempót.

Viszonyításképpen megemlítjük, hogy a mai csúcskategóriás grafikus kártyák, mint például a GeForce Titan vagy a Radeon HD 7970 GHz Edition hozzávetőlegesen 300 GB/s-os értéket tudnak felmutatni, így az NVIDIA kijelentése nem tűnik nagyon elrugaszkodott állításnak, ugyanakkor nagyon izgalmas, pláne azt feltételezve, hogy a Maxwell-féle egyesített virtuális memória szolgáltatás megmarad (persze a CPU számára az aktuális PCI-Express szabvány limitálja majd a sávszélességet).

Emellett a GPU Computing is folyamatosan nő és virágzik, ami a vásárlók számára is fontos, hiszen videokártyájukat (vagy a CPU mellé integrált GPU-t) egyre több feladatra használhatják a játékprogramok mellett, a GPU-erő kihasználásával pedig egy relatív gyenge központi egység is olyan, vagy még nagyobb teljesítményre lehet képes, mint a nála súlyos tízezrekkel drágább processzorok. Jen-Hsun Huang az előadás alkalmával azt ecsetelte, a statisztikák egyértelműen rávilágítanak, hogy a CUDA, a CUDA környezet alkalmazása folyamatos és dinamikus növekedésben van, a hybrid CPU-GPU számítógépek pedig gőzerővel nyomulnak előre a "high performance computing", a nagy teljesítményű számítástechnika világában.

Nehéz megjósolni a jövőt, pláne 3-4 évvel előre, különösen az informatika világában, ahol szinte percről percre változik a helyzet. 3-4 év a számítástechnikában gyakorlatilag egy emberöltőnek számít, teljes generációk tűnnek el, és mérföldekkel jobb, erősebb, takarékosabb eszközök lépnek a helyükbe. Egy biztos, a fejlődés sosem áll meg, a következő évek is nagyon érdekesek lesznek.
Új hozzászólás írásához előbb jelentkezz be!

Eddigi hozzászólások

17. bszoke88
2013.03.20. 12:22
"A Maxwell GPU-k egyesített virtuális memóriát fognak kínálni, amely azt jelenti, hogy a CPU vagy az APU elérheti és használhatja majd a dedikált grafikus kártyán dolgozó gyors RAM-ot kvázi rendszermemóriaként."

ennek most mi akadálya van??
 
Válasz írásához előbb jelentkezz be!
16. Meteorhead
2013.03.20. 12:23
Na ez nagyon keményen hangzik. A tokozásba épített RAM félelmetes tempókat tud produkálni, arról nem is beszélve, hogy egy APU-ban (ami NV-nek is lesz a nem túl távoli jövőben) a host rendszer is rengeteget gyorsulna tőle. Tényleg haladunk a rendszerszintű integráció felé, ha már az egész RAM is beleköltözhet a tokozásba.
 
Válasz írásához előbb jelentkezz be!
15. Meteorhead
2013.03.20. 12:29
@bszoke88: ennek most az az akadálya, hogy más memória névtér van RAM-ban és VRAM-ban (felfogható úgy, hogy mindkét helyen nulláról kezdődik a címzés), ezért egy memóriacím értéke kétértelmű, amennyiben az ember egy kalap alá akarná venni a kettőt. A hardver nem képes magától kitalálni, hogy melyik fizikai memóriatartományt akarja a programozó elérni.

Ez most virtualizációval oldható meg (SLAT, avagy Second Level Address Translation), de úgymond nem "natívan" működik. A nemsoká befutó AMD Kaveri architektúra ebben lesz "új", hogy az IGP és a CPU is egy pointer értékre ránézve saját maga el tudja dönteni, hogy honnan kell olvasni az adott memóriatartlmat, és nincs köztes fordítás (SLAT), hanem ugyanaz a pointer érték IGP-n és CPU-n is ugyanoda mutat.
 
Válasz írásához előbb jelentkezz be!
14. MrFox
2013.03.20. 12:40
Tokozásba épített RAM már a PS3-ban is volt, mivel az RSX NVidia gpu volt, illetve ma is az

 
Válasz írásához előbb jelentkezz be!
13. MrFox
2013.03.20. 12:44
Szóval a technológia hat éve adott, csak éppen minek használni, amikor a pécéseknek el lehet adni a hagyományos VGA chipekkel szerelt cuccokat is arany árban. Hogy aztán úúúújdonsáááág néven megint el lehessen adni dupla arany árban majd a foglalatra szerelt ram-os példányokat is.
 
Válasz írásához előbb jelentkezz be!
12. gery84
2013.03.20. 12:50
lassan ott tartunk hogy egy ostyán lesznek a ramok meg a chipek a még gyorsabb elérhetőség szempontjából.

pl.: 600mm2 lapkánban 100mm2 chip 5db, 100mm2 ramok.
 
Válasz írásához előbb jelentkezz be!
11. atti2010 gery8...
2013.03.20. 12:59
Egyelőre ez nem járható út de a Stacked igen nagy változásokat fog hozni.
 
Válasz írásához előbb jelentkezz be!
10. nyerek01
2013.03.20. 14:45
Az alaplap memóriafoglalataiba helyezett RAM egységek pontosan hogyan lesznek címezve? Úgy értem, hogy amikor egy 4 GB-os van akkor egyértelmű, de ha két 2 GB-os, akkor hogy használja a rendszer őket? Használok mondjuk 1,3 GB-nyi memóriát, a akkor csak az egyik 2 GB-os, vagy szétosztva valamilyen stratégia alapján ha több is van?
 
Válasz írásához előbb jelentkezz be!
9. atti2010 nyere...
2013.03.20. 14:54
A rendszer a címzésnél 2-3-4 modult egy tömbként kezel.
 
Válasz írásához előbb jelentkezz be!
8. Humbuk
2013.03.20. 16:22
Wow! Izgalmasan hangzik!
Bárcsak a szoftverek is ilyen ütemben fejlődnének. Reméljük, hogy az új konzolgeneráció előremozdítja majd a szoftverek fejlődését is, főleg ami a protolást illeti.

MrFox: Sokszor nem a technológiával van a baj, hanem annak a kiaknázásával, esetleg gyártásával.
Nagyon gyakran előfordul, hogy a technológiákat létrehozzák, de abban az időben nem tudják felhasználni, mert annak gazdasági vagy más technikai(pl drága gyártás) akadálya van.
Néha bizonyos más technológiáknak is fejlődniük kell, hogy hatékonyan gyártható, megfizethető legyen a termék. A mi esetünkben pl egy kiforrott 20-28 nm-es gyártás technológia már sokat dobhat ezeken a tényezőkön, szemben a 2007-ben* alkalmazott 55-45nm-es* gyártás helyett.
Szóval némi idő kell amíg 1-1 technika beérik, hogy tömeggyártásban is alkalmazható legyen.


*:Becsült adatok

u.i.: El sem tudjuk képzelni, hogy milyen felfedetlen technológiák lapulhatnak ezeknek a cégóriásoknak a "boszorkánykonyhájában". Ami biztos, hogy nem kell félteni egyiket sem
 
Válasz írásához előbb jelentkezz be!
7. bszoke88
2013.03.20. 16:38
#3
azzal, amit írtál, megmagyarázod, h az általam idézett tech. már most is működik.
legalábbis az én fogalmaim szerint.
az amd-nél más, mert ott 1 memória vezérlő van.

teljesen lényegtelen, h a hw hogy kezeli a memet, az OS úgyis + rétegeket rak rá.

amit én kérdezni szerettem volna az az, h most miért nem lehetséges sw-ben megmondani a videokártyának, h adjon egy adag memet a rendszernek. driverből mehetne simán és lehet, h gyorsabb lenne, mint a natív memet elérni.
 
Válasz írásához előbb jelentkezz be!
6. atti2010 bszok...
2013.03.20. 16:46
amit én kérdezni szerettem volna az az, h most miért nem lehetséges sw-ben megmondani a videokártyának, h adjon egy adag memet a rendszernek. driverből mehetne simán és lehet, h gyorsabb lenne, mint a natív memet elérni.



Mar hogy tudnád elérni a rendszerrel a videó memóriát mikor az nem a PCI-E -re kapcsolódik hanem a GPU-ra és csak az tudja elérni.
 
Válasz írásához előbb jelentkezz be!
5. MrFox
2013.03.20. 16:55
Humbuk : A playstation3 hat éves hardver, vagyis 7 éve véglegesedett a hardver és ment gyártósorra. Nehogy már nem tudtak volna ugyanazon a gyártósoron PC-s videokártyákba való chipeket is legyártani... Oké, az csak 4X64Mb video ram, de akkoriban a 256Mb VGA még pont a középkategória volt, simán lehettek volna rá épülő kártyák - és ma már rámenne 4x256 memória chip is. De nem is ez a baj, hanem most úgy adják elő, hogy a foglalaton lévő közvetlen memória mekkora fejlődés és újdonság, amikor már benne volt egy pont ebben az évben kifutó konzolban.
 
Válasz írásához előbb jelentkezz be!
4. bszoke88
2013.03.20. 17:30
#12
Mar hogy tudnád elérni a rendszerrel a GPU-t mikor az a PCI-E -re kapcsolódik
és a GPU-n keresztül a memóriát.

cuda, opengl, opencl, illetve a driver, amit írtam is.
 
Válasz írásához előbb jelentkezz be!
3. kubione
2013.03.20. 22:00
@Motorhead

Azt mondod, hogy az NVIDIA-nak is lesz a nem túl távoli jövőben APU-ja.

Az NVIDIA jelenleg a mobilos lapkák tervezését végzi gőzerővel, az AMD pedig az APU-ba invesztál.

Az NVIDIA nagy dobása 2015-ben a „Parker” lesz, melyben 64 bites ARM processzormagok és Maxwell grafikus gyorsító teljesít majd szolgálatot.

Azért a "Parker"-t kicsit erős lenne APU-nak titulálni.
 
Válasz írásához előbb jelentkezz be!
2. jozsefm kubio...
2013.03.20. 22:26
Ha APU ha ARM ha anyu, egy a lényeg X86 és AMD X64 hiján nekik csakis az ARM marad a rendszerszintű integrációra, márpedig erre megy az AMD és az intel ,M$ is, sőt már a Win 9-el kevés kivételtől eltekintve mindent támogat ARM-en is, mivel nem tehet mást, ha nem akarja hogy megkerüljék.
 
Válasz írásához előbb jelentkezz be!
1. shabbarule...
2013.03.20. 23:55
MrFox:

Tokozáson belülre pakolni memóriát kétféle okból lehet és kétféle módon is.

Az egyik ok a helytakarékosság. Ilyenkor nincs teljesítmény növekedés, fogyasztás csökkenés, csak a szűkös hely miatti takarékosság a motiváló tényező. Épp ezért ilyenkor 3 dimenzióban egymás fölé szokták pakolni a lapkákat. Ez az eljárás alacsony fogyasztású mobil termékeknél már egy évtizede bevett gyakorlat, hogy a logic chip fölé raknak dram lapkákat tokozáson belül, sőt embedded környezetben akár a flash lapkák is oda kerülhetnek.

Nagy fogyasztású chipeknél ez az egymás fölé történő elrendezés ma még nem kivitelezhető, mert a dram nem tolerálja a magas hőt, ami adatvesztéssel járhat, ezért ott a mellé pakolás lehet a megoldás, ahogy az általad említett PS3 RSX-nél is látható. Ennek az elrendezésnek viszont semmi köze a cikkben említett módhoz, amire majd később kitérek. Az RSX-nél csak a helytakarékos kialakítás volt a motiváció, a teljesítményre ennek semmi hatása nincs, pont ugyanazt tudja mintha az alaplapra kerültek volna a memória chipek.

Azért nem használják ezt GPU-nál mert rugalmatlan és a helytakarékossági előnye minimális lenne. Egy konzolnál, ahol csak egyféle készül ez jól passzol a designhoz, de kártyás GPU-nál nem annyira nyerő. Ráadásul ekkor a GPU gyártónak kellene a memória gyártóval megállapodnia, a tokozás költségét és a selejttel járó kockázatot bevállalnia. Ez pedig a GPU gyártó részéről felesleges teher, helytakarékosságot pedig túlzottan nem igazán lehet nyerni a hagyományos kártyás dram lapkákkal körülpakolt elrendezéshez képest.


A másik mód a teljesítmény és fogyasztás javítására koncentrál amikor a tokozáson belülre emeli a memóriát, ez egészen más dolog mint az előbb leírt helytakarékossági motivációja. Itt már nagyságrendnyi eltérés lesz az alaplapra pakolt hagyományos dram-os megoldásokhoz mérten.

Teljesítmény kétféle módon lehet növelni. Vagy az adatsínek számosságának növelésével vagy az egy adatsínre eső adatsebesség növelésével. Utóbbi az órajel egyre magasabb feltornászásával jár, ami egy idő után zsákutca. Az egyre magasabb órajel mellett a párhuzamos adatsínek közötti interferencia ennek egyre inkább gátja lesz, az órajelet nem lehet büntetlenül akármeddig növelni. A GDDR5 vége 7Ghz körül van, de gyakorlatban nem sok ilyen memóriával szerelt termék került piacra, még a high end termékekbe sem, GDDR6-nál már nincs hova emelni az órajelet, azért nem lett folytatása.

Marad az adatsínek számosságának növelése. Itt az a gond hogy a memória és a CPU/GPU közötti több cm-es távolság nagyon nagy, minél több párhuzamos adatsínek ekkora távolságon megint interferenciát szül, ráadásul nagy számú adatsín CPU-n kívüli kivezetése és a számosság növekedésével egyre bonyolultabb és költségesebb. Manapság 8 db 32 bites GDDR5 chip van egy GPU mellett, így lesz 256 bites adatbusz szélesség. Ha pl. 4096 bit széles adatbuszra térnének át, azt roppant bonyolult és drága lenne tokozáson kívülre vezetni. A GPU tokozására rengeteg láb kellene, bonyolult nyák, meg 128 db memória chipet kellene valahogy elpakolni a kártyán, ami fizikailag kivitelezhetetlen lenne. Gondolj bele a PS3 RSX féle tokozáson belüli elrendezésnél sem érnél semmit a hagyományos chipekkel, mert 128 db-ot nehéz lenne a GPU köré pakolni.

Magának a memória chipnek is meg kell változnia a siker érdekében, a mostani 8-32 bit adatszélesség helyett, 512 vagy 1024 bit-re kell áttérni, ezeket nevezek Wide/IO DRAM-oknak. Ezekhez készülnek JEDEC szabványok mobil és nem mobil környezetre egyaránt.

A WideIO memóriák elrendezése kétféle lehet. 3D stacking az amikor chipek egymás fölé kerülnek, így a chipek közötti távolság a legkisebb, alig 100 micron-nyi. Ilyen kis távolságon nagyon nagy számosságú adatsín kialakítása lehetséges egységnyi felületen, az ezrestől, akár a milliós nagyságrendig. A gond ahogy az elején már írtam a hőmérséklet, amit a DRAM kevésbé tolerál, így csak alacsony fogyasztású mobil chipeknél fog képbe jönni ez a módszer az évtized közepétől. A mobil WideIO JEDEC szabvány első generációja 512 bit széles 200Mhz-es SDR megoldással 100 Gbit sávszélességet nyújt, ez a hagyományosan most használt 64 bites 1600-as LPDDR3-as megoldások sávszélességét nyújtja a lényegesen alacsonyabb órajel mellett jóval kisebb fogyasztás mellett, ami mobil környezetben fontos tényező. A második generáció 266Mhz-es DDR megoldással 2.5x nagyobb adatátvitelt hoz majd, ami valamivel fölötte lesz a 3200-as LPDDR4 megoldásnál, aminek a szabványa csak év végére várható és amivel duplázni lehet a jelenlegi LPDDR3-as megoldások sebességét.

A másik elrendezés az úgy nevezett 2.5D stacking, amikor a DRAM chipek a nagyobb fogyasztású CPU/GPU mellett helyezkednek el tokozáson belül és ezen chipek közötti adatkapcsolat összeköttetést egy un. interposer biztosítja. Úgy az évtized közepére ilyen kerülhet majd a CPU és GPU-kba, melléjük integrálva a WideIO memóriákat. Erről beszélt a GTC-n az NVidia vezért a Volta-val kapcsolatban.

A nem mobil megoldásokba magasabb órajelen futó, így persze nagyobb fogyasztás produkáló megoldások kerülhet. Pl. a hsz-em elején említett példánál maradva 8 db 512 bites 3200-as LPDDR4-as WideIO memóriával 1.6TB/s memória sávszél elérhető. 8 ilyen WideIO chipet a CPU vagy GPU köré pakolni tokozáson belül már nem kivitelezhetetlen, ellentétben pl. a korábban említett hagyományos megoldás 128 db chipes megoldásával.

DDR4 chipekből már lesznek 8 Gbit-esek, ezekből 8 db alapból 8 GB memória. Viszont a memória chipeket is lehet 3D stackinggel egymásra pakolni. Ekkor a sávszélesség nem nő tovább a CPU/GPU felé, mert sorba kötöttek, de a memória kapacitás tovább skálázható. A 3D stacking technológia fejlődésével ez lehet idővel akár 2/4/8/16 egymásra pakolt memória chip is. Pl. 8 egymás fölé pakolt DRAM chip esetén, amiből van a tokozáson belül 8 db, tehát összesen 64 db 8 Gb-es chip, az már 64GB memória. Ez már szerver vagy HPC környezethez is kezd elegendő lenni.

És a fejlődés itt nem fog megállni. A mai memória chipek a CPU és a memória nagy távolságára vannak tervezve, amikor az adatot több cm-nyire kell utaztatni. Onnantól hogy a memória a CPU-hoz egyre közelebb a tokozáson belülre kerül a régi működési elvek helyett, újabb hatékonyabbakat lehet alkalmazni. Amennyiben a 3D stacking a nagy teljesítményű CPU-k mellett is megjelenhet - ami azért ebben az évtizedben nem valószínű hogy meg fog történni - és a korábbi több cm-es adatút távolság leredukálódik mm-eknél is kisebb távolságokra, alapjaiban új megoldások előtt nyílhat meg az út. Teljesen új memória vezérlő, új dram belső kialakítások, amikkel még tovább növelhető a sávszélesség, még tovább csökkenthető a késleltetés.

Azt azért hozzá kell tenni itt azért nem az Nvidia találja fel a spanyol viaszt. Az hogy ez a fejlődés iránya már évtizedre visszamenőleg tisztázott, erről más gyártó is ugyanúgy kommunikált, publikált az elmúlt években. A félvezető piacon mire egy-egy megoldás beérik a kutatástól a tömeggyártásik sokszor 1-2 évtized is eltelik, ez alatt pedig folyamatosan zajlik a részeredmények kommunikálása. Épp ezért sosincs olyan hogy valami tök új csak úgy előterem a semmiből, amiről egy éve még senki nem hallott és máris ott van sorozat gyártott termékben. A WideIO memória is ilyen, ezt is kommunikálják már egy évtizede és úgy az évtized második felére be fog érni tömeggyártásra és szélesebb körben el fog tudni terjedni, ami így elhozza a 40 éve zajló integráció egy újabb lényeges fázisát, amikor már a memória is CPU része lesz.
 
Válasz írásához előbb jelentkezz be!