iPon Hírek

Részletek az AMD Steamroller architektúrájáról

Dátum | 2012. 08. 29.
Szerző | J.o.k.e.r
Csoport | FŐ EGYSÉG

Az AMD korábban nagy reményeket főzött a Bulldozer mikro-architektúrához, amely a várakozások ellenére finoman szólva sem hozta azt a szintet, ami elvárható lett volna. Persze az új mikro-architektúrák esetében mindig vannak kisebb-nagyobb problémák, ugyanakkor van némi mozgástér is a gyengeségek kijavítására és a teljesítmény növelésére. A Bulldozer esetében kicsit többről volt szó, mint megszokott, általános problémákról, így most már csak az a kérdés: vajon van elég mozgástér ahhoz, hogy a következő revíziók esetében sikerüljön növelni az architektúra hatékonyságát és így az órajelenként végrehajtható műveletek számát?

Az első megoldás, amely a Bulldozer továbbfejlesztett változatának tekinthető, nem más, mint a Piledriver mikro-architektúra, amely esőként a mobil Trinity APU egységekben debütált. Az újdonság által kínált teljesítménynövekedést meglehetősen szerény, de a friss megoldások dinamikus feszültség- és órajel skálázása azért mégis segített abban, hogy a Trinity lényegesen jobb watt/teljesítmény arányt kínáljon, mint a Llano, amely persze nem Bulldozer, hanem egy korábbi, Stars CPU mikro-architektúrára alapoz. A Piledriver mikro-architektúra kétségtelenül menetel az asztali szegmens felé: hamarosan megjelennek az asztali Trinity APU egységek és velük együtt az új, következő generációs FX sorozatú processzorok, a Vishera kódnévre keresztelt központi egységek is.

Most mégsem ezekkel, hanem a Piledriver mikro-architektúrát követő újdonsággal, a Steamroller-rel foglalkozunk, amelyről az AMD vezető technológiai igazgatója, Mark Papermaster azt ígéri, hogy jelentősebb teljesítménynövekedést kínál majd.


A Bulldozer mikro-architektúra köré épülő processzorok gyengesége az, hogy meglehetősen alacsony teljesítményt kínálnak, ha egy szálon futó, egy processzormagot érintő terhelésről van szó. A korábbi vélemények szerint a Bulldozer sikerességét gátoló elsődleges probléma a megosztott Front End részben keresendő. A Steamroller esetében ezt a részt át fogják dolgozni, így mindkét Integer részegység dedikált dekódereket kap és ezzel együtt a korábbinál nagyobb utasítás gyorsítótár is rendelkezésükre fog állni.


A fenti változtatás komoly előrelépéseket hoz. A branch misprediction esetében 20%-os javulás várható, az utasítás gyorsítótár esetében pedig 30%-kal kevesebb hibázásra számíthatunk. A szálankénti utasítás-feladatirányító egységek, amelyek a végrehajtó egységek teljes sávszélességét igénybe veszik, 25%-kal növekszenek. Ennek eredményeként az első szimulációk alapján kliens oldalon jelentkező terhelésfajtáknál – digitális médiával kapcsolatos produktivitás és játékok esetében – 30% körüli teljesítménynövekedés jelentkezhet órajelenkénti műveletkiküldés tekintetében.


Feltehetőleg az újragondolt Front End lesz az egyetlen komolyabb előrelépés a Steamroller esetében, viszont ezek a változások egyáltalán nem elhanyagolható jelentőséggel bírnak, vagyis az összteljesítményre is komoly hatást gyakorolnak. A Front End rész változásainak köszönhetően 5-10%-os időzítési hatékonyság-növekedés várható, amelyet megint csak kliensoldali terhelésformák szimulációjával mértek le a vállalat szakemberei.

A Steamrroller esetében enegiahatékonysággal kapcsolatos változtatások is helyet kapnak a repertoárban. Egyrészt fejlődik, hatékonyabbá válik az utasítás behívás, másrészt lehetőség nyílik a másodszintű gyorsítótár dinamikus átméretezésére is, ami szintén fontos lehetőség. A másodszintű gyorsítótár egy megosztott erőforrásnak számít a két integer mag között, amelynél mód lesz arra, hogy ha nincs szükség a teljes L2 cache méretére, akkor egyes részeit energiatakarékossági céllal kikapcsolhatja a rendszer.


Ezzel együtt a lebegőpontos teljesítmény kiegyensúlyozására is számíthatunk. A Bulldozer mikro-architektúra által kínált lebegőpontos teljesítmény gyenge, ugyanis egy FPU-n osztozik a két Integer egység. Az FPU végrehajtó egységének „áramvonalasabbá tételével” valószínűleg lehetőség nyílik némi fogyasztáscsökkentésre, ugyanakkor kérdéses, hogy ez miként hat a lebegőpontos teljesítményre. Az AMD persze megnyugtatta az aggódókat: az FPU egységek képességein nem esik csorba. Arról van szó, hogy a vállalat mérnökei egyszerűen találtak némi redundanciát – például az MMX egységekben – és újra felhasználnak néhány hardverkomponenset annak érdekében, hogy fogyasztást és kiterjedést csökkenthessenek, de ezek a lépések összességükben nem gyakorolnak negatív hatást a teljesítményre.


A mérnökök – ahogy az a fenti dián is látható – az FPU egyes részeit optimalizálva el tudják érni, hogy ugyanazt a 32 nm-es gyártástechnológiát alkalmazva, ugyanazt a funkciót kínáló logikai egység 30%-kal kisebb területen férjen el, és 30%-kal alacsonyabb energiafelhasználás mellett üzemeljen (High Density Library). Az egyelőre nem világos, hogy a fentihez hasonló optimalizációval melyik termékben találkozhatunk először.

Szó esett persze arról az összekapcsoló technológiáról is, amely a SeaMicro korábbi felvásárlásának eredményeként áll az AMD rendelkezésére. A technológiát a vállalat időközben Freedom Fabric névre keresztelte.


A felvásárlással egy időben a SeaMicro még nem kínált Opteron alapú megoldásokat, de az AMD már akkoriban kijelentette, hogy ez a helyzet az idei év második felében egészen biztosan megváltozik majd. A lenti fotó bizonyíték az említett ígéretre: a képen egy speciális kártya látható, amelyen Opteron 4256-os processzor, valamint két darab DDR3-as So-DIMM memóriamodul teljesít szolgálatot. A kártya felső részén látható, SeaMicro felirattal ellátott chipek felelnek a gyors kommunikációért a rendszer és a kártyák között. Ilyen kártyákból egy-egy szerverházba több darab is bepakolható lesz, így nagysűrűségű felhő alapú szerverek építhetőek.


Reméljük, a nem is oly távoli jövőben további információk is napvilágot láthatnak a Streamroller architektúrával és a többi újdonsággal kapcsolatban. Akkor majd kiderül, hogy a Steamroller összességében mekkora IPC növekményt kínál a Piledriver-hez képest.

Új hozzászólás írásához előbb jelentkezz be!

Eddigi hozzászólások

10. hmisi
2012.08.29. 12:29
Reméljük a legjobbakat. Ha jól értelmezem, akkor részben az a Bulldozer baja, hogy a legtöbb program csak 1-2szálat használ, ahol az fx procik meg gyengék. 4-8szálon erősek. A fogyasztáson segítene, ha 32-22nm váltás történne. Meg talán nem kénne 3,5-4ghz procikat kiadni.
 
Válasz írásához előbb jelentkezz be!
9. ThompsoN hmisi
2012.08.29. 13:07
Az fontos, hogy magas órajelen menjen.

Azért a gyenge erősen relatív fogalom, mert ugye mihez képest gyenge. Egy Sandy által felmutatott egyszálas teljesítményhez képest? Mert én úgy fogalmaznék, hogy a Sandy a túl erős egy szálon. Mert ugyebár ahhoz, hogy a Word menjen, nem kell nagy erő. SuperPI-t pedig senki sem fog éjjel-nappal futtatni. Egy E-450-hez képest egy szálon is pokolian erős, mégis a kis Brazoson akadás nélkül lehet dolgozni, netezni, és tapasztalatom szerint még régebbi játékokhoz is bőven elég. Filmnézésre meg az is túl gyors. (Nem az IGP-je volt használva grafikára, most kizárólag a processzorerőről beszélek.)
A játékok alatt felmutatott teljesítmény kielégítő, főleg az újabbb játékokban, amik már nem egy magon szórakoznak. Ha mind a 8 szál tisztességesen le van terhelve, akkor alig gyorsabb a 2600K, mint egy FX 8150. A gond az, hogy a programozók húzzák a szájukat, ha több szálra kell programot írni. Ennek az oka az, hogy nehéz párhuzamosítani sok feladatot. (De persze nem lehetetlen, csak jobban át kéne gondolni az algoritmust.)
 
Válasz írásához előbb jelentkezz be!
8. tibaimp
2012.08.29. 14:34
Ezzel csak az a baj lehet, hogy későn jön, mire ebből lesz valami kb 2013 vége, esetleg 2014 év, addigra az Intel meg már a franc tudja hol fog járni, Haswell már kint lesz, és lassan hozza be a 14nm-es technológiát is.
Nagyon kellene a 22nm ide is, mert ha 2 technológiai lépcsővel lemaradnak, akkor a fogyasztás/teljesítmény terén nagyon el lesznek szállva.
 
Válasz írásához előbb jelentkezz be!
7. shabbarule...
2012.08.29. 15:02
Ez a SeaMicro-s bevásárlás akkora bukta lesz mint egy ház.

Egy Opteron 4256EE fele akkora számítási teljesítményt nyújt, mint egy Xeon E3 1265L v2.
http://www.spec.org/cgi-bin/osgresults?conf=cpu2006&op=fetch&field=CPU&pattern=4256
http://www.spec.org/cgi-bin/osgresults?conf=cpu2006&op=fetch&field=CPU&pattern=1265l

Ráadásul még drágábban is adja ezt a gyengébb teljesítményt az AMD. Az előbb említett Opteron $377, plusz még venni kell hozzá egy külön északi hidat is $30-40-ért. Az előbb említett Xeon integrált északi híddal $294.

A Xeon integráltabb, modernebb gyártástechnológián készül, jobb az energia menedzsmentje, így az átlagos fogyasztása is alacsonyabb.

Kíváncsi leszek hogy fognak az új AMD alapú SeaMicro-s termékekhez vevőket(vagy inkább balekokat) találni. Nem lesz túl vonzó egy olyan kaszni ami drágább lesz mint az elődje, miközben fele akkora számítási teljesítményt nyújt, magasabb fogyasztás mellett.
 
Válasz írásához előbb jelentkezz be!
6. Juliska
2012.08.29. 15:13
shabbarulez: Szerintem jól fognak menni. Az Intel ezt nagyon elszúrta, a Freedom az új generációs energiatakarékos szerverek szent grálja, és most már az AMD-é. Bökheti a csőrét eléggé az Intelnek, hogy nem élvezheti az előnyeit.
 
Válasz írásához előbb jelentkezz be!
5. sanyix
2012.08.29. 15:20
@tibaimp: az okosok szerint a fogyasztáscsökkenésnek 28nm alatt vége... elérte a minimumot a sziliciumos technológia(, a csíkszélesség csökkentés már csak a lapka gyártásának árára lesz hatással, és az se mehet tovább, mert a nem csökkenő fogyasztást egyre kisebb felületen kell elvezetni.
És tényleg az utóbbi években eléggé belassult ez a fogyasztáscsökkenés.
 
Válasz írásához előbb jelentkezz be!
4. Juliska
2012.08.29. 15:29
sanyix: Szerintem ez nem így van. Csak a Dennard Scaling miatt érezzük ezt, de ez a szabály már 10 éve haldoklik. A fogyasztás csökkenthető tovább, és a chipek skálázása sem áll meg, csak még több és egyszerűbb mag kell, vagy az adatpárhuzamos feladatokat oda kell adni az integrált GPU-nak.
 
Válasz írásához előbb jelentkezz be!
3. torma99
2012.08.29. 17:45
Streamroller? Tán inkább steamroller a címben
 
Válasz írásához előbb jelentkezz be!
2. J.o.k.e.r torma...
2012.08.29. 20:19
Igen, az bizony Steamroller!
Kijavítottam mindenhol, mert a hírben is elírtam néhány helyen...
 
Válasz írásához előbb jelentkezz be!
1. Cannapeace
2012.09.21. 23:38
Next step RADEON-BULL Két GPU magot kötnek össze
 
Válasz írásához előbb jelentkezz be!