iPon Hírek

Friss ASUS videokártyák, 4 GB-nyi VRAM-mal

Dátum | 2012. 12. 04.
Szerző | J.o.k.e.r
Csoport | FŐ EGYSÉG

A vállalat áttervezett, kétslotos hűtéssel ellátott GeForce GTX 680-as videokártyájának érkezéséről korábban már beszámoltunk, most azonban végre hivatalos információ is érkezett a termékkel kapcsolatban, így például a hazai ajánlott végfelhasználói áráról is lehullott a lepel. Extraként még egy friss, GeForce GTX 670-es modell is bemutatkozott.


A legfrissebb GeForce GTX 680 DirectCU II videokártya elődeivel ellentétben már nem három, hanem csak két slotot foglal az adott számítógépházban, ugyanis kompaktabb videokártya hűtő került rá.  A friss hűtés 20%-kal alacsonyabb hőmérsékletet biztosít a GPU számára, és jóval halkabb is, mint a referencia megoldásokon alkalmazott videokártya hűtők. További pozitívum, hogy a termék 2 GB-nyi helyett immár 4 GB-nyi fedélzeti memóriával érkezik, méghozzá ugyanolyan minőségi felépítéssel, mint elődei. A friss videokártya hatfázisú Digi+ VRM áramkört és Super Alloy Power komponenseket alkalmaz, így nem csak stabilan üzemel, de hatékonyan tuningolható is. A tuningban a már jól ismert GPU Tweak alkalmazás segít.


A kétslotos hűtéssel ellátott GeForce GTX 680 DirectCU II-es videokártya mellett egy szerényebb teljesítményű, de ugyancsak 4 GB-nyi fedélzeti memóriával, illetve kétslotos DirectCU II-es hűtéssel érkező modell is megjelent a gyártó kínálatában. A szóban forgó jövevény GeForce GTX 670-es alapokon nyugszik.

A két újdonság legfőbb tulajdonságait az alábbi táblázat összegzi:


Az ASUS új videokártyái természetesen részt vesznek a gyártó és a Ubisoft közös akciójában is, azaz jár hozzájuk egy teljes verziós játék, amit öt népszerű cím közül lehet kiválasztani. A választékban az Assassin’s Creed III, az I Am Alive, a Tom Clancy’s Rainbow Six: Vegas 2, a Tom Clancy’s Splinter Cell: Conviction, illetve a R.U.S.E lapul.

Az újdonságok közül a GTX680-DC2G-4GD5 modell ajánlott végfelhasználói ára 169 900 forint, míg a GTX670-DC2G-4GD5-é 144 900 forint. A hírek szerint a friss, kétslotos felépítésű GeForce GTX 680-as videokártyából hamarosan egy 2 GB-os változat is megjelenik alacsonyabb áron.

Új hozzászólás írásához előbb jelentkezz be!

Eddigi hozzászólások

29. phild
2012.12.04. 08:23
már nem azért, de a BME "szuperszámítógépe", hogy került 70millióba, mikor ebből a kártyából 12db 4esével SLI-be kötve 3x gyorsabb lenne és durván 2millából kijönne vagy legyen 3 mindennel együtt. és a hivatalos sajtóanyagban meg büszkén írják,hogy 360db CPU magos a redszerük.. grat! ebből meg egy GPU -ban 1058 van..
Kíváncsi vagyok hogy mi az amit CUDA-ban nem tudnak megoldani
 
Válasz írásához előbb jelentkezz be!
28. siita
2012.12.04. 08:35
Phild, az 1058 az nem a CUDA magok száma, hanem a GPU órajel, te az 1536/1344-el keverted össze...
 
Válasz írásához előbb jelentkezz be!
27. snowman88
2012.12.04. 08:52
Hello phild!

Gondolj bele, hogy egy Intel Xeon X5660 mag nem egyenértékű egy CUDA maggal (értem ezalatt a skalár processzorokat). Ráadásul, sok memória intenzív kernel esetében az elméleti számítási kapacitásnak csak a töredéke érhető el. Én azt állítom, hogy nagyon alkalmazás függő, hogy mi implementálható hatékonyan GPU-n.

A BME szuperszámítógépben is elérhető egyébként pár TESLA GPU, ami kifejezetten tudományos számításokra optimalizált.

Üdv.: snowman88
 
Válasz írásához előbb jelentkezz be!
26. Emberfej
2012.12.04. 09:31
phild
A videokártyák sokkal pontatlanabbul számolnak.
 
Válasz írásához előbb jelentkezz be!
25. partxxx
2012.12.04. 10:00
a CUDA magok csak végrehajtók, 1 magban 1 lebegőpontos és 1 intiger típusú egység van ami a processzor utasításait hajtja végre, míg egy processzorban hardveres (matematikai, logikai) műveletvégző egységek is megtalálhatóak és saját utasításkészlet

a CPU-k nál gyorsabb a DSP-s mag (Digital Signal Processing) ennél többet ki lehet fozni egy FPGA-ból (Field-programmable gate array) de a legtöbbet a célegységekből lehet kihozni, pl oszcilloszkópoknál 4Ghz(!)-es jeleket is lehet megjeleníteni 6-8-10-12 biten, sőt még megjelenítés előtt műveleteket is lehet rajta végezni

(8bit,4Ghz -> 4Gbyte/s adatfolyam)

Shanon mintavétel alapján legalább dupla akkora mintavételező jel szükséges + közbeni műveletvégzés ... nem kis számítási teljesítmény, mégsem lehet rajta BF3azni ...
 
Válasz írásához előbb jelentkezz be!
24. phild
2012.12.04. 10:34
snowman88: a CPU valóban nem egyenértékű a CUDA maggal, mivel abban nincs VGA, USB, SPI, és egy csomó egyéb hardveres utasításkészlet, de ha utánaolvastok,hogy milyen utasításokat tud a CUDA és milyen extra matematikai csomagok vannak még hozzá, az sokat segítene a megértésében. Valamint a GPU és a VRAM között olyan sávszélesség van amit azt hiszem az alaplapi RAM és a CPU között sosem fognak elérni.
partxxx: CUDA programozásnál a videokártya nem a processzor utasításait hajtja végre, pont ez a lényege a dolognak, a videokártyán fut a program.
Emberfej: a pontatlanabb számítást nem tudom értelmezni, ezzel nem tudok vitatkozni, de ha 1+1re 2őt dob vissza a CUDA, majd írok
 
Válasz írásához előbb jelentkezz be!
23. dklol
2012.12.04. 10:56
Válasz #1-re
phild:

A GTX680 számítási teljesítménye 200 GFLOPS, a Superman meg 6 TFLOPS -ot tud, ez 30x különbség. 12 darab gtx680 csak a harmadát tudja a 6 TFLOPs-nak, és nem a 12x többet

Válasz #6-ra
Phild:

Attól hogy a GPU 10x gyorsabban(~200 gb/sec) olvas a VRAM-ból mint a processzor(~20gb/sec) még nem jelenti , hogy 10x gyorsabb a processzornál~ NEM 1 adat határozza meg a teljesítményt.
 
Válasz írásához előbb jelentkezz be!
22. dklol
2012.12.04. 10:57
3x többet elírtam~
 
Válasz írásához előbb jelentkezz be!
21. phild
2012.12.04. 11:23
dklol: kicsit keress utána neten és megtalálod, hogy 3090.432 GFLOPS a teljesítménye, ami átváltva 3,009TFLOP/s, igaz én is tévedtem ,mert ugye a flop/Hz érték procinként eltérő, de azt szerintem te sem gondoltad komolyan,hogy 1625GHz mellett csak 200Gflopot csinál, ha gondolod elmagyarázom miért hülyeség
a memória sebesség pedig nem 200gb6s,mert az felénk gigabitet jelent, hanem GB vagyis gigabyte, és ez pont azt jelenti hogy sokkal gyorsabb
 
Válasz írásához előbb jelentkezz be!
20. petXYZW
2012.12.04. 11:27
phild:
"Valamint a GPU és a VRAM között olyan sávszélesség van amit azt hiszem az alaplapi RAM és a CPU között sosem fognak elérni."

Jellemzően a CPU az "alaplapi RAM"-hoz, fordul úgy gondolod? A cache-t meg dísznek integrálták bele.

Vannak feladatok amire a GPU való, van olyan amire meg a CPU, meg van olyan amire FPGA, meg van olyan amire az EMBER...és még lehet folytatni a sort.
 
Válasz írásához előbb jelentkezz be!
19. Emberfej
2012.12.04. 11:29
Ha nem tudod értelmezni az a te bajod, pedig próbáltam olyan egyszerűen írni hogy te is megértsd.
Amikor egy változót több ezerszer felhasznál a gép és mondjuk csak 0,11111 hosszúságig képes kezelni a számokat pedig 0,11111111111111111111111 -re lenne szükség a pontos számításhoz, akkor nagyon nagy hibáról beszélünk mert lehet hogy most pont emiatt fog összedőlni egy híd ha a szél által keltett rezonanciát számolták hibásan.
De ez csak a jéghegy csúcsa, teljesen más a két típus.
 
Válasz írásához előbb jelentkezz be!
18. dklol
2012.12.04. 11:35
Válasz #9-re
phild:

egy szerver vagy szuperszámítógép esetében dupla pontosságú számításokban szokták megadni a teljesítményt(senkit se érdekel hogy a krájzisz hány fps-el megy rajta)

https/superman.eik.bme.hu/info/system/
A superman-ben 2 TFLOPS a 4 tesla telejesítménye ami ugye 500 GFLOPS fejenként.

http://www.nvidia.com/object/why-choose-tesla.html

Itt látszik hogy a dupla pontosság mellet a GTX 680 hol is van a teslához képest.

üdv...~

 
Válasz írásához előbb jelentkezz be!
17. petXYZW
2012.12.04. 11:43
Phild! Egy kis olvasni való:
[LINK]
 
Válasz írásához előbb jelentkezz be!
16. phild
2012.12.04. 12:24
én úgy tudom hogy a chache az nem buffer és oda nem a RAM adatai tárolódnak,hanem a különböző szálakhoz tartozó utasítások sora, pont ezért nem buffernek hívják,de lehet én tudom rosszul
 
Válasz írásához előbb jelentkezz be!
15. phild
2012.12.04. 12:56
elolvastam megint azt a keveset amit találtam a bme-s gépről, de abban nem láttam,hogy ez a full double floatra vonatkozó teljesítmény lenne, de még mindig nem győztetek meg, hogy gyorsabb lenne ennél és ha egy híd a dupla pontosságú számítás miatt dől össze... ez megint csak baromság,de ezt tudod is.
ja és azt hiszem a Tesla nem olyan árban van teljesen mint a Geforce, talán ha ésszerűen gondolkozunk az 1millás tesla fermi M2090 esből 5db Geforce gtx680-as röhögve kijön és az öt együttes teljesítménye 1,5x nagyobb mint a fermié( azalapján a grafikon alapján amit voltál szíves belinkelni)
 
Válasz írásához előbb jelentkezz be!
14. phild
2012.12.04. 13:02
és ha double precision-on pörögtök ennyire, egy kis számítással a 6Tflop még úgy is kijön 30db GTX680-asból, ami 5,1millió HUF, plus pár alaplap meg winyó+ssd, meg egy-két tyúkbél nem hiszem hogy 8milla fölé vitte volna a számla végét. ha és áramfelvételben meg az az 540db xenon, a külön alaplapokkal meg kitodja mivel, kicsivel húzósabb lehet
 
Válasz írásához előbb jelentkezz be!
13. dklol
2012.12.04. 13:43
Válasz #15-re
phild:

Pont ezért linkeltem...
BME-s linkből lejön hogy a tesla 500 GFLOPS körül tud. A másik linken meg látszik hogy ezt a kb 500-600-t dupla pontosság mellett tudja, sima pontosság mellet meg tud 1.6 TFLOPS körül.
http://www.nvidia.com/object/tesla-servers.html

A linken továbbá látszik hogy az újabb GK104-es tesla K10, tehát ami a mostani gtx680 alapja is dupla pontosság mellet nagyon gyenge 95 GLPOS-t tud, még a gtx680 szintjét se éri el, mondjuk csak azért mert jóval alacsonyabb órajelen fut. Sima pontosság mellet már tudják a 2.2-4 TFLOPS-ot is. AZ megint más kérdés hogy a 30 GTX680 elégetné a gépet megfelelő hűtés nélkül.

De nem vitázok többet veled, nem hülyegyerekek rakták össze azt a gépet és nem hiába xeont, opteont teslat meg fireprot használnak a szuperszámítógépekben mert ha rövidtávon nem is hosszútávon biztos nyert ár/teljesítmény/fogyasztás mutatókban az asztali komponensekkel szemben.
 
Válasz írásához előbb jelentkezz be!
12. AgeOfVampi...
2012.12.04. 13:58
Nem, nem baromság az a híd összedőlése, még ha természetesen egy sarkított példa is. Szimuláláskor bizony 1000 meg 1000 változó/tényező van egyszerre jelen, és a pontatlanabb számítás minden egyes alkalommal ront a helyzeten, és bizonyos pontatlanság felett értelmetlenné válik az egész. Ráadásul több kártyával akarsz kiváltani egyet, ez tovább ront a pontosságon, és bizony a hatásfokuk sem lesz olyan, mint te szeretnéd. Azt is elmondták, hogy bizonyos területen a GPU a nyerő, de valahol jobb a CPU. Itt. De érdemes lenne azon elgondolkozni, hogyha olyan egyszerű lenne az egész, mint te gondolod, akkor már rég nem lenne Tesla, és minden szuperszámítógépben GTX 680 robogna, sőt úgy látom a CPU-kat is vele akarod kiváltani... Szerinted minden szuperszámítógépet működtető intézményben analfabéták dolgoznak?
 
Válasz írásához előbb jelentkezz be!
11. phild
2012.12.04. 14:43
de így nem lehet vitatkozni,ha folyton mellémagyarázzátok a dolgokat. sajnos még a tesla, sem tud magában menni, a CPU-k kezelik le a hálózati kommunikációt és a RAM kezelést és a háttértár kezelést. a Tesla le tudja kezelni közvetlenül a RAM-ot de sajnos a ramba bemásolni és kiírni a háttértárolóra nem tud. ezt a procinak kell megoldania. (legalábbis az igazi szuperszámítógépeknél)
amúgy valahogy Széchenyi idejében is építettek hidat sőt állítólag a GoldenGate-et is elég régen csinálták, és valahogy még azok is állnak. mivel műszaki területen dolgozom, és tudom mi az a statika,szilárdságtan, és mechanika, tudom,hogy nem kell hozzá atomfizika, főleg nem szuperszámítógép.
és azért nem geforce robog minden szuperszámítógépben,mert máshol van pénz a teslára, és ebben igazat adtam a probléma felvetőjének,hogy a tesla gyorsabb, tehát kevesebb kell belőle,ergo kisebb helyen elfér. ha több kártyát használok az miért is rontana a pontosságon? tudod digitális világban élünk, nem analóg hogy elvesszen a kábelen a jel a zajban
és ugye ha már itt tartunk, a CPUból összerakott fürtöknél, csak kellenek routerek vagy bármilyen hálózati adattovábbítás(ami nyilván idő). viszont az 1500 mag egymás mellett van, közös memórián,szóval ott kicsivel gyorsabb lehet az adatcserélgetés.
 
Válasz írásához előbb jelentkezz be!
10. petXYZW phild
2012.12.04. 16:37
"én úgy tudom hogy a chache az nem buffer és oda nem a RAM adatai tárolódnak,hanem a különböző szálakhoz tartozó utasítások sora, pont ezért nem buffernek hívják,de lehet én tudom rosszul"

Azt áruld már el, ha így lenne, az utasításokhoz hogyan szülne a CPU operandusokat, kellően rövid időn belül?
Mellesleg ez pont a GPU szűk keresztmetszete - lehet, nem feltétlenül, feladatfüggő.

"Most modern desktop and server CPUs have at least three independent caches: an instruction cache to speed up executable instruction fetch, a data cache to speed up data fetch and store, and a translation lookaside buffer (TLB) used to speed up virtual-to-physical address translation for both executable instructions and data. The data cache is usually organized as a hierarchy of more cache levels (L1, L2, etc.; see Multi-level caches)."
 
Válasz írásához előbb jelentkezz be!
9. phild
2012.12.04. 17:21
a GPU-nak is van cache-e!
egyébként a CPU közvetlen tudja a RAM-ot kezelni, nézz meg egy proci specifikációt, az első pár oldalon ott a lábkiosztás, meglepő dolgokat fogsz látni és a cache nem bufferként működik, mert gondolj bele, egy 4,8,16GB-os rendszer memóriát nem fog átpörgetni a cache-en. ott azt tártolja,hogy a proci melyik területéről és melyik memória részről kell vennie az adatokat és esetleg azokat a parancsokat amit a feladatban gyakran használ. most ha csak egy NFS-t vagy bármilyen játékot nézel, mégis abba a pár megába milyen adatot írnál bele? attól nem lesz gyorsabb a memória elérés,hogy van még közben egy pár megás buffer. az a "data" amit belinkeltél nem olyan adat mint amire te gondolsz. de józan paraszti ésszel is utána lehet ám gondolni ennek.
 
Válasz írásához előbb jelentkezz be!
8. phild
2012.12.04. 17:30
Ja és ha utánaolvasol úgy történik a többszálúsítás is procin belül,hogy a cache-et használja az egyes folyamatok "lépéseinek" tárolására,hogy tudja hogy melyikkel hol tart és mit kell vele csinálnia
 
Válasz írásához előbb jelentkezz be!
7. petXYZW phild
2012.12.04. 17:38
Azt hiszem én befejeztem......
 
Válasz írásához előbb jelentkezz be!
6. phild
2012.12.04. 18:01
Azért adhattál volna egy hibakódot,hogy miért hagytad abba a beszélgetést,mert úgy érzem engem nézel hülyének,holott rajtad kívül még sokan nem tudják mi is az a gépi kód és túlértékelik a processzor feladatát, meg hogy a program hogyan is tárolódik a memóriában és mi történik mikor elindítod. De ez nem a te hibád,csak az oktatásban a tanárok sem értik és próbálják úgy elmagyarázni a gyereknek,hogy valamit felfogjon és utána a doliban le tudjon írni valamit. Régen az amd oldaláról le lehetett tölteni szinte minden proci komplett több ezer oldalas specifikációját,nem tudom még meg lehet-e találni ilyeneket,de ha idöd engedi pörgesd át
 
Válasz írásához előbb jelentkezz be!
5. petXYZW phild
2012.12.04. 18:24
Nem nézlek hülyének, csak már nem tudom követni amit írsz ... mellesleg időm sincs vitatkozni. Bocsi.
 
Válasz írásához előbb jelentkezz be!
4. snowman88
2012.12.04. 20:55
Hát... most sokat gondolkodtam, hogy folytatni kell-e ezt a threadet, de
"Azért adhattál volna egy hibakódot,hogy miért hagytad abba a beszélgetést,mert úgy érzem engem nézel hülyének,holott rajtad kívül még sokan nem tudják mi is az a gépi kód és túlértékelik a processzor feladatát, meg hogy a program hogyan is tárolódik a memóriában és mi történik mikor elindítod. De ez nem a te hibád,csak az oktatásban a tanárok sem értik és próbálják úgy elmagyarázni a gyereknek,hogy valamit felfogjon és utána a doliban le tudjon írni valamit."
Ezzel mélységesen egyetértek , ezért:
Nem is feltétlenül az a lényeg, hogy most 500 GFLOP vagy 1 TFLOP... Ez mind elméleti számítási kapacitás. A gyártó ezt általában (és most is erről van szó) a legideálisabb esetben adja meg. Tehát itt: az adat közvetlenül elérhető egy regiszterben (0 latency, ~8TB/s sávszélesség) és maximális az utasítás throughput (22 stages pipe-line). A CUDA magnak sokféle memóriaterület áll a rendelkezésére amelynek mind pozitív latency-je és jóval kisebb sávszélessége van, mint a regisztereknek. Emellett, az irreális ugye, hogy minden adat közvetlenül a regiszterben legyen főként, hogy hozzátesszük, hogy a host a DRAM-ba írja az input adatokat.
Láttam már olyan kernelt nem is egyet, ami nem tudja kihasználni a sok gyors memória terület (akár cache) nyújtotta előnyöket, így a DRAM-ból (~200-300 órajelciklus, ~150 GB/s sávszélesség) kell közel minden operandust felolvasnia. Az elméleti számítási kapacitás kis sarkítással 500-ról akár 10GFLOP-ra is zuhanhat. És ekkor még nem is beszéltem arról, hogy esetleg az algoritmusod kicsit sem SIMD architektúrára illeszkedik és egy csomó CUDA magod tétlenül pislog az IC lapkán (mondjuk thread divergency miatt), vagy nem beszéltem arról, hogy az általad is utalt fancy hardver támogatott matematikai műveletek, vagy egyszerűen egy double precision floating point művelet 2-vel vagy 8-cal is megvágja az utasítás áteresztő képességet.
Persze, érvelhetsz úgy, hogy a BME-s számítási kapacitás is csak elméleti és igazad is van. És itt jön képbe az, amit már az első kommentemben is jeleztem és azóta sokan mások is, hogy lehet, hogy a CUDA-ára nem optimális algoritmus effektíve mondjuk 1GFLOP-ot hoz ki a GPU-ból, míg a teljesen más architektúrájú (nagy cache, kisebb pipe-line, sok on-line utasítás egymásra hatás kiküszöbölés) BME-s szuperszámítógépből 4GFLOP-ot. És ki kell sokakat ábrándítani, sok esetben ez lesz a helyzet.
A fent leírtak a Fermi architektúra sarokszámai DDR RAM-ot feltételezve, de a szóban forgó Kepler + VRAM kombónál is ugyanilyen típusú korlátok vannak.
 
Válasz írásához előbb jelentkezz be!
3. snowman88
2012.12.04. 21:07
Jah, igen... egy dolog lemaradt. A BME szuperszámítógép nem sorozat gyártott rendszer. A 70 millióban (amit te írtál nem tudom tényleg ennyi volt-e) nyilvánvalóan nem csak a számítógépek ára van benne. Hanem iszonyat sok emberi munka (tervezés, kivitelezés: gondolj bele csak összerakni mennyi meló) valamint terem, állandó hőmérsékletet, páratartalmat biztosító berendezések, rackek, rengeteg delej biztonságos biztosítása... nem tudom pontosan, de ilyenek biztosan szóba kerültek. Ezek egy TESLA-s/Geforce-os rendszernél is előjöttek volna.
 
Válasz írásához előbb jelentkezz be!
2. phild
2012.12.05. 08:55
snowman88: köszönöm az értékes hozzászólást! ez tetszett! és egyet értek veled szinte mindenben, annyi jutott eszembe,hogy esetleg akkor nem mindegy, hogy milyen komponensekből áll a cucc, ha mondjuk egy célgépben pl. MRI felvételek valós idejű kiértékelésénél használják, vagyik a sok ezer szürkeárnyalatos képből valós időben szét tudja választani az összeillő részeket a sok rétegről és ebből 3Dben nem pontfelhőből,hanem poligonokból kirajzolja a koponyát, a szöveteket vagy a folyadékot. ebben a feladatban például double-precision-floatra nincs szükség, szóval pöröghet a rendszer lassulás nélkül, viszont ha valami alkatrész elszáll a gépben bárki ki tudja cserélni és nem kell a világ másik végéből rendelni. ja és 4karit egy alaplapra is rá lehet tenni SLIvel és egy combosabb táppal. itt mivel ez lényegében egy asztali gépnek tekinthető a méreteit és az összetevőket nézve, tehát se légkondícionállásra se helyre nincs szükség és az 1500as táp is lekezeli a feszkót bocsánat ha kicsit gyorsan írok,de másodszorra kell megírnom, bizonyos okok miatt. a másik,hogy igazad van,hogy a gyártók mindig többet adnak meg mint folyékony nitrogén nélkül elérhető,de ezt a teljesítmény adatot egy olyan oldalon találtam, ahol első ránézésre valami őrült banda be is méri rendesen a dolgokat,mert egy adat sem végződik kerek számra és nincs kint az nvidia logoja az oldalon majd holnap megkeresem megint és belinkelem

Ezt a linket meg természetesen most találtam csak meg:
http://www.fudzilla.com/home/item/26459-geforce-kepler-gk110-basic-specs-leaked
 
Válasz írásához előbb jelentkezz be!
1. phild
2012.12.05. 08:58
http://www.gpureview.com/GeForce-GTX-680-card-667.html
 
Válasz írásához előbb jelentkezz be!