# Supercomputer mit ATI Radeon Karten auf Platz 22 der Top500



## Skysnake (19. November 2010)

Auf Platz 22 der TOP500 Liste der schnellsten Supercomputer im Linpack Benchmark, befindet sich nun mit 285,2 TFlops das LOEWE-CSC System. Das Konzept für den Superrechner erdachte Prof. Volker Lindenstruth, ehemals an der Universität Heidelberg tätig und nun am Lehrstuhl für Höchstleistungsrechnerarchitektur der Goethe Universität Frankfurt.

LOEWE-CSC befindet sich im Industriepark Höchst und kann durch einige Besonderheiten auf sich aufmerksam machen. 

Hierzu zählt unter anderem das Kühlkonzept, welches auf Grundlage des Green-IT-Konzept der Goethe Universität entwickelt wurde und auf Wasserkühlung setzt sowie eine höhere Temperatur im Serverbereich vorsieht. Hierdurch wird eine Reduzierung des Energieaufwands zur Kühlung des Systems von normalerweise 40-100% der Nutzleistung auf weniger als 10% ermöglicht. Bei einer maximalen Leistungsaufnahme von knapp 500 Kilowatt kein zu unterschätzender Kostenfaktor.

Eine weitere Besonderheit des Systems, das es auch hierbei führend in der Welt macht, ist der Einsatz von ATI Radeon Karten als Beschleuniger. LOEWE-CSC ist damit der Weltweit schnellste Rechner, der auf GPUs von ATI (nun AMD) setzt. Erstaunlich dabei ist vorallem das in der TOP500 Liste steht, das es sich dabei um Radeon Karten handelt, also normale Consumer-Karten.

Aber auch die andere Hardware kann beeindrucken.

Die Firma Cluster Vision wird insgesamt 20.768 Prozessorkerne (AMD Opteron), 772 GPUs und 2 Petabyte Massenspeicher liefern. Die Rechenknoten mit bis zu 48 Prozessorkernen werden von der Firma SuperMicro gefertigt. (In der Top500 Liste "nur" ein Ausbau mit 15120 Cores berücksichtigt)

Für das besonders wichtige Hochleistungsnetzwerk, welches die Knoten miteinander verbindet, wird Mellanox QDR InfiniBand eingesetzt.

LOEWE-CSC konnte damit auch knapp den Superrechnet JUROPA-SUN, der im Forschungszentrum Juelich steht und sich nun mit 274,8 TFlops auf Platz 23 befindet, schlagen. 

In Deutschland gibt es damit mit dem JUGENE - Blue Gene/p (Forschungszentrum Juelich; 831,7 TFlops) nur noch ein schnelleres System, welches wiederum in Europa nur noch vom Tera-100 (Frankreich) mit 1.050 TFlops geschlagen wird.

Als besonders interessanten Punkt ist auch noch anzuführen, das die beiden nVidia System auf Platz 1 und 3 nur zu 54,58% bzw. 42,59% ihre theoretische Maximalleistung erreichen. LOEWE-CSC erreicht hier stolze 60,72%, was für einen GPU Cluster somit ein guter Wert ist. 

Hierbei sollten man insbesondere Bedenken, das AMD Karten ja nachgesagt wird, das diese mit ihren 5D Shadern sehr schwer auszulasten seien, weshalb man die theoretisch sehr guten Flop Werte real nicht erreichen kann, wohl doch dazu bewegt werden können doch eine sehr gute Performance zu erbringen. Hier trägt sicher Prof. Lindenstruth mit seiner Arbeitsgruppe ein großer Anteil.

Quellen:


TOP500 List - November 2010 (1-100) | TOP500 Supercomputing Sites
Hochleistungsrechner auf Spitzenniveau - Uni-Online.de
http://www.faz.net/s/RubFAE83B7DDEFD4F2882ED5B3C15AC43E2/Doc~E2784BCD30538412B9E349D78D0F8337C~ATpl~Ecommon~Scontent.html


----------



## Madman1209 (19. November 2010)

Im Prinzip danke für die News, echt interessant. Aber lies sie dir vielleicht nochmal in Ruhe durch und prüfe den Satzbau ab und zu... hier fehlt mal ein Verb, da fehlt mal was... 4:00 Uhr Morgens ist nicht die beste Zeit zum News schreiben


----------



## TheMF6265 (19. November 2010)

hört sich gut an, iwan musste ja mal ne ATi Maschine in den Top 25 auftauchen


----------



## Bamboocha2510 (19. November 2010)

das glaub ich nicht, Tim


----------



## Hugo78 (19. November 2010)

Skysnake schrieb:


> Als besonders interessanten Punkt ist auch noch anzuführen, das die beiden nVidia System auf Platz 1 und 3 nur zu 54,58% bzw. 42,59% ihre theoretische Maximalleistung erreichen. LOEWE-CSC erreicht hier stolze 60,72%, was für ein GPU Cluster ein guter Wert ist.



Bei den Systemen mit Nvidia GPUs sind auch nur 6kern CPUs verbaut.
Bei dem LOEWE-CSC dagegen 12kern CPUs.
Und je stärker der Anteil an CPU kernen, desto weniger entschwindet der Rpeak wert, vom Rmax.

Hätten die NV Systeme doppelt soviele CPU kerne, und damit das selbe Verhältniss wie beim LOEWE-CSC, dann wäre im Linpack Bench auch der Rmax größer im Verhältniss zum Rpeak.


----------



## mickythebeagle (19. November 2010)

Madman1209 schrieb:


> Im Prinzip danke für die News, echt interessant. Aber lies sie dir vielleicht nochmal in Ruhe durch und prüfe den Satzbau ab und zu... hier fehlt mal ein Verb, da fehlt mal was... 4:00 Uhr Morgens ist nicht die beste Zeit zum News schreiben



oO sind wir jetzt hier in der Gramatik Stunde Herr Besserwisser ?


----------



## Madman1209 (19. November 2010)

> oO sind wir jetzt hier in der Gramatik Stunde Herr Besserwisser ?


Also entschuldige mal, ich sag sicher nichts wenn mal ein Fehler gemacht wird, aber da ist in so gut wie jedem Satz etwas falsch. Ich denke, da darf man durchaus mal freundlich drauf hinweisen 

Und ausserdem (Sorry, aber den kann ich mir in deinem Fall nicht verkneifen): Es heisst "Gram*m*atik" und am Satzanfang schreibt man im Deutschen groß


----------



## Skysnake (19. November 2010)

Hugo78 schrieb:


> Bei den Systemen mit Nvidia GPUs sind auch nur 6kern CPUs verbaut.
> Bei dem LOEWE-CSC dagegen 12kern CPUs.
> Und je stärker der Anteil an CPU kernen, desto weniger entschwindet der Rpeak wert, vom Rmax.
> 
> Hätten die NV Systeme doppelt soviele CPU kerne, und damit das selbe Verhältniss wie beim LOEWE-CSC, dann wäre im Linpack Bench auch der Rmax größer im Verhältniss zum Rpeak.


Du hast dir vorher die Daten schon angeschaut bevor du das schreibst? 

Ich hab nochmal nachgeschaut bei #1, der hat ja knapp 7700 GPUs. Ich komm da auf 4 CPU-Cores pro GPU-Core. Bei LOEWE-CSC komm ich auf 1,6 CPU-Cores je GPU-Core. 

Dein Argument von wegen mehr CPU Cores zählt damit nicht, da genau das Gegenteil sogar der Fall ist.


----------



## Skysnake (19. November 2010)

mickythebeagle schrieb:


> oO sind wir jetzt hier in der Gramatik Stunde Herr Besserwisser ?


Ist doch ok, er hats doch wirklich sehr nett gesagt. Ich fühl mich da wirklich nicht auf den Schlips getreten. Vorallem er hat recht, um 4 Uhr ist wirklich nicht die beste Zeit


----------



## kuer (19. November 2010)

Hugo78 schrieb:


> Bei den Systemen mit Nvidia GPUs sind auch nur 6kern CPUs verbaut.
> Bei dem LOEWE-CSC dagegen 12kern CPUs.
> Und je stärker der Anteil an CPU kernen, desto weniger entschwindet der Rpeak wert, vom Rmax.
> 
> Hätten die NV Systeme doppelt soviele CPU kerne, und damit das selbe Verhältniss wie beim LOEWE-CSC, dann wäre im Linpack Bench auch der Rmax größer im Verhältniss zum Rpeak.


 

kaum schreibt einer, das AMD was besser kann als NV, kommt HUGO und stellt das richtig.
Bleib doch mal ruhig. Es können eine menge Leute lesen. Es hat niemand gesagt das NV schei...e ist. Hast du die Links schon mal gelesen ?
Na also. Alles wieder gut. NV ist das beste von Welt  OK
@ TOP: Na es geht doch. Warum hat das so lange gedauert, das ein AMD GPU Rechner es in die top 25 schaft ? Glückwunsch


----------



## Madman1209 (19. November 2010)

@SkySnake:
Danke dir  Hatte es auch wirklich nicht böse gemeint... ich kenne das selber wenn man um die Uhrzeit noch irgendwas tippt, läuft auch bei mir wahrlich nicht immer glimpflich ab 

Aber die News sind interessant... ich finde es beeindruckend und toll, dass GPUs da so stark genutzt werden - gerade auch im Hinblick auf die Effizienz und den Stromverbrauch. Wobei es bei ComputerBase gerade einen Artikel gibt in dem es um die neuen IBM-Prozessoren geht. Der Kampf finde ich wird richtig spannend.

IBMs 17-Kern-CPUs werden extrem effizient - 18.11.2010 - ComputerBase


----------



## Lyran (19. November 2010)

Madman1209 schrieb:


> Also entschuldige mal, ich sag sicher nichts, wenn mal ein Fehler gemacht wird, aber da ist in so gut wie jedem Satz etwas falsch. Ich denke, da darf man durchaus mal freundlich drauf hinweisen
> 
> Und außerdem (Sorry, aber den kann ich mir in deinem Fall nicht verkneifen): Es heißt "Gram*m*atik" und am Satzanfang schreibt man im Deutschen groß



Wenn du dir das Klugscheißen schon nicht verkneifen kannst, dann mach es wenigstens richtig  - und das ist auch nicht böse gemeint


----------



## Madman1209 (19. November 2010)

Lyran schrieb:


> Wenn du dir das Klugscheißen schon nicht verkneifen kannst, dann mach es wenigstens richtig  - und das ist auch nicht böse gemeint



Erwischt


----------



## Hugo78 (19. November 2010)

Skysnake schrieb:


> Du hast dir vorher die Daten schon angeschaut bevor du das schreibst?
> 
> Ich hab nochmal nachgeschaut bei #1, der hat ja knapp 7700 GPUs. Ich komm da auf 4 CPU-Cores pro GPU-Core. Bei LOEWE-CSC komm ich auf 1,6 CPU-Cores je GPU-Core.
> 
> Dein Argument von wegen mehr CPU Cores zählt damit nicht, da genau das Gegenteil sogar der Fall ist.



An deinem Ton darfst du arbeiten, genauso wie an deinem Rechenbeispiel.

Also nochmal, auf jedem Serverrack sind je zwei CPUs + eine GPU.
Auf den Supercomputern mit NV, sind 2*6 Core CPUs, auf dem Radeonsystem aber 2*12 Core CPUs.

Macht 12 CPU Cores / Rack bei den NV Systemen, und doppelt soviel bei dem System mit den Radeon HD 5870.

Schaut man sich dagegen die GPU Cores an (SM und SPU), dann reletiviert sich das Verhältniss CPU core zu GPU cores wieder, weil bei NV nur 14 SM aktiv sind, bei der Radeon dagegen 20.
Aber es bleibt dabei, auf dem Radeonsystem arbeiten immernoch mehr CPU kerne als GPU Kerne, was im Endeffekt dazu führt, dass Rpeak dichter an Rmax. dran ist im Linpack Benchmark. 

Top500 #1
Der Tianhe-1A hat 14.336 6kern CPUs, ergo gleich 86016 CPU Kerne.
Die 7168 NV GPUs haben je 14 SMs, dass macht 100352 GPU Kerne.

Damit ist das Verhältniss 0,86:1.

Top500 #3 
Nebulae hat 9280 6kern Intels und damit ergo 55680 CPU Kerne.
Die 4640 NV GPUs haben auch wieder 14SMs 64960 GPU Kerne.

Damit ist das Verhältniss 0,86:1

Top500 #22
LOEWE-CSC hat 1.536 12kern AMDs, ergo 18432 CPU Kerne.
Die 768 AMD GPUs haben je 20 SPU macht 15360 GPU Kerne.

Damit ist das Verhältniss 1,2:1.

Und ehe Fragen aufkommen woher ich meine Daten zum LOEWE-CSC habe, hier der Link.
StreetInsider.com - 285.2 TeraFLOPS Linpack at 736 MegaFLOPS/Watt and PUE of 1.1

Aus dem Artikel der FAZ wird man nicht schlau, weil er nicht schlüssig ist in seinen Angaben.


----------



## GaAm3r (19. November 2010)

Bin zwar auch ATI Fan aber Nvidia befeuert den schnellsten Computer der Welt.
Da ist Platz 20. nix dolles


----------



## olol (19. November 2010)

Hugo78 schrieb:


> An deinem Ton darfst du arbeiten, genauso wie an deinem Rechenbeispiel.
> 
> Also nochmal, auf jedem Serverrack sind je zwei CPUs + eine GPU.
> Auf den Supercomputern mit NV, sind 2*6 Core CPUs, auf dem Radeonsystem aber 2*12 Core CPUs.
> ...



du weisst aber schon dass die intel und amd kerne nicht gleich schnell sind?

deshalb ist der vergleich sinnlos


----------



## gemCraft (19. November 2010)

Echt eine tolle News. AMD hat es nun auch mal geschafft *freu* 
Und das sag ich als Intel-User.  
(Bulldozer wo bleibst du?) 

Weiter so!


----------



## TheMF6265 (19. November 2010)

Hugo78 schrieb:


> An deinem Ton darfst du arbeiten, genauso wie an deinem Rechenbeispiel.


jetzt werd hier doch nicht gleich unfreundlich, Skysnake hat doch nett gefragt?


----------



## Hugo78 (19. November 2010)

olol schrieb:


> du weisst aber schon dass die intel und amd kerne nicht gleich schnell sind?
> 
> deshalb ist der vergleich sinnlos



Nö, ausser die 12 Kern AMDs sind deutlich langsamer (über 40%) als die 6 Kern Intels. Dann würde aber keiner damit Supercomputer bauen.
Mehr noch, da Intels CPUs auch noch SMT mit an Board haben, pushen sie den theoretischen Rpeak Wert sogar noch, was den Abstand zu Rmax. noch vergrößert.


----------



## PCGH_Carsten (19. November 2010)

Da ihr euch alle gerade so schön freut:
Tianhe-1 | TOP500 Supercomputing Sites

Tianhe-1 war in der Juni-Liste dieses Jahres bereits auf Platz 7 der Supercomputer. Und zwar ebenfalls mit Ati-Radeon-Karten (4870 X2, allerdings auf 500-550 MHz heruntergetaktet), aber ebenfalls einer Effizienz im oberen 40er-Bereich.

Dabei gilt allerdings zu beachten, dass der Aufwand für eine schnelle Vernetzung und damit einer hohen Effizienz umso schwieriger ist, desto höher die Anzahl der zu verschaltenden Einheiten. Das treibt die Kosten in die Höhe, sodass es irgendwann zu einem finanziellen Problem wird.

Effizienzkönig war mit über 93% Rmax von Rpeak IIRC der Earth Simulator, bei dessen NEC Vektorprozessoren beinahe mehr Aufwand für die Kommunikation untereinander betrieben wurde als für die Prozessoren selbst.


Was ich am LOEWE nicht kapiere: Bei 285,2 TFLOPS und 500 kW Verbrauch müsste der doch eigentlich 570,4 MFLOPS/Watt haben, nicht die bei Streetinsider angegebenen 736? Tianhe-1A, der zurzeit schnellste Rechner der Welt liegt bei 635,1 MFLOPS/Watt.


----------



## Skysnake (19. November 2010)

Bei mir kommt das "System does not exist" 

Ja das mit den Verbrauchswerten find ich auch bischen spanisch, ich glaub da wurde teils noch nicht alles aktualisiert.

Was die Kommunikation angeht, da haste recht Carsten, das Verbindungsnetz ist ja mit das Teuerste an so nem Rechner. 

Hugo deine Rechnung konnt ich jetzt auf die schnelle nicht nachvollziehe, das muss ich mir mal morgen genau ansehen, weil irgendwie scheint mir das voll unlogisch


----------



## Hugo78 (20. November 2010)

Schau dir einfach in der Top500 liste an, wieviele Kerne für das Tianhe-1A angeben sind.

Es sind 186368. 
86016 CPU Kerne + 100352 GPU Kerne.



Hugo78 schrieb:


> Top500 #1
> Der Tianhe-1A hat 14.336 6kern CPUs, ergo gleich 86016 CPU Kerne.
> Die 7168 NV GPUs haben je 14 SMs, dass macht 100352 GPU Kerne.



Edit.

Wobei für das LOEWE grad mal 15120 angegeben sind.
Entweder Fehler auf der Seite oder die nehmen nur die CPU Kerne für den Benchmark mit Rmax, 
und dort auch nicht alle und rechnen die theoretische Power der Grakas in den Rpeak mit rein.

Hmmm ....


----------



## PCGH_Carsten (20. November 2010)

Skysnake schrieb:


> Bei mir kommt das "System does not exist"


Gestern ging's noch, komisch.
Hier einfach den "SPC" auf Platz sieben suchen: June 2010 | TOP500 Supercomputing Sites


----------



## Skysnake (20. November 2010)

Hugo78 schrieb:


> Schau dir einfach in der Top500 liste an, wieviele Kerne die für das Tianhe-1A angeben sind.
> 
> Es sind 186368.
> 86016 CPU Kerne + 100352 GPU Kerne.
> ...


Ja klar stehen da "nur" 15k Kerne, weil das Ding für den Bench meinen Informationen nach noch nicht voll ausgebaut war.

@Carsten: Ok krass, das ist mir ganz durch die Lappen gegangen. Wusst ich jetzt wirklich nicht, das die mit 4870ern! schon in den Top 10 waren oO ziemlich krass. Ich frag mich nur, warum die Maschiene überhaupt nicht mehr gelistet wird. Eventuell umbau?


----------



## fac3l3ss (20. November 2010)

Es gibt kein ATi!
Ihr meint AMD! ;D

MfG
fac3l3ss


----------



## Hugo78 (20. November 2010)

Skysnake schrieb:


> @Carsten: Ok krass, das ist mir ganz durch die Lappen gegangen. Wusst ich jetzt wirklich nicht, das die mit 4870ern! schon in den Top 10 waren oO ziemlich krass. Ich frag mich nur, warum die Maschiene überhaupt nicht mehr gelistet wird. Eventuell umbau?



Tianhe-1 mit Xeon E5540/E5450 und HD4870 x2
vs. 
Tianhe-1A mit Xeon E5670 und Tesla M2050

Sowas nennt man ein Upgrade...


----------



## Skysnake (20. November 2010)

Ja, haben se halt die komplette Hardware rausgeschmissen 

Wobei die Tesla Karten wohl nicht ohne sind. Da raucht wohl hin und wieder mal gepflegt eine ab. Hat mir zumindest jemand aus dem Nähkästchen erzählt, der mit jemanden in Kontakt steht, der nen großen GPU Cluster mitbetreibt. Kühlung ist da wohl echt nicht trivial.


----------



## Hugo78 (20. November 2010)

Oh bitte, Hörensagen wirkt immer so albern... 

Die HD 4870x2 hatte eine TDP von 286W und einen realen Verbrauch von 373W*.
Wenn die Chinesen diese Monster kühlen konnten, dann sicherlich jetzt auch ne kleine Tesla M2050 mit 225W TDP.
Grade mit Blick auf den fetten Kühlkörper, kann ich mir kaum vorstellen dass hier viel Ausfall zu erwarten ist.




			Dieser Inhalt steht nur eingeloggten Mitgliedern zur Verfügung.
        



*= Reale Leistungsaufnahme aktueller Grafikkarten - Anhang: Radeon HD 4870 X2 (Seite 28) - Tests bei HardTecs4U


----------



## Skysnake (20. November 2010)

Hugo meinste nicht ich kann dir das eventuell nicht sagen von wem das stammt?


----------



## Hugo78 (20. November 2010)

Ohne Link zur Quelle ist alles nur Hörensagen.


----------



## Skysnake (21. November 2010)

Hugo, wenn du willst, schreib mir ne PM, dann kann ichs dir eventuell etwas genauer erläutern. Sowas muss ich hier nicht breit treten. Sowas ist immer recht grenzwertig. 

Ich sags mal einfach so, heute musste teils für jeden Dreck ne NDA unterschreiben. Da isses dann auch immer schwer zu sagen, wo sich jemand verplappert und nen bischen was zu viel erzählt, und wos kein Thema ist.


----------



## sensitron (21. November 2010)

Zum Thema TDP der 4870x2, es wurde geschrieben dass sie nur auf 500-500mhz betrieben wurden, also denke ich nicht, dass die Karten 373W gezogen haben.

mfg Sensitron


----------

