# Intel: Erster Teraflop-Prozessor vorgestellt



## Someguy123 (19. November 2011)

Intel hat ihren ersten Chip "Knights Corner" vorgestellt, der als EINZELNER Chip mehr als 1 Billion Gleitkommaoperationen (1TFLOP) pro Sekunde durchführen kann. (Zum Vergleich: Der i7-2600K bietet etwa 100 GFLOPS).
Intel verwendet dazu ihre neue 22-nm-Fertigungstechnik mit dreidimensionalen Tri-Gates, außerdem wurden mehr als 50 Cores auf diesen Chip gepackt.

Die neue Xeon-E5-Reihe, die den fehlenden Part zwischen E3 und E7 übernimmt, wird schätzungsweise zwischen Q1'2012 und Q2'2012 veröffentlicht und soll laut Intel bis zu 70% schneller als die vorherige Xeon-Generation sein.

_Quelle: Intel Reveals Details of Next-Generation High-Performance Computing Platforms | Hardware Canucks_


----------



## Fischer995 (19. November 2011)

Echt krass.


----------



## Alterac (19. November 2011)

Echt nicht schlecht


----------



## Da_Obst (19. November 2011)

Jetzt brauchen wir nurmehr Software welche mit 50 Kernen skalieren kann... 
Ist ja echt schade drum sowas in nem Server vergammeln zu lassen ^^


----------



## Incredible Alk (19. November 2011)

Da_Obst schrieb:


> Jetzt brauchen wir nurmehr Software welche mit 50 Kernen skalieren kann...


 
Die gibts zuhauf (Kryptografie, Renderfarmen, CFD Anwendungen,...) - nur nicht im privaten Bereich


----------



## ASD_588 (19. November 2011)

> nur nicht im privaten Bereich


 vor allem der preis....



> wurden mehr als 50 Cores auf diesen Chip gepackt.


womit wird der den gekühlt super megahelams mit 10cm2 großen kühlerboden?
der chip muss ja riesig sein.


----------



## FreezerX (19. November 2011)

Someguy123 schrieb:


> (...) der als EINZELNER Chip mehr als 1 Billion Gleitkommaoperationen (1TFLOP)* pro Takt* durchführen kann.


 
*Das* wär ne Leistung! Pro Sekunde heißt es 

Schön, dass Sandy Bridge schon heute wieder lächerlich aussieht.  Auch wenn nach dem GHz-Rennen bald das Kerne-Rennen vorrüber gehen könnte, so wird es noch lange Zeit große Leistungssteigerung geben.


----------



## M4xw0lf (19. November 2011)

Hmm... eine Radeon 6900 bzw. der Cayman-Chip kann 2,7 TFLOPS  Bei Grafikkarten ist dieser Wert ein alter Hut.


----------



## Dynamitarde (19. November 2011)

Wow.
Der Preis wird bestimmt auch gigantisch sein, wie die Leistung.


----------



## Iceananas (19. November 2011)

M4xw0lf schrieb:


> Hmm... eine Radeon 6900 bzw. der Cayman-Chip kann 2,7 TFLOPS  Bei Grafikkarten ist dieser Wert ein alter Hut.


 
Dafür kann eine Graka auch kaum was anderes rechnen  für eine CPU ist der Wert recht beachtlich.


----------



## Incredible Alk (19. November 2011)

ASD_588 schrieb:


> womit wird der den gekühlt super megahelams mit 10cm2 großen kühlerboden?
> der chip muss ja riesig sein.



Wieso setzt du voraus, dass jeder der 50 Kerne so groß sein muss wie ein heutiger CPU kern im Desktopsegment?
Inner Grafikkarte sind auch 1600 Kerne oder sowas auf kleinem Raum


----------



## s|n|s (19. November 2011)

M4xw0lf schrieb:


> Hmm... eine Radeon 6900 bzw. der Cayman-Chip kann 2,7 TFLOPS  Bei Grafikkarten ist dieser Wert ein alter Hut.


 
Die Radeon macht 2,7 TFLOPS, das sind 2,7 TFLOP pro Sekunde.

Der Intel macht nach der News 1TFLOP pro Takt. Ist der Intel mit 1GHz getaktet, sind das 1000 000 TFLOP pro Sekunde.

Das ist ein kleiner aber feiner Unterschied.

Leider besagt die Quelle nichts von TFLOP pro Takt, sondern auch TFLOPS, also TFLOP pro Sekunde. Bitte berichtigen!



> The first presentation of the first silicon of “Knights Corner”  co-processor showed that Intel architecture is capable of delivering  more than _1 TFLOPs_ of double precision floating point performance (as  measured by the Double-precision, General Matrix-Matrix multiplication  benchmark — DGEMM*). This was the first demonstration of a single  processing chip capable of achieving such a performance level.



Der Sprung wäre auch ein bischen viel gewesen, auch für 50 cores.


----------



## turbosnake (19. November 2011)

Abgestander Alter Kaffee!
Gab es schon auf der Main:Intel Knights Corner: MIC knackt 1 TFlops und nimmt Nvidia ins Visier - cpu, intel.


----------



## M4xw0lf (19. November 2011)

Iceananas schrieb:


> Dafür kann eine Graka auch kaum was anderes rechnen  für eine CPU ist der Wert recht beachtlich.


 
Knights Corner befindet sich ja an der Grenze zwischen CPU und GPU, mit seinen 50 vereinfachten x86-Kernen. Wenn man 50 Sandy Bridge-Kerne nehmen würde, hätten die rein rechnerisch immernoch eine höhere Rechenleistung (i7 2600K mit 4 Kernen: 100 GFLOPS --> 50 Kerne: 1,25 TFLOPS).


----------



## Incredible Alk (19. November 2011)

s|n|s schrieb:


> Die Radeon macht 2,7 TFLOPS, das sind 2,7 TFLOP pro Sekunde.
> 
> Der Intel macht nach der News 1TFLOP pro Takt. Ist der Intel mit 1GHz getaktet, sind das 1000 000 TFLOP pro Sekunde.


 
Was hast du denn geraucht? 
1000000TFlop wären ein Exaflop (=1000 PFlops) was weit über dem schnellsten Supercomputer liegen würde (der ist bei rund 10 PFlops)


----------



## s|n|s (19. November 2011)

Incredible Alk schrieb:


> Was hast du denn geraucht?
> 1000000TFlop wären ein Exaflop (=1000 PFlops) was weit über dem schnellsten Supercomputer liegen würde (der ist bei rund 10 PFlops)


 
kannst du lesen? steht so im Startpost:



Someguy123 schrieb:


> Intel hat ihren ersten Chip "Knights Corner"  vorgestellt, der als EINZELNER Chip mehr als 1 Billion  Gleitkommaoperationen (1TFLOP) pro Takt durchführen kann.


----------



## M4xw0lf (19. November 2011)

Incredible Alk schrieb:


> Was hast du denn geraucht?
> 1000000TFlop wären ein Exaflop (=1000 PFlops) was weit über dem schnellsten Supercomputer liegen würde (der ist bei rund 10 PFlops)


 
Wurde schon vom Poster korrigiert


----------



## Incredible Alk (19. November 2011)

Dann ists im Startpost eben schon gequirlter Mist 
"Rechenleistung pro Takt" gibts in dem Sinne gar nicht.

Und ist schon korrigiert worden.

EDIT: verdammt, zu langsam^^


----------



## cPT_cAPSLOCK (19. November 2011)

FreezerX schrieb:


> *Das* wär ne Leistung! Pro Sekunde heißt es
> 
> Schön, dass Sandy Bridge schon heute wieder lächerlich aussieht.  Auch wenn nach dem GHz-Rennen bald das Kerne-Rennen vorrüber gehen könnte, so wird es noch lange Zeit große Leistungssteigerung geben.


 
Der Knights Corner ist eher sowas wie eine Grafikkarte - und gegen jede aktuelle GPU dagegen sieht jede aktuelle CPU alt aus, wenn nicht allzu viel ausgelagert und gecached wird... ;D



M4xw0lf schrieb:


> Hmm... eine Radeon 6900 bzw. der Cayman-Chip kann 2,7 TFLOPS  Bei Grafikkarten ist dieser Wert ein alter Hut.


 
Der Unterschied ist nur, dass die 1TFLOP/s für den double precision-bereich (also doppelte Genauigkeit mit 64 bittiger Zahlenlänge) zählen. Und da hat selbst eine GTX 580 mit ca. 600 GFLOP/s keine Chance.

Der Knight's Corner ist ja aus dem Larrabee-Projekt hervorgegangen. Das Ziel war es ja, eine GPU zu bauen. Nur war die "GPU" am Ende bei Grafiken wohl nicht so schnell, wie die Konkurrenz. Daher hat man sowas wie eine Monster-CPU geschaffen, die quasi die Programmierbarkeit einer CPU mit der parallelen Rechenleistung einer GPU verbindet. Oftmals wurde die Programmierbarkeit ja schon mit den Raytracingdemos belegt, die zumeist auf Larrabees liefen. Intel verbindet hier wohl zwei Welten...


----------



## M4xw0lf (19. November 2011)

cPT_cAPSLOCK schrieb:


> Der Unterschied ist nur, dass die 1TFLOP/s für den double precision-bereich (also doppelte Genauigkeit mit 64 bittiger Zahlenlänge) zählen. Und da hat selbst eine GTX 580 mit ca. 600 GFLOP/s keine Chance.


 
Der Cayman hat auch eine höhere DP-Rate als der Fermi mit 675 GFLOP/S. Niedriger zwar als Knights Corner, aber nicht weltbewegend. Die Nachfolger (Southern Islands/Kepler) werden sicher noch eine ganze Ecke schneller.


----------



## cPT_cAPSLOCK (19. November 2011)

M4xw0lf schrieb:


> Der Cayman hat auch eine höhere DP-Rate als der Fermi mit 675 GFLOP/S. Niedriger zwar als Knights Corner, aber nicht weltbewegend. Die Nachfolger (Southern Islands/Kepler) werden sicher noch eine ganze Ecke schneller.


Das ist wiederum wahr. Die Anzahl der GleitkommaOPs pro Sekunde ist eh ein realitätsferner Wert. Meine GTX 560 Ti rendert (nicht Spiele!) auch schneller als eine HD 6970, zumindest in manchen Applikationen. Und meist ist die GTX 580 an der Spitze.
Wie er sich bei Anwendungen schlägt, das wird sich zeigen.
EDIT:
interessant finde ich, dass Intel den Knight's Corner nun in den CPU-Sockel schickt. Wahrscheinlich will Intel nun einen Chip "erfinden" der die Vorteile einer GPU mit denen einer CPU verbindet - der also sowohl ein paralleles Rechenwerk wie eine GPU (50 Kerne sprechen für sich...) als auch ein sequenzielles Rechenwerk wie eine CPU (samt massig Cache + RAM) ist.
Man, der müsste in manchen Anwendungen Abgehen wie die Sau... ich bin gespannt!
Hoffentlich frisst er nicht zu viel Strom. Obwohl, das dürfte wohl bei dem wahrscheinlich horroden Anschaffungspreis egal sein.


----------



## Stricherstrich (19. November 2011)

M4xw0lf schrieb:


> Hmm... eine Radeon 6900 bzw. der Cayman-Chip kann 2,7 TFLOPS  Bei Grafikkarten ist dieser Wert ein alter Hut.


 
Heutige GPU's sind eh viel Leistunngstärker als heutige CPU's.
 Wenn die Rechenleistung eines GPU's in einem CPU wär, dann(!) wär die Welt schön!


----------



## Someguy123 (19. November 2011)

Der Startpost wurde korrigiert, hier ist nochmal der Link zur PCGH-News, die von mir leider nicht beachtet wurde 

Intel Knights Corner: MIC knackt 1 TFlops und nimmt Nvidia ins Visier - cpu, intel


----------



## FreezerX (19. November 2011)

cPT_cAPSLOCK schrieb:


> Der Knights Corner ist eher sowas wie eine Grafikkarte - und gegen jede aktuelle GPU dagegen sieht jede aktuelle CPU alt aus, wenn nicht allzu viel ausgelagert und gecached wird... ;D


 
Interessant und du hast recht damit!


----------



## zøtac (19. November 2011)

http://extreme.pcgameshardware.de/t...ckt-1-tflops-und-nimmt-nvidia-ins-visier.html


----------



## PixelSign (19. November 2011)

war das nicht schon auf der main?

*edit:* http://www.pcgameshardware.de/aid,8...und-nimmt-Nvidia-ins-Visier/Technologie/News/

*edit²:* zotac hats ja schon gepostet


----------



## turbosnake (19. November 2011)

Das habe ich doch schon auf Seite 2 gepostet!
Klingt intressant, aber nicht fürs zocken!


----------



## Skysnake (19. November 2011)

M4xw0lf schrieb:


> Hmm... eine Radeon 6900 bzw. der Cayman-Chip kann 2,7 TFLOPS  Bei Grafikkarten ist dieser Wert ein alter Hut.


 
Gleich 2 Fehler auf einmal. Das sind Sp-FLops. MIC schafft das aber in DP. Da hat die 6900er nur noch 1/4, also unter 700 GFLops. 

So und nun noch der zweite Fehler. Du beziehst dich auf die theoretische Rechenleistung. Hier ist aber die bei einer realen Anwendung, nämlich DGEMM. Also einer DP-Matrix-Matrix-Multiplikation. Das schaffen die aktuellen GPUs nicht mal 400 GFLops. 

Das wird eine ganz harte nuss für AMD und nvidia.


----------



## cPT_cAPSLOCK (20. November 2011)

FreezerX schrieb:


> Interessant und du hast recht damit!


 
Danke, so war's geplant! 
Hab das auch schon beim "Selbstversuch" gemacht. Wenig Caching → GPU seeehr schnell; (sehr) viel Caching → GPU seeeehr langsam. Man muss sich nur mal die Kerne und den Speicherausbau anschauen. Den GPUs fehlt sogar der L3-Cache. Eine GTX 580 mit über 400 Kernen hat nicht mal 1MiB Cache und einen "RAM" mit nur 1,5 GiB Kapazität. Ein Core i7 2600k hingegen hat ganze 8MiB L3-Cache, also insg. circa 10MiB Cache, dazu noch maximal satte 16GiB Speicher... Die GPUs sind schlichtweg nicht zum Hardcorerechnen gemacht worden. Interessanter wäre es daher, den Knight's Corner mit einer Quadro FX zu vergleichen (falls so die aktuellen Workstationkarten heißen...). Da passt dann auch der Preis wieder in etwa. Dass die normalen Radeon/Geforce-Karten bei den DP-Berechnungen kein Land mehr sehen, ist ja mehr wie logisch. Welcher User nutzt seine HD6970/ GTX 570 schon zum Rendern? Die sind zum Zocken gemacht worden, und zum Zocken braucht man keine DP-Berechnungen.



Skysnake schrieb:


> Gleich 2 Fehler auf einmal. Das sind Sp-FLops. MIC schafft das aber in DP. Da hat die 6900er nur noch 1/4, also unter 700 GFLops.
> 
> So und nun noch der zweite Fehler. Du beziehst dich auf die theoretische Rechenleistung. Hier ist aber die bei einer realen Anwendung, nämlich DGEMM. Also einer DP-Matrix-Matrix-Multiplikation. Das schaffen die aktuellen GPUs nicht mal 400 GFLops.
> 
> Das wird eine ganz harte nuss für AMD und nvidia.


 
Kommt drauf an. In Computing-Hinsicht wird der Knight's Corner die aktuellen GPUs wohl wirklich in Grund und Boden rechnen, aber ich denke, dass er dafür bei SP-Berechnungen ein absolut läppischer Gegner für die Southern Islands oder die Keplers wird. Man muss halt wissen, was man möchte: eine GPGPU oder eine hochgezüchtete CPU.


----------



## Anchorage (20. November 2011)

Hier sprechen wohl die Wahren Nerds und Geeks den ich verstehe garnicht worüber ihr redet Matrix-Matrix-Multiplikation Tflops Exaflops. Was zum Teufel ist den damit gemeint ?. 

Zum Thema. Ich finde es sehr Interesannt was Intel da macht ich weis zwar nicht soviel über das thema würde es aber sehr gerne Lehrenen.


Edit: Bin Legahsteniker.


----------



## cubbi223 (20. November 2011)

ASD_588 schrieb:


> vor allem der preis....
> 
> womit wird der den gekühlt super megahelams mit 10cm2 großen kühlerboden?
> der chip muss ja riesig sein.


 
Soweit ich Weiß Bestehen die Einzelnen Cores leicht über arbeiteten Pentium Cores (!!!) 

Larrabee (GPU)

Gut da geht es zwar um larrabee aber das sollte irrelevant sein

Was in der einleitenden Newa auch fehlt ist die Tatsache das: "Teraflop Double-Precision-Fließkomma-Rechenleistung" 

Das lässt dann den vorsprung der Graka Schnelzn b.z weg brechen


Ach ja ind Bild




			Dieser Inhalt steht nur eingeloggten Mitgliedern zur Verfügung.


----------



## Skysnake (20. November 2011)

cPT_cAPSLOCK schrieb:


> Danke, so war's geplant!
> Hab das auch schon beim "Selbstversuch" gemacht. Wenig Caching → GPU seeehr schnell; (sehr) viel Caching → GPU seeeehr langsam. Man muss sich nur mal die Kerne und den Speicherausbau anschauen. Den GPUs fehlt sogar der L3-Cache. Eine GTX 580 mit über 400 Kernen hat nicht mal 1MiB Cache und einen "RAM" mit nur 1,5 GiB Kapazität. Ein Core i7 2600k hingegen hat ganze 8MiB L3-Cache, also insg. circa 10MiB Cache, dazu noch maximal satte 16GiB Speicher...


richtig, die gpus haben wenig Cache, aber deswegen sind sie Nicht zwingend langsam.

dein "Selbstversuch" interessiert mich btw. Was haste denn gemacht?

was verstehst du denn unter wenig/viel caching? 

damit je GPU Leistung bringt, muss eher die worksize recht klein sein, also die datenlokalität hoch. Zudem müssen die Daten oft genug reused werden.



> Die GPUs sind schlichtweg nicht zum Hardcorerechnen gemacht worden.


was halt einfach falsch ist



> Interessanter wäre es daher, den Knight's Corner mit einer Quadro FX zu vergleichen (falls so die aktuellen Workstationkarten heißen...). Da passt dann auch der Preis wieder in etwa. Dass die normalen Radeon/Geforce-Karten bei den DP-Berechnungen kein Land mehr sehen, ist ja mehr wie logisch. Welcher User nutzt seine HD6970/ GTX 570 schon zum Rendern? Die sind zum Zocken gemacht worden, und zum Zocken braucht man keine DP-Berechnungen.


du weist schon das die nvidia-Karten beschnitten sind was CP-Leistung anbelangt, aber die AMD-Karten nicht!
Daher steckt jede Radeon auch die GeForce in die Tasche. 500vs190 DP-GFlops Ca.



> Kommt drauf an. In Computing-Hinsicht wird der Knight's Corner die aktuellen GPUs wohl wirklich in Grund und Boden rechnen, aber ich denke, dass er dafür bei SP-Berechnungen ein absolut läppischer Gegner für die Southern Islands oder die Keplers wird. Man muss halt wissen, was man möchte: eine GPGPU oder eine hochgezüchtete CPU.


dir ist schon klar, das MIC genau wie die nVidias je 2:1 SPP-Ratio hat?Wenn MIC die nVidia in DP schlägt, dann auch in SP. Die GCN Radeons werden wohl sehr sehr wahrscheinlich auch ne 2:1 Ratio bekommen. Nur bei den  VLIW-Radeons besteht die Möglichkeit, dass die in DP unterliegen aber in SP gewinnen.

man man man, warum immer diese Halbwahrheiten und schlimmer?

warum informiert msn sich nicht, bevor man so Sachen vom Stapel lässt?


----------



## cPT_cAPSLOCK (20. November 2011)

Skysnake schrieb:


> richtig, die gpus haben wenig Cache, aber deswegen sind sie Nicht zwingend langsam.
> 
> dein "Selbstversuch" interessiert mich btw. Was haste denn gemacht?
> 
> was verstehst du denn unter wenig/viel caching?


Ich hab meine GPU und meine CPU in einer recht komplexen Szene raytracen lassen, einmal mit geringer Strahlentiefe (ca. 12) und ein mal mit sehr hoher (1024+).
Und je höher die Strahlentiefe, desto mehr muss eben gecached werden, denn ein Strahl wird ja hin- und hergeworfen und die Zwischeninformationen, die Ausrichtung und "Farbgebung" des Strahls sowie dessen "Energie" (für die globale Beleuchtung) müssen ja mitgetragen werden. Daher ist kaum reusing vorhanden und die 384 Cores (bei mir), die ständig Informationen puffern müssen, müssen eben massig auslagern. Bei hoher Strahlentiefe ist der Renderer auch häufig abgeflogen, ich gehe davon aus, das Cache und VRAM übergelaufen sind, kann das aber nicht sicher sagen.
Naja, ich hab dann schließlich herausgefunden, dass die GPU bei steigender "Strahlentiefe" immer langsamer wird und schließlich von der CPU überholt wird, die sowas schlicht besser kann.



Skysnake schrieb:


> damit je GPU Leistung bringt, muss eher die worksize recht klein sein, also die datenlokalität hoch. Zudem müssen die Daten oft genug reused werden.


→Siehe oben. Das hab ich gemeint.



Skysnake schrieb:


> was halt einfach falsch ist


Das zeigt, dass du nicht verstanden hast, was ich gemeint habe  (sorry an dieser Stelle für die holprige Formulierung)
Klar, ein jeder Chip ist fürs Rechnen gemacht worden, okay, aber mit "Hardcorerechnen" ist mir einfach kein besserer Begriff eingefallen. Gemeint ist sowas wie hochkomplexe Simulationen und weiß der Geier was. Ich hoffe du verstehst, was ich meine.



Skysnake schrieb:


> du weist schon das die nvidia-Karten beschnitten sind was CP-Leistung anbelangt, aber die AMD-Karten nicht!
> Daher steckt jede Radeon auch die GeForce in die Tasche. 500vs190 DP-GFlops Ca.


Nein, wusste ich nicht. Hatte gestern auch keine Lust mehr, das nachzuschlagen, daher verzeih mir meine Unwissenheit 
Meine Vermutung war eher:
Nvidia → Weltmarktführer bei Workstationkarten → muss wohl schneller sein als AMD.



Skysnake schrieb:


> dir ist schon klar, das MIC genau wie die nVidias je 2:1 SPP-Ratio hat?Wenn MIC die nVidia in DP schlägt, dann auch in SP. Die GCN Radeons werden wohl sehr sehr wahrscheinlich auch ne 2:1 Ratio bekommen. Nur bei den  VLIW-Radeons besteht die Möglichkeit, dass die in DP unterliegen aber in SP gewinnen.
> 
> man man man, warum immer diese Halbwahrheiten und schlimmer?
> 
> warum informiert msn sich nicht, bevor man so Sachen vom Stapel lässt?


 → Siehe oben. Mein Post stützt sich teilweise auf Vermutungen (Signalwörter: "Ich denke, dass" )
Daher erneut sorry. Aber danke, dass du dir die Mühe gemacht hast, meinen Post auseinanderzunehmen 
gRU?; cAPS


----------



## Skysnake (20. November 2011)

dein Problem mit dem raytracing ist einzig und allein die geschossene datenlokalität. Überleg dir einen Algorithmus bei dem diese erhöht wird, dann steigt deine GPU-Performance massiv  an.


----------



## cPT_cAPSLOCK (20. November 2011)

Skysnake schrieb:


> dein Problem mit dem raytracing ist einzig und allein die geschossene datenlokalität. Überleg dir einen Algorithmus bei dem diese erhöht wird, dann steigt deine GPU-Performance massiv  an.


 Hmm... alles klar. Ich nutze meine GPU eh überwiegend zum RTen, daher hab ich gedacht, dass so ein Vergleich gar nicht schlecht wäre.
Danke nochmal,
gRU?; cAPS


----------



## Skysnake (20. November 2011)

du musst aber immer die Eigenheiten einer Architektur berücksichtigen. Nur weil etwas bei A gut funktioniert, muss es nicht bei B gut sein.

sehs einfach mal so, die GPU ist ein LKW und die CPU ein Sportwagen. Für das eine ist das eine gut, für das andere das andere.


----------

