Parallele Gleichungslser fr die linearen TRACEModule Dr Achim

  • Slides: 18
Download presentation
Parallele Gleichungslöser für die linearen TRACE-Module Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte

Parallele Gleichungslöser für die linearen TRACE-Module Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware DLR Simulations- und Softwaretechnik Dr. Christian Frey Abteilung Numerische Methoden DLR Institut für Antriebstechnik Software-Innovationen für die Luftfahrtforschung Abschiedskolloquium für Prof. Dr. Ulrich Trottenberg DLR Braunschweig, 20. 04. 2010 Folie 1 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

Übersicht Motivation Die „Distributed Schur Complement”-Methode (DSC) Komplexe und reelle Problemformulierung Experimente mit TRACE-Matrizen

Übersicht Motivation Die „Distributed Schur Complement”-Methode (DSC) Komplexe und reelle Problemformulierung Experimente mit TRACE-Matrizen Fazit Folie 2 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

Das parallele Simulationssystem TRACE: Turbo-machinery Research Aerodynamic Computational Environment Entwickelt vom Institut für Antriebstechnik

Das parallele Simulationssystem TRACE: Turbo-machinery Research Aerodynamic Computational Environment Entwickelt vom Institut für Antriebstechnik des DLR in Zusammenarbeit mit MTU Aero Engines Berechnet die Innenströmung in Turbomaschinen Nutzt die Methode der Finiten Volumen mit blockstrukturierten Gittern Die linearen TRACE-Module erfordern die parallele, iterative Lösung großer, dünnbesetzter, unsymmetrischer Gleichungssysteme. Folie 3 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

Parallele Gleichungslöser in TRACE: Hintergrund Module linear. TRACE bzw. adjoint. TRACE A unsymmetrisch, komplex

Parallele Gleichungslöser in TRACE: Hintergrund Module linear. TRACE bzw. adjoint. TRACE A unsymmetrisch, komplex bzw. reell, dünnbesetzt Paralleler iterativer Löser: (F)GMRes mit Präkonditionierung Dominiert das Zeitverhalten deutlich Matrix-Vektor und Vektor-Operationen Präkonditionierung gewöhnlich am aufwendigsten Kritisch für die Skalierbarkeit Status: Block-lokale Präkonditionierung ILU, SSOR Skalierbarkeit begrenzt Ziel: Globaler, skalierbarer Präkonditionierer Tests mit DSC-Methoden Folie 4 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

DSC-Methode (1) Verteilte Matrix, 2 Prozessoren Folie 5 Software-Innovationen für die Luftfahrtforschung > Achim

DSC-Methode (1) Verteilte Matrix, 2 Prozessoren Folie 5 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

DSC-Methode (2) DSC-Algorithmus Schema auf jedem Prozessor Folie 6 Software-Innovationen für die Luftfahrtforschung >

DSC-Methode (2) DSC-Algorithmus Schema auf jedem Prozessor Folie 6 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

DSC-Methode (3) Präkonditionierung im DSC-Algorithmus Folie 7 Software-Innovationen für die Luftfahrtforschung > Achim Basermann

DSC-Methode (3) Präkonditionierung im DSC-Algorithmus Folie 7 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

DSC-Methode (4): Einfluss der Partitionierung Graph-Partitionierung: Par. METIS (University of Minnesota) Ziel: Minimiere die

DSC-Methode (4): Einfluss der Partitionierung Graph-Partitionierung: Par. METIS (University of Minnesota) Ziel: Minimiere die Anzahl der geschnittenen Kanten Minimiere die Anzahl der Kopplungsvariablen Ungerichteter Graph Symmetrisieren der Matrix-Struktur Folie 8 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

Matrix-Experimente: Relle oder komplexe Arithmetik? Komplexe TRACE-Marix (n=28120; nz=1246200; Kond. : 6, 7· 106)

Matrix-Experimente: Relle oder komplexe Arithmetik? Komplexe TRACE-Marix (n=28120; nz=1246200; Kond. : 6, 7· 106) Reelle TRACE-Matrix (n=56240; nz=2572040; Kond. : 8, 4· 106) Folie 9 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

DSC-Präkonditionierer: Matrix-Permutation (komplex) Hintergrund: Fill-in-Reduzierung für ILUT-Präkonditionierung Original Minimum Degree (MD) Reverse Cuthill-Mc. Kee

DSC-Präkonditionierer: Matrix-Permutation (komplex) Hintergrund: Fill-in-Reduzierung für ILUT-Präkonditionierung Original Minimum Degree (MD) Reverse Cuthill-Mc. Kee (RCM) Folie 10 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

ILU-Präkonditionierer: Fill-in in L und U (komplex) MATLAB: ILUT-Präkonditionierung; Threshold = 10 -3 Folie

ILU-Präkonditionierer: Fill-in in L und U (komplex) MATLAB: ILUT-Präkonditionierung; Threshold = 10 -3 Folie 11 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

ILU-Präkonditionierer: Matrix-Permutation (reell) Hintergrund: Fill-in-Reduzierung für ILUT-Präkonditionierung Original Minimum Degree (MD) Reverse Cuthill-Mc. Kee

ILU-Präkonditionierer: Matrix-Permutation (reell) Hintergrund: Fill-in-Reduzierung für ILUT-Präkonditionierung Original Minimum Degree (MD) Reverse Cuthill-Mc. Kee (RCM) Folie 12 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

ILU-Präkonditionierer: Fill-in in L und U (reell) MATLAB: ILUT-Präkonditionierung; Threshold = 10 -3 Folie

ILU-Präkonditionierer: Fill-in in L und U (reell) MATLAB: ILUT-Präkonditionierung; Threshold = 10 -3 Folie 13 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

Performance: Komplexe oder reelle Arithmetik? MATLAB: ILUT-Präkonditionierung; 10 Threshold = 10 -3; |Rel. Residuum|

Performance: Komplexe oder reelle Arithmetik? MATLAB: ILUT-Präkonditionierung; 10 Threshold = 10 -3; |Rel. Residuum| < 10 - Folie 14 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

Performance auf dem Aero. Grid-Cluster des DLR (Doppelprozessor-Knoten; Quad-Core Intel Harpertown; 2, 83 GHz)

Performance auf dem Aero. Grid-Cluster des DLR (Doppelprozessor-Knoten; Quad-Core Intel Harpertown; 2, 83 GHz) DSC-Methode, reelle versus komplexe Problemformulierung Folie 15 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

DSC-Methode: Performance (reell) (Doppelprozessor-Knoten; AMD Opteron 250; 2, 4 GHz) DSC-Methode versus Block-Jacobi-Präkonditionierung (mit

DSC-Methode: Performance (reell) (Doppelprozessor-Knoten; AMD Opteron 250; 2, 4 GHz) DSC-Methode versus Block-Jacobi-Präkonditionierung (mit RCM) Bei hoher Prozessorzahl lohnt sich der bessere Präkonditionierer. Folie 16 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

Fazit Permutation (MD, RCM) entscheidend für ILUT-Performance; leichte Vorteile für RCM (höhere Lokalität) Komplexe

Fazit Permutation (MD, RCM) entscheidend für ILUT-Performance; leichte Vorteile für RCM (höhere Lokalität) Komplexe Rechnung deutlich schneller als reelle (höhere Lokalität, besseres Verhältnis von Rechnung zu Speicherzugriffen) DSC-Methode lässt höhere Skalierbarkeit als Block-lokale Verfahren erwarten. Aussicht Entwicklung eines „intelligenten“ Lösers für TRACE mit problem- und konvergenzabhängiger Parametersteuerung und Präkonditionierung Einsatz der DSC-Methode als globaler Glätter in Mehrgitterverfahren Folie 17 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010

Fragen? Folie 18 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser >

Fragen? Folie 18 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20. 04. 2010