CCGrid 2001 report Kenji Kaneda Outline SabotageTolerance Mechanism
CCGrid 2001 report Kenji Kaneda
Outline • シンポジウムの概要 • いくつかの論文の紹介 – Sabotage-Tolerance Mechanism for Volunteer Computing System – Container: A Sound Basis For a True Single System Image • 田浦さんミーティングの近況報告
Program • Main Symposium – – – – Component and Agent Approaches Distributed Shared Memory Grid Computing Input/Output and Databases Message Passing and Communication Performance Evaluation Scheduling and Load Balancing Tools for Management, Monitoring and Debugging
Program (cont. ) • CCGrid 2001 Workshops – Agent Based Cluster and Grid Computing – Cluster Computing Education – Distributed Shared Memory on Clusters – Global Computing on Personal Devices – Internet Qo. S for the Global Computing – Object and Component Technologies for Cluster Computing – Scheduling and Load Balancing on Clusters
Outline • シンポジウムの概要 • いくつかの論文の紹介 – Sabotage-Tolerance Mechanism for Volunteer Computing System – Container: A Sound Basis For a True Single System Image • 田浦さんミーティングの近況報告
Sabotage-Tolerance Mechanism for Volunteer Computing System Luis F. G. Sarmenta Ateneo de Manila University • Background, Problem, Object • Models and Assumption • Basic Mechanism, Credibility-based Fault. Tolerance • Simulation Results • Conclusion
Background • Volunteer Computing Systems – 数多くの並列問題をidleな計算機を用いて計 算する (例: SETI@home) – 特徴 • ease-of-use • accessibility to the general public
Object • 提案 (credibility-based fault-tolerance) – 既存のvotingなどの方法だけでは解決できな い、悪意のあるVolunteerが多数存在する際 にも適用可能なアルゴリズム • spot-checking • backtracking • blacklisting
Models and Assumptions (1/4) • 計算モデル – workpool-based master-worker model computation worker result batch master work object result work objectは相互独立 worker
Models and Assumptions (2/4) • Error Rare – ε: error rate • 結果中で間違った結果やエラーの占める割合 – εacc : acceptable error rate 例 –computation = 10 batch (batchは相互依存とする) – 1 batch = 100 work objects –P(fail) : 全てのcomputationが失敗する可能性 P(fail)を 1%以下にしたいとする (10*100)ε< P(fail) ならばよい よって εacc= P(fail)/ (10*100) = 0. 001%
Models and Assumptions (3/4) • Saboteurs – P: worker population – f: fault fraction • P中にsaboteurの占める割合 • 全てのworkerの処理速度は等しいとする – work objectは均一に分散する – 他の要因がなければε= f
Models and Assumptions (4/4) • Sabotage Rate and Collusion – s: sabotage rate • saboteurが誤った結果を返す割合 • 全てのsaboteurで等しい値とする • Redundancy and Slowdown – redundancy • 計算したwork object数の増加率 – のべ数 – Error Rateを下げるため同じworker objectを繰り返し計算する – slow down • 実行時間の増加率
Overview of Basic Mechanism • εを下げるための基本的なメカニズム – Majority Voting • traditional scheme • fの値が大きいときはうまく働かない – Spot-Checking • backtrack, blacklisting • fの値が大きい時などに有効 Credibility-based Fault-Tolerance
Majority Voting • work-pool中のwork entryをround-robin で埋める • m個の等しい結果を得るまで繰り返す
Majority Voting (Error Rate vs. m) – 欠点 • fが大きいとき 非効率 • 最低でも2の redundancy f
Spot-Checking (2/3) • Blacklistにのったworkerに対しては二度と work objectを与えない • εscbl: error rate • f: fault fraction • s: sabotage rate • q: spot check rate • n: work objects数/worker
Spot-Checking (3/3) (Error Rate vs. s) n q = 0. 1 f = 20%
Simulation Results • Monte Carlo simulations – 100 computations実行 – 1 computation = 10 batches – 1 batches = N (=10000) work objects – P = 200 • N/P = 50としてspot-checkingが有効に働くように した • blacklistにのったworkerも次のbatchでは復活する
Simulation Results (Majority Voting) f m={2, 3, 4}
Simulation Results (Spot-Checking) f θ=0. 999…
Outline • シンポジウムの概要 • いくつかの論文の紹介 – Sabotage-Tolerance Mechanism for Volunteer Computing System – Container: A Sound Basis For a True Single System Image • 田浦さんミーティングの近況報告
Container: A Sound Basis For a True Single System Image Renaud Lottiaux and Christine Morin IRISA/Universite de Rennes 1, Paris, Project • • • Background Container Implementation Performance Evaluation Conclusion
Container • クラスタのノード間のメモリ共有のための低レベ ルメカニズム • Software DSM + Parallel File System? • Single System Imageを提供 – – Distributed Memory Management Global Disk Management Global Processor Management High Availability (Fault tolerance) OS OS Containers Device Memory PFS Memory Device
Performance Evaluation • 環境 – Gobelins: Containerを用いたOS • 4ノードのクラスタ上で動作 • Intel Pentium Pro (200 MHz, 256 KB L 2 cache) • 128 Mbyte local memory – SMP: • DELL station • Intel Pentium III× 4 (550 MHz, 512 KB L 2 cache) • 1 Gbyte physical memory • 問題 – Modified Gram-Schmidt • 入力: vectorの集合 • 出力: 正規直交基底 – 512*512と 1024*1024 の 2つのmatrixで測定
While You’re away: System for Load. Balancing and Resource Sharing based on Mobile Agents Niranjan Suri, Paul T. Groth, and Jeffery M. Bradshaw Institute for Human & Machine Congition, University of West Florida
WAY • idleなworkstationの利用を可能にする • 特徴 – NOMADS mobile agent systemを使用 – アーキテクチャに依存しない Job Queue – jobの移動が可能 Server idle workstation user idle workstation
NOMADS • Mobile Agent System • Aroma Virtual Machine (Java)を使用 – strong mobility – resource control
その他 • Akamai (Global Internet Content Delivery) • Sun Grid. Engine • Globus • Ninf • Web Server • SETI@homeの類似品
Outline • シンポジウムの概要 • いくつかの論文の紹介 – Sabotage-Tolerance Mechanism for Volunteer Computing System – Container: A Sound Basis For a True Single System Image • 田浦さんミーティングの近況報告
いままでの発表 • Flow Analysis関係 – Compositional Pointer and Escape Analysis for Java Programs (後藤) – Partial Redundancy Elimination (上田) – Fast Interprocedural Class Analysis (速水) • Database – x. FS - Serverless Network File Systems (洪) • Load Balance – Optimal Mapping of Sequences of Data Parallel Tasks (坂本)
- Slides: 41