Organizao e Arquitetura de Computadores II Classificao Moderna

  • Slides: 37
Download presentation
Organização e Arquitetura de Computadores II Classificação Moderna de Máquinas Paralelas Capítulos 8. 4,

Organização e Arquitetura de Computadores II Classificação Moderna de Máquinas Paralelas Capítulos 8. 4, 8. 5 do Tanenbaum e Austin Capítulo 6 do Hennessy e Patterson Última alteração: 03/12/2017 Prof. Ney Laert Vilar Calazans Baseado em notas de aulas originais do Prof. Dr. César Marcon

2 / 37 Índice PVP - Parallel Vector Processor SMP - Symmetric Multiprocessor MPP

2 / 37 Índice PVP - Parallel Vector Processor SMP - Symmetric Multiprocessor MPP - Massively Parallel Processors NOW - Network of Workstations COW - Cluster of Workstations

3 / 37 PVP - Parallel Vector Processor • Processadores Vetoriais • Memória compartilhada

3 / 37 PVP - Parallel Vector Processor • Processadores Vetoriais • Memória compartilhada (UMA) – Nós de processamento comunicam-se através da memória • Interconectados por matriz de chaveamento (permite acesso concorrente à memória) • Baixa escalabilidade (alguns processadores vetoriais, interconexão +/- fixa não pensada para expansão) • Grandes bancos de registradores, sem caches VP VP VP Interconexão SM SM SM

4 / 37 PVP - Parallel Vector Processor • Custo aproximado (~1. 000 U$)

4 / 37 PVP - Parallel Vector Processor • Custo aproximado (~1. 000 U$) • Ex: Cray C 90, Cray T 90, NEC SX-4 Cray T 90 Cray SX 6

5 / 37 Esquema de Máquina PVP – Cray X 1

5 / 37 Esquema de Máquina PVP – Cray X 1

6 / 37 Índice PVP - Parallel Vector Processor SMP - Symmetric Multiprocessor MPP

6 / 37 Índice PVP - Parallel Vector Processor SMP - Symmetric Multiprocessor MPP - Massively Parallel Processors NOW - Network of Workstations COW - Cluster of Workstations

7 / 37 SMP - Symmetric Multiprocessor • Multiprocessadores simétricos processadores comerciais • Interconectados

7 / 37 SMP - Symmetric Multiprocessor • Multiprocessadores simétricos processadores comerciais • Interconectados por barramentos – Baixa escalabilidade • Conectados a uma memória compartilhada (MC) – Nós de processamento se comunicam através desta – Modelo UMA • Normalmente, cada processador (P) possui cache (C)

8 / 37 SMP - Symmetric Multiprocessor • Todos os processadores têm acesso homogêneo

8 / 37 SMP - Symmetric Multiprocessor • Todos os processadores têm acesso homogêneo ao barramento e à memória • Não há privilégios por parte do SO a nenhum dos processadores no atendimento de requisições – Simetria • Programação – Mais fácil se comparada a máquinas que se comunicam por troca de mensagens – programação com múltiplas threads pode aproveitar automaticamente dos múltiplos processadores

9 / 37 SMP - Symmetric Multiprocessor • Maiores máquinas SMP encontradas no mercado

9 / 37 SMP - Symmetric Multiprocessor • Maiores máquinas SMP encontradas no mercado possuem em torno de 100 processadores • Custo médio (~20. 000 U$) • Ex: IBM R 50, SGI Power Challenge, Sun Microsystems, Silicon Graphics, PC Dual/Quad, DEC Alpha Server 8400 Intel Quad Xeon 7400 Server HP Integrity rx 8620 -32 Server

10 / 37 Índice PVP - Parallel Vector Processor SMP - Symmetric Multiprocessor MPP

10 / 37 Índice PVP - Parallel Vector Processor SMP - Symmetric Multiprocessor MPP - Massively Parallel Processors NOW - Network of Workstations COW - Cluster of Workstations

11 / 37 • • MPP - Massively Parallel Processors Multicomputadores massivamente paralelos Múltiplas

11 / 37 • • MPP - Massively Parallel Processors Multicomputadores massivamente paralelos Múltiplas memórias locais Nós se comunicam por troca de mensagens Interconectados por rede de alta velocidade – Rede proprietária • Boa escalabilidade (muitos processadores, interconexão projetada para escalar) • Programação mais complexa (comparada com PVP SIMD) P M . . . P P M M Interconexão

12 / 37 MPP - Massively Parallel Processors • Alto custo (~1. 000 U$)

12 / 37 MPP - Massively Parallel Processors • Alto custo (~1. 000 U$) • Ex: Intel Paragon, Cray T 3 E, Thinking Machines CM-5 Intel Paragon IBM SP 2 Connection Machine CM-5

13 / 37 Índice PVP - Parallel Vector Processor SMP - Symmetric Multiprocessor MPP

13 / 37 Índice PVP - Parallel Vector Processor SMP - Symmetric Multiprocessor MPP - Massively Parallel Processors NOW - Network of Workstations COW - Cluster of Workstations

14 / 37 • • NOW - Network of Workstations Redes de estações de

14 / 37 • • NOW - Network of Workstations Redes de estações de trabalho Múltiplas memórias locais (ML) Nós se comunicam por troca de mensagens (No. RMA) Interconectados por barramento

15 / 37 • NOW - Network of Workstations NOWs são constituídas por estações

15 / 37 • NOW - Network of Workstations NOWs são constituídas por estações de trabalho interligadas por tecnologia tradicional de rede (e. g. , Ethernet) – Na prática rede local de estações é utilizada na execução de aplicações paralelas • A rede local se comporta como uma máquina paralela – Vários processadores são interligados pela rede – Máquina No. RMA de baixo custo • Média escalabilidade (poucas estações) • Programação Difícil, emprega modelos de programação diversos (rede/local) • Redes tradicionais não são otimizadas para operações de comunicação de aplicação paralela – Alta latência • Comprometimento do desempenho global • Aplicações – Ambientes de ensino de processamento paralelo e distribuído – Execução de aplicações em que a comunicação entre nós não é intensa

16 / 37 NOW - Network of Workstations • Custo muito baixo • E.

16 / 37 NOW - Network of Workstations • Custo muito baixo • E. g. , estações interligadas por rede Ethernet

17 / 37 Comparação Entre Classes de Máquinas Escalabilidade Latência da comunicação Programação Custo

17 / 37 Comparação Entre Classes de Máquinas Escalabilidade Latência da comunicação Programação Custo Flexibilidade de construção PVP Baixa SMP Baixa MPP Alta NOW Média Baixa/Média Alta Média Alto Fácil Baixo Difícil Alto Difícil Médio Baixa Alta

18 / 37 Índice PVP - Parallel Vector Processor SMP - Symmetric Multiprocessor MPP

18 / 37 Índice PVP - Parallel Vector Processor SMP - Symmetric Multiprocessor MPP - Massively Parallel Processors NOW - Network of Workstations COW - Cluster of Workstations

19 / 37 Máquinas agregadas Cluster of Workstations (COW) • Redes de estações dedicadas

19 / 37 Máquinas agregadas Cluster of Workstations (COW) • Redes de estações dedicadas ao processamento paralelo • Interconectadas por redes padrão ou de baixa latência • Otimizada para operações paralelas – Estações não possuem monitor, teclado e mouse “estação de trabalho sem cabeça“ (headless workstation) • Principais otimizações são feitas no software – SO é “enxuto” e vários servidores desabilitados • Arquitetura básica

20 / 37 COW é uma Otimização de uma NOW • COW pode ser

20 / 37 COW é uma Otimização de uma NOW • COW pode ser vista como NOW dedicada ao processamento paralelo e distribuído • COW Implementa protocolos de rede em hardware • Várias camadas de rede podem ser simplificadas ou eliminadas

21 / 37 Tendências da Arquitetura de Comunicação • Agregados interligados por redes padrão

21 / 37 Tendências da Arquitetura de Comunicação • Agregados interligados por redes padrão (e. g. , Ethernet) – Tendência impulsionada por grandes fabricantes (HP, IBM e Dell) – Máquinas paralelas poderosas, agregando centenas a milhares de estações de trabalho de baixo custo (low end) – Motivo • Muito caro investimento em rede especial para interligar tantas máquinas – Obtenção de desempenho • Muitos nós de alto poder computacional • Aplicações que não necessitem muita comunicação • Agregados interligados por redes de baixa latência - Tendência impulsionada por fabricantes de placas de interconexão (padrão PCI) - Placas implementam protocolos de baixa latência otimizados para as características de comunicação de aplicações paralelas - Custo dessas placas >> placas padrão Muito caro construir máquinas com muitos nós

22 / 37 Placas de Baixa Latência Myrinet • • • Implementa troca de

22 / 37 Placas de Baixa Latência Myrinet • • • Implementa troca de mensagens (NORMA) Latência abaixo de 1µs Vazão 19, 8 Gbit/s Nós interligados através de switch de alto desempenho Custo aproximando U$ 2. 000, 00 TG 201 Qs. Ten. G 24 • • Completamente não bloqueante Latência em torno de 200 ns Vazão 480 Gbits/s Custo aproximando U$ 30. 000, 00

23 / 37 Vantagens de uma COW • Busca aliar vantagens das outras quatro

23 / 37 Vantagens de uma COW • Busca aliar vantagens das outras quatro classes – – – – – Médio/Baixo custo (NOW) Maior flexibilidade na construção (NOW) Baixa latência na comunicação (MPP e PVP) Memória distribuída (MPP) e/ou compartilhada (SMP) Boa escalabilidade (MPP) Principais otimizações no software Ótima relação custo × benefício Alta configurabilidade Baixo custo de manutenção Tolerante a falhas

24 / 37 Laboratório de Alto Desempenho - PUCRS Cluster Amazônia • • Cluster

24 / 37 Laboratório de Alto Desempenho - PUCRS Cluster Amazônia • • Cluster Nimbus • • • Enclosure HP Blade. System C 3000 com 4 Blades BL 620 c G 7 e uma storage dedicada com acesso via Fiber Channel Protocol (8 Gib/s) Cada máquina possui 2 processadores Intel Xeon E 7 - 2850 2. 0 GHz Hyper-Threading (20 núcleos por nó e 80 núcleos no cluster) 80 GB de memória por nó Nós interligados por 4 redes Gigabit-Ethernet chaveadas e 2 redes Infini. Band (para comunicação entre os nós) Com 7 máquinas Dell Power. Edge R 810 e 4 storages dedicadas Cada máquina possui dois processadores Intel Xeon X 6550 2 GHz Hyper-Threading, totalizando 16 núcleos(32 threads) e 64 GB de memória por nó Nós interligadas por 6 redes Gigabit-Ethernet chaveadas

25 / 37 Laboratório de Alto Desempenho - PUCRS Cluster Pantanal • • •

25 / 37 Laboratório de Alto Desempenho - PUCRS Cluster Pantanal • • • Cluster Gates • • • Composto por 6 máquinas HP Pro. Liant BL 20 p Blade Server Cada máquina com 2 processadores (4 threads) Intel Xeon 3. 6 GHz e 2 GB de memória, totalizando 12 núcleos (24 threads) no cluster Máquinas interligadas por uma rede Gigabit. Ethernet em um switch otimizado Composto por 16 máquinas Rackable Systems Cada máquina possui 2 processadores AMD Opteron 246 de 2 GHz e 8 GB de memória, totalizando 32 núcleos (32 threads) no cluster Nós interligados por 2 redes Gigabit-Ethernet chaveadas

26 / 37 Laboratório de Alto Desempenho - PUCRS Cluster Cerrado • • •

26 / 37 Laboratório de Alto Desempenho - PUCRS Cluster Cerrado • • • Cluster Atlântica • • Composto por 2 enclosures Dell Power. Edge M 1000 e com 16 Blades Dell Power. Edge M 610 e 15 Blades Dell Power. Edge M 620 Cada máquina possui dois processadores Intel Xeon Six-Core E 5645 2. 4 GHz Hyper-Threading e 24 GB de memória, totalizando 12 núcleos (24 threads) por nó e 372 núcleos (744 threads) no cluster Nós interligados por 2 redes Gigabit-Ethernet chaveadas e 2 redes Infini. Band (para comunicação entre os nós) Composto por 16 máquinas Dell Power. Edge R 610 Cada máquina possui 2 processadores Intel Xeon Quad-Core E 5520 2. 27 GHz Hyper. Threading e 16 GB de memória, totalizando 8 núcleos (16 threads) por nó e 128 núcleos (256 threads) no cluster Nós estão interligadas por 4 redes Gigabit. Ethernet chaveadas Um nó tem uma NVIDIA Tesla S 2050, com 4 Fermi processors (cada um com 448 cores) divididos em 2 host com 12 GB de memória

27 / 37 Paderborn SCI Cluster (PSC-64) • Máquina com 32 nós – Dual

27 / 37 Paderborn SCI Cluster (PSC-64) • Máquina com 32 nós – Dual Pentium II 300 MHz (2 -way SMP) – 256 M RAM • • • Rede primária SCI e rede secundária Fast. Ethernet Sistema Operacional Linux 19. 2 GFlops Pico Cluster Switch Fast-Ethernet Hospedeira Torus SCI

28 / 37 i. Cluster do HP Labs com rede Fast-Ethernet (Grenoble)

28 / 37 i. Cluster do HP Labs com rede Fast-Ethernet (Grenoble)

29 / 37 Exercícios 1. Comente sobre a infraestrutura de comunicação de uma rede

29 / 37 Exercícios 1. Comente sobre a infraestrutura de comunicação de uma rede COW 2. Porque são chamadas de simétricas as máquinas SMPs? 3. Dê as principais características de uma máquina PVP

30 / 37 Resposta de Exercícios 1. Comente sobre a infra-estrutura de comunicação de

30 / 37 Resposta de Exercícios 1. Comente sobre a infra-estrutura de comunicação de uma rede COW A arquitetura COW (Cluster Of Workstations) é uma otimização da arquitetura NOW. Ela implementa uma rede de estações de trabalho, onde cada nó é projetado para o alto desempenho. Existem duas tendências de infra-estruturas de comunicação: (i) redes do tipo padrão (e. g. barramento Fast-Ethernet) e (ii) redes de baixa latência (e. g. chaveador). 2. Porque são chamadas de simétricas as máquinas SMPs? Porque o SO não diferencia (privilegia) um processador frente a outro. Todos têm os mesmos direitos de operação, e o acesso à memória tem a mesma latência para qualquer processador. 3. Dê as principais características de uma máquina PVP é uma máquina paralela do tipo multiprocessador, composta por diversos processadores vetoriais. É bastante cara e complexa. Adequada para operações matriciais que requerem alto desempenho. A infra-estrutura de comunicação é feita normalmente com matriz de chaveamento. É uma máquina com características UMA.

31 / 37 Exercícios 4. Discuta o problema da escalabilidade de máquinas SMPs, quando

31 / 37 Exercícios 4. Discuta o problema da escalabilidade de máquinas SMPs, quando implementadas com barramentos. Qual o efeito de trocar por outra infraestrutura de comunicação? 5. Cite tendências de construção de máquinas paralelas e comente as diferenças 6. Qual a provável consequência indesejada de usar uma máquina NOW para cálculo de aplicações com um grão muito pequeno?

32 / 37 4. Resposta de Exercícios Discuta o problema da escalabilidade de máquinas

32 / 37 4. Resposta de Exercícios Discuta o problema da escalabilidade de máquinas SMPs, quando implementadas com barramentos. Qual o efeito de trocar por outra infra-estrutura de comunicação? Barramentos são infra-estruturas de comunicação que limitam a escalabilidade de máquinas que as usam a um número em torno de 100. A troca por uma infra-estrutura de comunicação que permita uma maior escalabilidade, tal como uma rede malha, irá eliminar uma das características desta máquina que é o acesso uniforme à memória. Porém, uma matriz de chaveamento não desrespeita o modelo de acesso uniforme à memória. 5. Cite tendências de construção de máquinas paralelas e comente as diferenças Algumas tendências são as máquinas MPP e COW. MPP são máquinas compostas por muitos processadores paralelos. Máquinas COW são compostas por clusters de estações de trabalho. Ambas são do tipo multicomputador. 6. Qual a provável conseqüência indesejada de usar uma máquina NOW para cálculo de aplicações com um grão muito pequeno? Máquinas NOW não têm infra-estrutura de comunicação voltada para alto desempenho. Como grão pequeno implica que existam muitas trocas de mensagem, pois a aplicação deve estar presente em mais de um grão. A situação exposta implica em aumento do tempo de execução da aplicação.

33 / 37 Exercícios 7. Na classificação de máquinas paralelas e distribuídas, como se

33 / 37 Exercícios 7. Na classificação de máquinas paralelas e distribuídas, como se encaixam as estações de trabalho? Por quê? 8. Porque redes de estação de trabalho são classificadas como NORMA? 9. Compare uma rede NOW e uma COW com relação ao particionamento de tarefas. Qual o efeito ou sentido em uma NOW e em uma COW? 10. Qual o efeito de criar um endereçamento distinto para cada processador de uma máquina SMP? 11. Diga uma aplicação que acredite ser adequada para utilizar uma máquina do tipo NOW 12. Qual a consequência prática de substituir os barramentos por uma infraestrutura de comunicação hierárquica para as máquinas SMP? Obs. : a infraestrutura hierárquica força que os tempos de acesso aos processadores sejam distintos

34 / 37 Exercícios 13. (ENADE 2005 - questão 42) Duas possibilidades para a

34 / 37 Exercícios 13. (ENADE 2005 - questão 42) Duas possibilidades para a construção de sistemas com múltiplos processadores são: processadores idênticos com um único espaço de endereçamento interligados por um barramento único (SMP); e máquinas monoprocessadas conectadas por uma rede (cluster). Com relação a esses sistemas, assinale a opção correta. i. A comunicação entre processadores de um cluster é, potencialmente, muito mais rápida que a comunicação entre processadores de um sistema SMP, pois redes atuais possuem taxa de transmissão da ordem de Gbits/s, enquanto as melhores memórias operam somente com frequências da ordem de centenas de mega-hertz. ii. Comunicação entre processos pode ser implementada de forma muito mais eficiente em um cluster que em um sistema SMP, pois, nesse último, todos os processos precisam compartilhar os mesmos dispositivos de entrada e saída. iii. Em um sistema SMP, é mais simples substituir um processador defeituoso, pois, em um cluster, toda a rede de comunicação deve ser desabilitada para que a troca seja efetuada sem prejudicar a troca de mensagens entre os processos. iv. Alocação de memória para processos é muito mais simples em um cluster, pois cada processador executa um único processo na sua memória exclusiva e, dessa forma, não existe o problema de distribuição de processos no espaço de endereçamento único da máquina SMP. v. Em um cluster, o custo da escalabilidade é muito menor, pois, para a interconexão entre as máquinas, podem ser utilizados equipamentos comuns usados em uma rede local de computadores, ao passo que um sistema SMP exige conexões extras no barramento e gabinetes especiais.

35 / 37 Resposta de Exercícios 13. (ENADE 2005 - questão 42) Duas possibilidades

35 / 37 Resposta de Exercícios 13. (ENADE 2005 - questão 42) Duas possibilidades para a construção de sistemas com múltiplos processadores são: processadores idênticos com um único espaço de endereçamento interligados por um barramento único (SMP); e máquinas monoprocessadas conectadas por uma rede (cluster). Com relação a esses sistemas, assinale a opção correta. i. A comunicação entre processadores de um cluster é, potencialmente, muito mais rápida que a comunicação entre processadores de um sistema SMP, pois redes atuais possuem taxa de transmissão da ordem de Gbits/s, enquanto as melhores memórias operam somente com freqüências da ordem de centenas de megahertz. ii. Comunicação entre processos pode ser implementada de forma muito mais eficiente em um cluster que em um sistema SMP, pois, nesse último, todos os processos precisam compartilhar os mesmos dispositivos de entrada e saída. iii. Em um sistema SMP, é mais simples substituir um processador defeituoso, pois, em um cluster, toda a rede de comunicação deve ser desabilitada para que a troca seja efetuada sem prejudicar a troca de mensagens entre os processos. iv. Alocação de memória para processos é muito mais simples em um cluster, pois cada processador executa um único processo na sua memória exclusiva e, dessa forma, não existe o problema de distribuição de processos no espaço de endereçamento único da máquina SMP. v. Em um cluster, o custo da escalabilidade é muito menor, pois, para a interconexão entre as máquinas, podem ser utilizados equipamentos comuns usados em uma rede local de computadores, ao passo que um sistema SMP exige conexões extras no barramento e gabinetes especiais.

36 / 37 Exercícios 14. Foi construída uma máquina com 500 estações de trabalho

36 / 37 Exercícios 14. Foi construída uma máquina com 500 estações de trabalho dedicadas ao processamento paralelo e interligadas por uma rede de alta velocidade. A máquina é gerenciada por um SO distribuído, sendo usada por diversas aplicações paralelas. Diga como esta é classificada em relação à classificação de Flynn e em relação ao compartilhamento de memória. Diga, também, como esta se encaixa na tendência de construção de máquinas modernas. 15. Suponha agora a construção de máquinas com 16 processadores Pentium IV, interligados a uma memória central através de um barramento. Como estas seriam classificadas?

37 / 37 Resposta de Exercícios 14. Foi construída uma máquina com 500 estações

37 / 37 Resposta de Exercícios 14. Foi construída uma máquina com 500 estações de trabalho dedicadas ao processamento paralelo e interligadas por uma rede de alta velocidade. A máquina é gerenciada por um SO distribuído, sendo usada por diversas aplicações paralelas. Diga como esta é classificada em relação à classificação de Flynn e em relação ao compartilhamento de memória. Diga, também, como esta se encaixa na tendência de construção de máquinas modernas. MIMD, NORMA, COW 15. Suponha agora a construção de máquinas com 16 processadores Pentium IV, interligados a uma memória central através de um barramento. Como estas seriam classificadas? MIMD, UMA, SMP