Memria Compartilhada Programao com memria compartilhada Nos sistemas

  • Slides: 53
Download presentation
Memória Compartilhada

Memória Compartilhada

Programação com memória compartilhada • Nos sistemas multiprocessadores com memória compartilhada, qualquer localização da

Programação com memória compartilhada • Nos sistemas multiprocessadores com memória compartilhada, qualquer localização da memória pode ser acessada por qualquer processador • Existe um espaço de endereçamento único, ou seja, cada localização de memória possui um único endereço dentro de uma extensão única de endereços

Arquitetura com barramento único Barramento Cache Processadores Módulos de memória

Arquitetura com barramento único Barramento Cache Processadores Módulos de memória

Alternativas para programação • Utilizar uma nova linguagem de programação • Modificar uma linguagem

Alternativas para programação • Utilizar uma nova linguagem de programação • Modificar uma linguagem seqüencial existente • Utilizar uma linguagem seqüencial existente com rotinas de bibliotecas • Utilizar uma linguagem de programação seqüencial e deixar a cargo de um compilador paralelizador a geração de um código paralelo executável • Processos UNIX • Threads (Pthreads, Java, . . . )

Algumas linguagens de programação paralelas

Algumas linguagens de programação paralelas

Criação de processos concorrentes utilizando a construção fork-join Programa principal FORK JOIN

Criação de processos concorrentes utilizando a construção fork-join Programa principal FORK JOIN

Processos UNIX • A chamada do UNIX fork() cria um novo processo, denominado processo

Processos UNIX • A chamada do UNIX fork() cria um novo processo, denominado processo filho • O processo filho é uma cópia exata do processo que chama a rotina fork(), sendo a única diferença um identificador de processo diferente • Esse processo possui uma cópia das variáveis do processo pai inicialmente com os mesmos valores do pai • O processo filho inicia a execução no ponto da chamada da rotina • Caso a rotina seja executada com sucesso, o valor 0 é retornado ao processo filho e o identificador do processo filho é retornado ao processo pai

Processos UNIX • Os processos são “ligados” novamente através das chamadas ao sistema: –

Processos UNIX • Os processos são “ligados” novamente através das chamadas ao sistema: – wait(status): atrasa a execução do chamador até receber um sinal ou um dos seus processos filhos terminar ou parar – exit(status): termina o processo • Criação de um único processo filho pid = fork(); código a ser executado pelo pai e filho if (pid == 0) exit (0); else wait (0) • Filho executando código diferente pid = fork(); if (pid == 0) { código a ser executado pelo filho } else { código a ser executado pelo pai } if (pid == 0) exit (0); else wait (0);

Threads Heap Código Processos: programas completamente separados com suas próprias variáveis, pilha e alocação

Threads Heap Código Processos: programas completamente separados com suas próprias variáveis, pilha e alocação de memória IP Pilha Rotinas de interrupção Arquivos Pilha Threads: as rotinas compartilham o mesmo espaço de memória e variáveis globais Pilha Código Heap IP IP Rotinas de interrupção Arquivos

Pthreads Interface portável do sistema operacional, POSIX, IEEE Programa principal thread 1 proc 1(&arg);

Pthreads Interface portável do sistema operacional, POSIX, IEEE Programa principal thread 1 proc 1(&arg); { pthread_create(&thread 1, NULL, proc 1, &arg); return(&status); } pthread_join(thread 1, NULL, &status);

Barreira para Pthreads • A rotina pthread_join() espera pelo término de uma thread específica

Barreira para Pthreads • A rotina pthread_join() espera pelo término de uma thread específica • Para criar uma barreira para esperar pelo término de todas as threads, pode-se repetir a chamada da rotina: for (i = 0; i < n; i++) pthread_create(&thread[i], NULL, (void *) slave, (void *) &arg); . . for (i = 0; i < n; i++) pthread_join(thread[i], NULL);

Threads desunidas Uma thread não precisa saber do término de uma outra por ela

Threads desunidas Uma thread não precisa saber do término de uma outra por ela criada, então não executa-se a operação de união Programa principal pthread_create(); Thread pthread_create(); Término Thread Término

Ordem de execução das instruções • As execuções das instruções dos processos/threads individuais podem

Ordem de execução das instruções • As execuções das instruções dos processos/threads individuais podem ser entrelaçadas no tempo • Exemplo: Processo 1 Instrução 1. 2 Instrução 1. 3 Processo 2 Instrução 2. 1 Instrução 2. 2 Instrução 2. 3 Possível ordem de execução no tempo: Instrução 1. 1 Instrução 1. 2 Instrução 2. 1 Instrução 1. 3 Instrução 2. 2 Instrução 2. 3

Ordem de execução das instruções • Se dois processos devem imprimir mensagens, por exemplo,

Ordem de execução das instruções • Se dois processos devem imprimir mensagens, por exemplo, as mensagens podem aparecer em ordens diferentes dependendo do escalonamento dos processos que chamam a rotina de impressão • Os caracteres individuais de cada mensagem podem aparecer uns inseridos entre outros, caso as instruções de máquina das instâncias da rotina de impressão sejam divididas em passos menores que possam ser interrompidos

Otimizações do compilador/processador • O compilador ou processador pode reordenar as instruções para tentar

Otimizações do compilador/processador • O compilador ou processador pode reordenar as instruções para tentar otimizar a execução • Exemplo: – As instruções abaixo a = b + 5; x = y + 4; podem ser executadas em ordem contrária: x = y + 4; a = b + 5; e o programa continua logicamente correto

Rotinas seguras para threads • As chamadas ao sistema ou rotinas de bibliotecas são

Rotinas seguras para threads • As chamadas ao sistema ou rotinas de bibliotecas são denominadas seguras para threads, quando elas podem ser acionadas por várias threads ao mesmo tempo e sempre produzem resultados corretos • Rotinas padrão de E/S: imprimem mensagens sem permitir interrupção entre impressão de caracteres • Rotinas que acessam dados compartilhados os estáticos requerem cuidados especiais para serem seguras para threads • Pode-se forçar a execução da rotina somente por uma thread de cada vez, ineficiente

Acessando dados compartilhados • Considere dois processos que devem ler o valor de uma

Acessando dados compartilhados • Considere dois processos que devem ler o valor de uma variável x, somar 1 a esse valor e escrever o novo valor de volta na variável x tempo Instrução x=x+1 Processo 1 ler x calcular x + 1 escrever x Processo 2 ler x calcular x + 1 escrever x

Conflito em acesso a dados compartilhados Variável compartilhada, x Escrever Ler +1 Processo 1

Conflito em acesso a dados compartilhados Variável compartilhada, x Escrever Ler +1 Processo 1 Ler +1 Processo 2

Seção crítica • Devem existir mecanismos para assegurar que somente um processo possa acessar

Seção crítica • Devem existir mecanismos para assegurar que somente um processo possa acessar um determinado recurso durante um certo tempo • Estabelecem-se sessões de código que envolvem o recurso, denominadas seções críticas, e organiza-se o acesso a elas de tal modo que somente uma delas pode ser executada por um processo de cada vez • Um processo impede que outros processos acessem as seções críticas que possui um determinado recurso compartilhado quando ele estiver acessando • Quando um processo finaliza a execução da seção crítica, outro processo pode executá-la • Mecanismo conhecido como exclusão mútua

Lock • Mecanismo mais simples de assegurar exclusão mútua para acesso a seções críticas

Lock • Mecanismo mais simples de assegurar exclusão mútua para acesso a seções críticas • O lock é uma variável de 1 bit que possui o valor 1 quando existe algum processo na seção crítica e 0 quando nenhum processo está na seção crítica • Um processo que chega a uma porta da seção crítica e a acha aberta pode entrar, trancando-a para prevenir que nenhum outro processo entre • Assim que o processo finaliza a execução da seção crítica, ele destranca a porta e sai

Spin lock while (lock == 1) do_nothing; lock = 1; . seção crítica. lock=0;

Spin lock while (lock == 1) do_nothing; lock = 1; . seção crítica. lock=0; Processo 1 Processo 2 while (lock == 1) do _nothing; lock =1; while (lock == 1) do_nothing; seção crítica lock=0; lock = 1; seção crítica lock = 0;

Rotinas de lock para Pthreads • Os locks são implementados com variáveis lock mutuamente

Rotinas de lock para Pthreads • Os locks são implementados com variáveis lock mutuamente exclusivas, ou variáveis “mutex” • Para utilizá-la, deve-se declará-la com o tipo pthread_mutex_t e inicialiá-la: pthread_mutex_t mutex 1; . . pthread_mutex_init(&mutex 1, NULL); • Uma variável mutex pode ser destruída utilizando-se a rotina pthread_mutex_destroy()

Rotinas de lock para Pthreads • Uma seção crítica pode ser protegida utilizando-se pthread_mutex_lock()

Rotinas de lock para Pthreads • Uma seção crítica pode ser protegida utilizando-se pthread_mutex_lock() e pthread_mutex_unlock() pthread_mutex_lock(& mutex 1); . seção crítica. pthread_mutex_unlock(&mutex 1); • Se uma thread chega em uma rotina de trancamento de uma variável mutex e a encontra trancada, ela espera até que seja destrancada • Se mais de uma thread está esperando o destrancamento, o sistema escolhe aquela que poderá prosseguir • Somente a thread que tranca uma variável pode destrancá-la

Deadlock • Pode ocorrer com dois processos quando um deles precisa de um recurso

Deadlock • Pode ocorrer com dois processos quando um deles precisa de um recurso que está com outro e esse precisa de um recurso que está com o primeiro R 1 R 2 Recurso P 1 P 2 Processo

Deadlock • Pode ocorrer em modo circular com vários processos possuindo um recurso necessário

Deadlock • Pode ocorrer em modo circular com vários processos possuindo um recurso necessário a um outro R 1 R 2 Rn-1 Rn P 1 P 2 Pn-1 Pn

Rotina para evitar deadlock em Pthreads • Pthreads oferece uma rotina para testar se

Rotina para evitar deadlock em Pthreads • Pthreads oferece uma rotina para testar se uma variável está trancada sem bloquear a thread • pthread_mutex_trylock() – tranca uma variável mutex que esteja destrancada e retorna o valor 0, ou retorna o valor EBUSY caso a variável esteja trancada

Semáforos • Um semáforo s é um inteiro positivo (incluindo o 0) operado por

Semáforos • Um semáforo s é um inteiro positivo (incluindo o 0) operado por duas operações denominadas P e V • Operação P(s) – espera até que s seja maior que 0, a decrementa de 1 e permite que o processo continue a sua execução • Operação V(s) – incrementa s de 1 para liberar algum processo que esteja esperando • As operações P e V são executadas de forma indivisível • Mecanismo de espera implícito nas operações • Os processo atrasados por P(s) são mantidos parados até serem liberados por uma operação V(s) sobre o mesmo semáforo

Exclusão mútua de seções críticas • Pode ser implementada através de um semáforo binário,

Exclusão mútua de seções críticas • Pode ser implementada através de um semáforo binário, que só assume os valores 0 e 1 • Funciona como uma variável lock mas as operações P e V incluem um mecanismo de escalonamento de processos • O processo é inicializado com o valor 1, indicando que nenhum processo está na sua seção crítica associada ao semáforo

Semáforo geral • Pode ter qualquer valor positivo • Pode fornecer, por exemplo, um

Semáforo geral • Pode ter qualquer valor positivo • Pode fornecer, por exemplo, um modo de registrar o número de unidades do recurso disponíveis ou não disponíveis e pode ser utilizada para resolver problemas de consumidor/produtor • Rotinas de semáforo existem para processos UNIX • Não existem para Pthreads, somente para extensão de tempo real

Monitor • Um conjunto de procedimentos que fornecem o único método de acessar um

Monitor • Um conjunto de procedimentos que fornecem o único método de acessar um recurso compartilhado • Os dados e operações que podem ser executadas sobre os dados são encapsulados em uma estrutura • A leitura e escrita de dados só podem ser feitas utilizando-se procedimentos do monitor, e somente um processo pode utilizar um procedimento de monitor em qualquer instante • Um procedimento de monitor pode ser implementado utilizando-se semáforos monitor_proc 1() { P(monitor_semaphore); . Corpo do monitor. V(monitor_semaphore); return; }

Variáveis de condição • Freqüentemente, uma seção crítica deve ser executada caso exista uma

Variáveis de condição • Freqüentemente, uma seção crítica deve ser executada caso exista uma condição específica, por exemplo, o valor de uma variável chegou a um determinado valor • Utilizando-se locks, a variável global tem que ser freqüentemente examinada dentro da seção crítica • Consome tempo de CPU e podem não funcionar direito • Utilizam-se variáveis de condição

Operações para variáveis de condição • Três operações: – wait(cond_var) - espera que ocorra

Operações para variáveis de condição • Três operações: – wait(cond_var) - espera que ocorra a condição – signal(cond_var) - sinaliza que a condição ocorreu – status(cond_var) - retorna o número de processos esperando pela condição • A rotina wait() libera o semáforo ou lock e pode ser utilizada para permitir que outro processo altere a condição • Quando o processo que chamou a rotina wait() é liberado para seguir a execução, o semáforo ou lock é trancado novamente

Operações para variáveis de condição (exemplo) • Considere um ou mais processos (ou threads)

Operações para variáveis de condição (exemplo) • Considere um ou mais processos (ou threads) designados a executar uma determinada operação quando um contador x chegue a zero • Outro processo ou thread é responsável por decrementar o contador action() {. lock(); while (x != 0) wait(s); unlock(); take_action(); } contador() {. lock(); x--; if (x == 0) signal (s); unlock(); . }

Variáveis de condição em Pthreads • Associadas com uma variável mutex específica • Declarações

Variáveis de condição em Pthreads • Associadas com uma variável mutex específica • Declarações e inicializações: pthread_cond_t cond 1; pthread_mutex_t mutex 1; pthread_cond_init(&cond 1, NULL); pthread_mutex_init(&mutex 1, NULL); • Utilização das rotinas de wait e signal: action() contador() { {. . pthread_mutex_lock(mutex 1); pthread_mutex_lock(&mutex 1); while (c<> 0) c--; pthread_cond_wait(cond 1, mutex 1); if (c == 0) pthread_cond_signal(cond 1); pthread_mutex_unlock(&mutex 1); take_action(); . } }

Construções de linguagens paralelismo • Declaração de dados compartilhados – shared int x •

Construções de linguagens paralelismo • Declaração de dados compartilhados – shared int x • Construção par, para especificar execuções de instruções concorrentes – par { S 1; S 2; . . Sn; }

Construções forall • Para iniciar execuções de múltiplos processos conjuntamente: – forall (i =

Construções forall • Para iniciar execuções de múltiplos processos conjuntamente: – forall (i = 0; i , n; i++) { S 1; S 2; . Sn; } • Geram-se n processos cada um executando as instruções que formam o corpo do loop for, S 1, S 2, . . . , Sn e cada processo utiliza um valor diferente para i • Exemplo para colocar o valor 0 em a[0], a[1], a[2], a[3], a[4] concorrentemente: forall (i = 0; i < 5; i++) a[i] = 0;

Análise de dependência • Identificação dos processos que podem ser executados em conjunto •

Análise de dependência • Identificação dos processos que podem ser executados em conjunto • No código abaixo, a instrução do corpo do forall é independente de todas as outras e todas podem ser executadas de forma independente • No entanto, pode a identificação de dependência pode não ser tão óbvia, necessitando-se de algoritmos de reconhecimento de dependência para compiladores paralelizadores

Condições de Bernstein • Conjunto de condições suficientes para determinar se dois processos podem

Condições de Bernstein • Conjunto de condições suficientes para determinar se dois processos podem ser executados simultaneamente • Sejam Ii o conjunto de localizações de memória lidas por um processo Pi e Oj o conjunto de localizações alteradas pelo processo Pj • Três condições suficientes para que dois processos P 1 e P 2 sejam executados concorrentemente – I 1 O 2 = – I 2 O 1 = – O 1 O 2 =

Exemplo das condições de Bernstein • Suponha as duas instruções em C: a =

Exemplo das condições de Bernstein • Suponha as duas instruções em C: a = x + y; b = x + z; • Temos: I 1 = (x, y) I 2 = (x, z) O 1 = (a) O 1 = (b) • Existem as três condições suficientes para que dois processos P 1 e P 2 sejam executados concorrentemente – I 1 O 2 = – I 2 O 1 = – O 1 O 2 =

Dados compartilhados em sistemas com caches • A memória cache é uma memória com

Dados compartilhados em sistemas com caches • A memória cache é uma memória com velocidade de acesso alto para armazenar dados e código recentemente referenciados • Protocolos de coerência da cache – política de atualização: a cópia dos dados de todas as caches é atualizada quando uma delas é alterada – política de invalidação: quando uma das cópias é alterada, o mesmo dado em outra cache é invalidado e essas cópias são atualizadas somente quando o processador associado a ela referenciar o dado

Compartilhamento falso • Partes diferentes de um bloco de dados utilizadas por processadores diferentes

Compartilhamento falso • Partes diferentes de um bloco de dados utilizadas por processadores diferentes • Se um processador escrever em uma parte do bloco, a cópia de todo bloco deve ser invalidada ou atualizada nas caches dos outros processadores Memória principal Bloco Tag de endereço 7 6 5 4 3 2 1 0 Cache Bloco na cache Processador 1 Processador 2

Solução para compartilhamento falso • O compilador deve alterar a distribuição dos dados armazenados

Solução para compartilhamento falso • O compilador deve alterar a distribuição dos dados armazenados na memória, colocando dados alterados por um único processador em blocos diferentes

Exemplos de programas • Somar os elementos de um array, a[1000] int sum, a[1000]

Exemplos de programas • Somar os elementos de um array, a[1000] int sum, a[1000] sum = 0; for (i = 0; i < 1000; i++) sum = sum +a[i];

Exemplo utilizando processos UNIX • O cálculo é dividido em duas partes, uma para

Exemplo utilizando processos UNIX • O cálculo é dividido em duas partes, uma para a soma dos elementos pares e outra para os ímpares Processo 1 sum 1 = 0 for (i = 0; i < 1000; i = i+2) sum 1 = sum 1 + a[i] Processo 2 sum 2 = 0 for (i = 1; i < 1000; i= i+2) sum 2 = sum 2 + a[i] • Cada processo soma o seu resultado (sum 1 ou sum 2) a uma variável compartilhada sum que acumula o resultado e deve ser ter seu acesso protegido • Estrutura de dados utilizada sum addr Array a[]

#define array_size 1000 extern char *shmat() void P(int *s); void V(int *s); int main()

#define array_size 1000 extern char *shmat() void P(int *s); void V(int *s); int main() { int shmid, s, pid; cahr *shm; int *a, *addr, *sum; int partial_sum; int i; init_sem_value =1 ; s = semget(IPC_PRIVATE, 1, (0600 | IPC_CREAT)); if (s == -1) { perror(“semget”); exit(1); } if semctl(s, 0, SETVAL, init_sem_value) < 0) { perror(“semctl”); exit(1); } shmid = shmget(IPC_PRIVATE, (array_size*sizeof(int)+1), IPCCREAT|0600); if (shmid == -1) { perror(“shmget”); exit (1); } shm = shmat(shmid, NULL, 0); if (shm == (char*)-1) { perror(“shmat”); exit(1); }

addr = (int *) shm; sum = addr; addr++; a = addr; *sum =

addr = (int *) shm; sum = addr; addr++; a = addr; *sum = 0; for (i = 0; i < array_size; i++) *(a+i) = i+1; pid = fork(); if (pid ==0) { partial_sum=0; for (i=0; i<array_size; i=i+2) partial_sum+=*(a+i); else { partial_sum=0; for (i=1; i<array_size; i=i+2) partial_sum+=*(a+i); } P(&s); *sum+=partial_sum; V(&s); printf(“n pid do processo = %d, soma parcial = %d n”, pid, partial_sum); if (pid == 0) exit (0); else wait(0); printf(“A soma total é %d n”, *sum); if (semctl(s, 0, IPC_RMID, 1) == -1) { perror(“semctl”); exit(1); } if (shmctl(shmid, IPC_RMID, NULL) == -1) { perror(“shmctl”); exit(1); } }

void P(int *s) { struct sembuffer, *sops; sops = &sembuffer; sops->sem_num=0; sops->sem_op=-1; sops->sem_flg=0; if

void P(int *s) { struct sembuffer, *sops; sops = &sembuffer; sops->sem_num=0; sops->sem_op=-1; sops->sem_flg=0; if (semop(*s, sops, 1) < 0) { perror (“semop”); exit (1); } return; } void V(int *s) { struct sembuffer, *sops; sops = &sembuffer; sops->sem_num=0; sops->sem_op=1; sops->sem_flg=0; if (semop(*s, sops, 1) < 0) { perror (“semop”); exit (1); } return; }

Exemplo utilizando Pthreads • São criadas n threads, cada uma obtém os números de

Exemplo utilizando Pthreads • São criadas n threads, cada uma obtém os números de uma lista, os soma e coloca o resultado em uma variável compartilhada denominada sum • A variável compartilhada global_index é utilizada por cada thread para selecionar o próximo elemento de a • Após a leitura do índice, ele é incrementado para preparar para a leitura do próximo elemento • Estrutura de dados utilizada global_index sum addr Array a[]

#define array_size 1000; #define no_threads 10; int a[array_size]; int global_index = 0; int sum

#define array_size 1000; #define no_threads 10; int a[array_size]; int global_index = 0; int sum = 0; pthread_mutex_t mutex 1; void *slave (void *ignored) { int local_index, partial_sum =0; do { pthread_mutex_lock&(mutex 1); local_index = global_index; global_index++; pthread_mutex_unlock(&mutex 1); if (local_index < array_size) partial_sum += *(a+local_index); } while (local_index < array_size); pthread_mutex_lock(mutex 1); sum+=partial_sum; pthread_mutex_unlcok(&mutex 1); return(); }

main() { int i; pthread_t thread[no_threads]; pthread_mutex_init(&mutex 1, NULL); for (i = 0; i

main() { int i; pthread_t thread[no_threads]; pthread_mutex_init(&mutex 1, NULL); for (i = 0; i < array_size; i++) a[i] = i+1; for (i = 0; i < no_threads; i++) if (pthread_create(&thread[i], NULL, slave, NULL) != 0) { perror(“Pthread_create falhou”); exit(1); } for (i = 0; i < no_threads; i++) if (pthread_join(thread[i], NUL) != 0) { perror(“Pthread_join falhou”); exit(1); } printf(“A soma é %d n”, sum) }

Exemplo em Java public class Adder { public int [] array; private int sum

Exemplo em Java public class Adder { public int [] array; private int sum = 0; private int index = 0; private int number_of_threads = 10; private int threads_quit; public Adder () { threads_quit = 0; array = new int[1000]; initialize. Array(); start. Threads() } public synchronized int get. Next. Index() { if (index < 1000) return (index ++); else return (-1); } public synchronized void add. Partial. Sum(int partial_sum) { sum = sum + partoal_sum; if (++threads_quit == number_of_threads) System. out. println(“a soma dos números e’”+sum); }

private void initialize. Array() { int i; for (i = 0; i < 1000;

private void initialize. Array() { int i; for (i = 0; i < 1000; i+=) array[i] = i; } public void start. Threads () { int i = 0; for (i = 0; i < 10; i++) { Adder. Thread at = new adder. Thread(this, i); at. start(); } } public static void main(String args[]) { Adder a = new Adder(); } }

class Adder. Thread extends Thread { int partial_sum = 0; Adder_parent; int number; public

class Adder. Thread extends Thread { int partial_sum = 0; Adder_parent; int number; public Adder. Thread (Adder parent, int number) { this. parent = parent; this. number = number; } public void run () { int index = 0; while (index != -1) { partial_sum = partial_sum + parent. array[index]; index = parent. get. Next. Index(); } parent. add. Partial. Sum(partial_sum); ) System. out. println(‘Soma parcial da thread “ + number + “é “+ partial_sum); } }