Comparao de Sistemas Usando Amostragem de Dados por

  • Slides: 28
Download presentation
Comparação de Sistemas Usando Amostragem de Dados por: Tiago A. E. Ferreira

Comparação de Sistemas Usando Amostragem de Dados por: Tiago A. E. Ferreira

Amostragem vs. População Milhões de números Amostragem X 1, X 2, . . .

Amostragem vs. População Milhões de números Amostragem X 1, X 2, . . . , Xn Média X Desv. Pad. s Objetivo: Determinar parâmetros a partir das estatisticas

Intervalo de Confiança • Em estatística, inferências (a partir de dados) não são definitivas

Intervalo de Confiança • Em estatística, inferências (a partir de dados) não são definitivas inquestionáveis: devem ser sempre apresentadas com os intervalos de confiança associados • Nós apenas medimos os fenômenos do mundo real em observações discretas e generalizamos as conclusões para todo o domínio • Há sempre um erro ao processo de generalização

Intervalo de Confiança • P(a b) = 1 - onde: – : valor esperado

Intervalo de Confiança • P(a b) = 1 - onde: – : valor esperado do parâmetro (desconhecido) – (a, b): intervalo de confiança (variável aleatória) – : nível de significância – 100(1 - ) nível de confiança – (1 - ) coeficiente de confiança

Métodos para se Determinar o Intervalo de Confiança. • Quantis de k médias •

Métodos para se Determinar o Intervalo de Confiança. • Quantis de k médias • Teorema Central do Limite (a partir de 1 média) – Aproximação pela distribuição normal (n 30) – Aproximação pela distribuição t de Student (n<30)

Exemplo: Quantis de 100 Médias a 90% de Nível de Confiança-1 • Tomam-se 100

Exemplo: Quantis de 100 Médias a 90% de Nível de Confiança-1 • Tomam-se 100 amostras {x 1 , x 2, . . , xn} de n exemplos • Calculam-se as 100 médias • Colocam-se as 100 médias em ordem crescente • Toma as [1+0, 05(100 -1)] e [1+(1 -0, 05)(100 -1)]-ésimas médias como limites inferior e superior a b

Intervalo de Confiança – Distribuição Normal - N(0, 1) • Faz-se a transformação para

Intervalo de Confiança – Distribuição Normal - N(0, 1) • Faz-se a transformação para a normal reduzida N(0, 1) • Consulta-se na tabela o quantil z[1 - /2] da normal reduzida • Encontra o intervalo de confiança (a, b)

Exemplo 1 Suponha uma certa distribuição de pontos que tenha: Queremos um intervalo de

Exemplo 1 Suponha uma certa distribuição de pontos que tenha: Queremos um intervalo de confiança sobre a média de 90%! x = 3. 90 s = 0. 95 100(1 - ) = 90 = 0. 1 n = 32 Temos, Z[0. 995] = 1. 645, o que implica um intervalo de confiança 3. 62 3. 90 4. 17

Intervalo de Confiança – Estatística de t-Stundent • Faz-se a transformação para a t

Intervalo de Confiança – Estatística de t-Stundent • Faz-se a transformação para a t de Student com graus de liberdade • Consulta-se na tabela o quantil t[1 - /2; ] da t de Student • Encontra o intervalo de confiança (a, b)

Exemplo 2 Suponha a amostragem: {-0. 04, -0. 19, 0. 14, -0. 09, -0.

Exemplo 2 Suponha a amostragem: {-0. 04, -0. 19, 0. 14, -0. 09, -0. 14, 0. 19, 0. 04, 0. 09}. Temos, Queremos um intervalo de x=0 confiança sobre a média de 90%! s = 0. 138 100(1 - ) = 90 = 0. 1 n=8 Temos, t[0. 95; 7] = 1. 895, o que implica um intervalo de confiança -0. 0926 0 0. 0926

Teste de Média Zero médias 0 Intervalos de Confiança que incluem o zero Intervalos

Teste de Média Zero médias 0 Intervalos de Confiança que incluem o zero Intervalos de Confiança que não incluem o zero

Exemplo 3 A diferença de tempo de processamento para duas diferentes implementações do mesmo

Exemplo 3 A diferença de tempo de processamento para duas diferentes implementações do mesmo algoritmo é dada pela amostragem: {1. 5, 2. 6, -1. 8, 1. 3, -0. 5, 1. 7, 2. 4} n = 7; x = 1. 03; s 2 = 2. 57 ; s = 1. 60 Intervalo de Confiança de 99% : 100(1 - ) = 99, = 0. 01, 1 - /2 = 0. 995

Procedimentos Estatísticos para Comparação de Dois Sistemas • Observações Emparelhadas Se n experimentos são

Procedimentos Estatísticos para Comparação de Dois Sistemas • Observações Emparelhadas Se n experimentos são realizados sobre dois sistemas, e existe uma relação um para um entre o i-ésimo teste do sistema A e o i-ésimo teste do sistema B, estas observações são ditas emparelhadas • Observações Não Emparelhadas Se não existir uma correspondência entre as amostras dos sistemas A e B, as observações são ditas não em parelhadas.

Observações Emparelhadas Seis medidas similares foram aplicas a dois sistemas, e obtemos: {(5. 4,

Observações Emparelhadas Seis medidas similares foram aplicas a dois sistemas, e obtemos: {(5. 4, 19. 1), (16. 6, 3. 5), (0. 6, 3. 4), (1. 4, 2. 5), (0. 6, 3. 6), (7. 3, 1. 7)} Um Sistema é melhor do que o outro? A diferença de rendimento constitui ma amostragem das seis observações: {-13. 7, 13. 1, -2. 8, -1. 1, -3. 0, 5. 6} X = -0. 32; s = 9. 03; IC(90%) = -0. 32 t 0. 95 (3. 69), t 0. 95 = 2. 015 IC(90%) = (-7. 75, 7. 11) O intervalo de Confiança incluí o zero, desta forma os dois sistemas não são diferentes!

Observações Não Emparelhadas É necessário realizar uma estimativa da variância e dos graus de

Observações Não Emparelhadas É necessário realizar uma estimativa da variância e dos graus de liberdade: Receita: Procedimento teste-t 1) Calcular as médias

Observações Não Emparelhadas 2) Calcular os Desvios Padrões:

Observações Não Emparelhadas 2) Calcular os Desvios Padrões:

Observações Não Emparelhadas 3) Calcula a diferença das médias: 4) Calcular o desvio padrão

Observações Não Emparelhadas 3) Calcula a diferença das médias: 4) Calcular o desvio padrão da diferença das médias:

Observações Não Emparelhadas 5) Calcular o número efetivo de graus de liberdade:

Observações Não Emparelhadas 5) Calcular o número efetivo de graus de liberdade:

Observações Não Emparelhadas 6) Calcule o intervalo de confiança para a diferença das médias:

Observações Não Emparelhadas 6) Calcule o intervalo de confiança para a diferença das médias: 7) Se o intervalo de confiança incluir o zero, a diferença é não significativa em um nível de confiança de 100(1 - )%. Se o intervalo de confiança não incluir o zero, então o sinal da diferença das médias indicará qual sistema é o melhor!

Exemplo – Observações não Emparelhadas O tempo de processador requerido para executar uma tarefa

Exemplo – Observações não Emparelhadas O tempo de processador requerido para executar uma tarefa foi medido em dois sistemas: Sistema A: {5. 36, 16. 57, 0. 62, 1. 41, 0. 64, 7. 26} Sistema B: {19. 12, 3. 52, 3. 38, 2. 50, 3. 60, 1. 74} Sistema A: Sistema B: Média xa = 5. 31 Média xb = 5. 64 Variância sa 2 = 37. 92 Variância sa 2 = 44. 11 na = 6 nb = 6

Exemplo – Observações não Emparelhadas Diferença das médias: xa – xb = -0. 33

Exemplo – Observações não Emparelhadas Diferença das médias: xa – xb = -0. 33 Desvio Padrão para diferença das médias: s =3. 698 Número efetivo de graus de liberdade: = 11. 921 t[0. 95; 12] = 1. 71 Intervalo de confiança = (-6. 92, 6. 26) O intervalo de confiança inclui o zero! Assim sobre este nível de confiança os sistemas são iguais!

Teste Visual 1) Os CI’s não se sobrepõem, o sistema vermelho é melhor. 2)

Teste Visual 1) Os CI’s não se sobrepõem, o sistema vermelho é melhor. 2) Os CI’s se sobrepõem e as médias estão dentro do CI do sistema oposto. Os sistemas são iguais! 3) 3) Os CI’s se sobrepõem, mas as médias não estão dentro do CI do sistema oposto. É necessário o procedimento do teste-t!

Intervalo de Confiança Unilateral Se desejarmos comparar uma grandeza x com um determinado valor,

Intervalo de Confiança Unilateral Se desejarmos comparar uma grandeza x com um determinado valor, para sabermos, por exemplo, se ela é maior que este valor. Só necessitamos de um lado do intervalo de confiança. Assim, pode-se definir:

Exemplo – IC Unilateral O tempo de resposta a um estimulo foi medido para

Exemplo – IC Unilateral O tempo de resposta a um estimulo foi medido para um sistema A e um sistema B. Sistema No de medidas Média Desv. Padrão A 972 124. 10 198. 20 B 153 141. 47 226. 11 Procedimento Teste-t: s = 19. 35 = 191. 05 ( > 30) IC = (-17. 37, -17. 37+1. 28*19. 35) = (-17. 37, 7. 402) z 0. 90=1. 28

Intervalos de Confiança para Proporções Estatística de Dados Categóricos – Probabilidades associada às Categorias.

Intervalos de Confiança para Proporções Estatística de Dados Categóricos – Probabilidades associada às Categorias. Tais probabilidade são chamadas de proporções! Dado que n 1 das n observação são do tipo 1, o IC para a proporção é dado por:

Exemplo - Proporções Um experimento foi repetido 4 vezes em dois sistemas. O sistema

Exemplo - Proporções Um experimento foi repetido 4 vezes em dois sistemas. O sistema A foi superior Ao sistema B em 26 repetições. O sistema A é superior com uma confiança de 99%? P = 26/40 = 0. 65; s = 0. 075 ; z 0. 995 = 2. 576 O que dá um IC = 0. 62 (2. 576)(0. 075) = (0. 46, 0. 84) Como o ponto 0. 5 pertence ao IC não pode-se afirmar que o Sistema A é superior ao Sistema B com 99% de certeza!

Determinação do Tamanho das Amostras • Tamanho da amostra para determinação da média: Se

Determinação do Tamanho das Amostras • Tamanho da amostra para determinação da média: Se queremos um precisão de r% e um IC de 100(1 - )% • Tamanho da amostra para determinação de proporções: Se queremos um precisão de r% e um IC de 100(1 - )%

Determinação do Tamanho das Amostras • Tamanho da amostra para IC’s que não se

Determinação do Tamanho das Amostras • Tamanho da amostra para IC’s que não se sobrepõem: