Mtodos Estatsticos Aplicados s Cincias Biolgicas 7 aula

Métodos Estatísticos Aplicados às Ciências Biológicas - 7ª aula -

Motivação Arumalla et al. , 2012

Estimação Inferência Testes de hipótese

Em uma pesquisa eleitoral, considere o candidato “A” Denomine por a proporção de pessoas que votarão em “A” na eleição. Denomine por p a proporção de pessoas no levantamento de opinião (amostra) que expressam intenção de voto em “A”.

População: todas as pessoas aptas a votar Amostra: eleitores que participaram da pesquisa eleitoral : característica de interesse da população (parâmetro) p: correspondente característica na amostra (estatística ou estimador)

Este é um problema de estimação Na apresentação dos resultados é fornecida uma medida de incerteza: margem de erro Observação: Neste exemplo, no dia da eleição, será conhecido. Porém, isto não ocorre em outras aplicações, de uma forma geral.

Exemplo 1 Um fabricante de próteses afirma que seu processo de fabricação produz 90% de peças dentro das especificações. O IPEM deseja investigar se este processo de fabricação ainda está sob controle. Foi selecionada uma amostra aleatória de 100 itens e observada a proporção itens satisfatórios

Exemplo 2 - Um fabricante de cigarros afirma que seus cigarros contêm, em média, não mais que 30 mg de nicotina. Uma ONG anti-tabagismo não concorda com essa afirmação, e colhe uma amostra aleatória de 81 cigarros dessa marca para contestar a afirmação

Hipótese estatística: afirmação sobre um parâmetro da população Os parâmetros e valores especificados nas hipóteses nula e alternativa dependem do objetivo e características o estudo

No exemplo 1: Parâmetro de interesse: proporção de itens dentro das especificações na população ( ) Hipóteses H 0: =0, 90 H 1: <0, 90 hipótese nula hipótese alternativa

Parâmetro de interesse: média da quantidade de nicotina em um cigarro Hipóteses: H 0: = 30 H 1: > 30 onde é a média de nicotina / cigarro hipótese nula hipótese alternativa

Dois tipos de erros podem ser cometidos: Erro de tipo I: rejeitar H 0 quando H 0 é verdadeira Erro de tipo II: não rejeitar H 0 quando H 0 é falsa P(erro de tipo I) = P(erro de tipo II) = : nível de significância do teste Em um teste de hipótese, é fixado

Para testar uma hipótese: • fixamos o nível de significância . Em geral =0, 05 • consideramos uma amostra da população em estudo • calculamos o valor da estatística de teste apropriada • rejeitamos ou não a hipótese H 0 O conjunto de valores que levam à rejeição de H 0 é denominado região crítica ou região de rejeição

Os conceitos sobre testes de hipótese apresentados são gerais, e são válidos para testes sobre diferentes parâmetros. Nesta aula vamos nos concentrar, de uma forma geral, em testes sobre as médias de variáveis com distribuição normal

Teste sobre a média de uma população (1 amostra) Suponha que X seja uma variável aleatória com distribuição N ( , 2) Hipóteses: H 0: = 0 H 1: 0 0: valor padrão de interesse

Procedimento: • A partir de uma amostra de tamanho n, calcular a média amostral e o desvio padrão amostral s; • Calcular o valor da estatística de teste: Se H 0 é verdadeira, então t 0 tem distribuição t-Student com n-1 graus de liberdade

T 1 T 5 T 30 Z

• Rejeitar H 0 se ou seja, se t 0 pertence à região crítica do teste Para hipóteses alternativas unilaterais: • H 1: < 0 Rejeitar H 0 se • H 1: > 0 Rejeitar H 0 se

Um procedimento alternativo seria, ao invés de verificar se o valor da estatística (t 0) pertence à região crítica, calcular do nível descritivo do teste (p-valor) p-valor: probabilidade de que a estatística do teste assuma um valor pelo menos tão extremo como o observado na amostra, quando H 0 é verdadeira

Se p< , H 0 é rejeitada Cálculo do p-valor H 0: = 0 H 1: 0 H 0: = 0 H 1: < 0 H 0: = 0 H 1: > 0 p= 2 x P(T >| t 0|) p= P(T < t 0) p=P(T>t 0) onde T tem distribuição t com n-1 graus de liberdade

Exemplo 2: Um fabricante de cigarros afirma que seus cigarros contêm, em média, não mais que 30 mg de nicotina. Uma ONG anti-tabagismo não concorda com essa afirmação, e colhe uma amostra aleatória de 81 cigarros dessa marca para contestar a afirmação

Na amostra coletada, o conteúdo médio de nicotina foi 31, 1 mg e desvio padrão de 3, 7 mg. Esses resultados são suficientes para contestar a afirmação do fabricante? As hipóteses apropriadas são H 0: =30 mg H 1: >30 mg

Excel: INVT Como t 0 >1, 66, H 0 é rejeitada Logo, ao nível de 5%, há evidências suficiente para concluir que a afirmação do fabricante está incorreta, ou seja, a contestação da ONG procede.

Cálculo do p-valor Excel: DISTT p=0, 004

Como verificar a suposição de normalidade? Gráfico quantil-quantil

Comparação das médias de duas populações Quando temos mais de um grupo de observações é importante verificarmos se os dados são pareados ou se as amostras são independentes Observações pareadas: • o mesmo indivíduo é observado em mais de uma vez • indivíduos diferentes pareados segundo outra variável (idade, por exemplo)

Comparação de duas médias: amostras pareadas Estamos interessados na média das diferenças das observações individuais A vantagem do planejamento com pareamento é que na análise dos dados é considerada a variabilidade intra-indivíduos

Representação dos dados variável de interesse

A análise se reduz ao problema de uma amostra, na qual a variável a ser analisada é a diferença. A hipótese apropriada é H 0: d=0 H 1: d≠ 0 Pode ser unilateral, dependendo do objetivo do estudo onde d é a média da diferença na população

Exemplo (Fisher e van Belle, 1993)

Perfis individuais do Nº apnéias/ hora

Média da diferença = = 0, 77 Desvio padrão da diferença = S = 0, 52 Estatística de teste p<0, 001 Intervalo de confiança de 95% para a média da diferença : [0, 45 ; 1, 08]

Comparação de duas médias: amostras independentes O objetivo é comparar as médias de uma variável em duas populações, com base em duas amostras independentes

N( 1, 2) amostra 1: x 11, x 12, . . . , x 1 n 1 N( 2, 2) amostra 2: x 21, x 22, . . . , x 2 n 2

Hipóteses: H 0 : 1 = 2 H 1 : 1 2 Dependendo do objetivo do estudo a hipótese alternativa pode ser: H 1 : 1 < 2 ou H 1 : 1 > 2

Estatística para o teste onde são as médias das amostras 1 e 2, respectivamente , s 12 e s 22 são as variâncias das amostras 1 e 2, respectivamente Variância amostral combinada

Sob H 0, t 0 tem distribuição t-Student com n 1+n 2 -2 graus de liberdade Para decidir pela rejeição ou não de H 0: • verificar se t 0 pertence à região crítica ou • calcular o p-valor

• Rejeitar H 0 se ou seja, se t 0 pertence à região crítica do teste Para hipóteses alternativas unilaterais: • H 1: 1< 2 Rejeitar H 0 se • H 1: 1> 2 Rejeitar H 0 se

Cálculo do p-valor H 0: 1= 2 H 1: 1 2 H 0: 1= 2 H 1: 1< 2 H 0: 1= 2 H 1: 1> 2 p= 2 x P(T >| t 0|) p= P(T < t 0) p=P(T>t 0) onde T tem distribuição t com n 1+n 2 -2 graus de liberdade

Exemplo Em um estudo realizado para avaliar o efeito do tabagismo nos padrões de sono foram considerados dois grupos de indivíduos: Fumantes e Não fumantes. A variável observada foi o tempo, em minutos, que se leva para dormir.

Resumo dos dados

Gráfico de probabilidade normal (equivalente ao gráfico quantil-quantil)

Hipóteses: H 0 : 1 = 2 H 1 : 1 2 = 0, 05 (fixado) s= 6, 14 n 1=n 2=27 n 1+n 2 -2=25

0, 05 1, 71 ou: p<0, 001

Portanto, o tempo médio no grupo dos fumantes é maior que nos não fumantes E se tivéssemos 3 grupos