QQ plots Construdos a partir das distribuies marginais
Q-Q plots � Construídos a partir das distribuições marginais de cada componente do vetor p-variado. � São de fato um gráfico do quantil amostral versus quantil esperado sob normalidade (podem ser usados para validar outras distribuições diferentes da normal). � Quando a configuração de pontos no gráfico se aproxima de uma reta, a suposição de normalidade é sustentável. � A normalidade é suspeita se houver pontos que se desviam do comportamento linear. � A forma como os pontos se desviam do comportamento linear pode fornecer pistas sobre a natureza da não normalidade das observações. � Conhecida a razão da não normalidade dos dados, ações corretivas podem ser tomadas (transformações visando normalizar os dados ou uso de técnicas para dados não normais).
PASSOS NA CONSTRUÇÃO DO Q-Q plot �Ordenar os n valores da j-ésima componente do vetor aleatório. Seja as observações ordenadas. Os ‘s são os quantis amostrais (i=1, 2, . . . , n). �Quando todos os quantis amostrais são distintos entre si, então exatamente i observações são menores ou iguais a. �A proporção i/n da amostra à esquerda de x(i) é frequentemente aproximada para (i-0, 5)/n por conveniência analítica.
PASSOS NA CONSTRUÇÃO DO Q-Q plot �Para uma distribuição normal padrão, podemos obter os quantis q(i) tais que P(Z≤ q(i))=(i-0, 5)/n. �A idéia será olhar os pontos (q(i), x(i)) com a mesma probabilidade acumulada (i-0, 5)/n. �Se os dados, de fato, provêm de uma normal, os pares serão aproximadamente linearmente relacionados, pois o quantil esperado sob normalidade é aproximadamente σ q(i)+μ, com σ representando o desvio-padrão e μ a média da distribuição.
Usando o R para a construção do Q-Q plot �No R temos a função ppoints(n, 0. 5) que gera o vetor de valores (i-0, 5)/n, para i variando de 1 a n. �Para gerar os quantis esperados sob normalidade usaremos a função qnorm(p), que retorna o quantil cuja probabilidade acumulada é p. (Quando não especificamos nada além de p, o R retorna quantis da N(0, 1)). �A função usada para ordenar um vetor de números no R é a função sort(x).
Avaliação da normalidade das distribuições marginais �Uma medida quantitativa para auxiliar na avaliação do Q-Q plot é calcular a correlação r. Q entre os quantis esperados e o vetor observado ordenado. �A hipótese de normalidade é rejeitada ao nível de significância α se r. Q obtido for menor que um valor apropriado. �Por exemplo, ao nível de significância de 5% amostras de tamanho 50, a hipótese deve ser rejeitada se r. Q for inferiro a 0, 9768.
Transformações de normalização �Se a suposição de normalidade dos dados não é plausível, que estratégia adotar? � 1) Usar técnicas estatísticas apropriadas para dados nãonormais, após verificar a distribuição plausível para os dados (Poisson, Gamma, etc. ) � 2) Transformar os dados para uma nova escala, sob a qual a suposição de normalidade é plausível. �Aqui, somente trataremos da transformação, pois técnicas a serem estudadas a seguir são voltadas para dados normais.
Transformações úteis Escala original Escala transformada Contagens (y) Proporções ( Correlações (r) Fisher
Transformações de normalização �Em muitas situações a escolha para melhorar a aproximação normal não é óbvia. Para tais casos é conveniente deixar que os dados mostrem uma transformação. Uma família útil de transformações para esse propósito é a família de transformações de potências : xλ. �As transformações de potência só estão definidas para variáveis positivas. Porém, isso não é tão restritivo quanto parece, porque uma única constante pode ser adicionada a cada observação no conjunto de dados se alguns dos valores observados forem negativos.
Transformações de normalização �Box e Cox consideraram a seguinte família de transformações de potência modificada: que é contínua em λ para x>0. Dada a amostra, escolhe-se λ de modo a maximizar:
Transformações de normalização �Observação: A transformação obtida geralmente melhora a aproximação à normalidade. �Porém, não há garantias de que mesmo a melhor escolha de λ produzirá um conjunto de dados transformados que seja adequado à suposição de normalidade. �Os resultados obtidos por uma transformação selecionada de acordo com esse procedimento devem ser cuidadosamente examinados para possíveis violações da suposição de normalidade. �Essa recomendação de fato vale para qualquer transformação usada.
- Slides: 10