Duas variveis qualitativas A partir da leitura de

  • Slides: 28
Download presentation
Duas variáveis qualitativas A partir da leitura de um conjunto de dados brutos (individualizados),

Duas variáveis qualitativas A partir da leitura de um conjunto de dados brutos (individualizados), veremos como obter a tabela de dupla entrada de duas variáveis qualitativas (também conhecida como tabela de contingência), usando o R; calcular o valor do qui-quadrado da tabela resultante usando o R; avaliar a magnitude do valor do qui-quadrado usando o R; interpretar possível associação entre duas variáveis qualitativas; construir gráficos para representar os perfis que podem ser construídos a partir da tabela de contingência.

Medida de associação: duas variáveis qualitativas • • Se as duas variáveis em estudo

Medida de associação: duas variáveis qualitativas • • Se as duas variáveis em estudo são independentes, espera-se que os perfis-linha (ou coluna) sejam iguais ao perfil-linha (coluna) de totais. Perfil-linha: frequências relativas em relação ao total de cada linha. Perfil-coluna: frequências relativas em relação ao total de cada coluna. A partir dessa ideia, podemos construir uma medida de associação entre duas variáveis qualitativas, conhecida como qui-quadrado.

Tabela de dupla entrada ou tabela de contingência Notação X Y r 1 r

Tabela de dupla entrada ou tabela de contingência Notação X Y r 1 r 2 . . . rc total L 1 n 12 . . . n 1 c n 1. L 2 n 21 n 22 . . . n 2 c n 2. . . . . Ll nl 1 nl 2 . . . nlc nl. total n. 1 n. 2 . . . n. c n nij – representa a frequência observada da i-ésima linha e j-ésima coluna ni. – representa o total da i-ésima linha, i=1, 2, . . . , l n. j – representa o total da j-ésima coluna, j=1, 2, . . . , c n – representa o total observado e pode ser obtido pela soma dos nij’s ou a soma dos ni. ou a soma dos n. j

Exemplo: Suponha a seguinte tabela de contingência Ao examinar 400 registros de estudantes de

Exemplo: Suponha a seguinte tabela de contingência Ao examinar 400 registros de estudantes de certa Instituição distribuídos pelos cursos de Estatística e Engenharia, obteve-se: sexo Curso 1 Estatística Curso 2 Engenharia total Homens 40 200 240 Mulheres 60 100 160 total 100 300 400

Curso versus sexo ¡ Se sexo e matrículas nos cursos de Engenharia e Estatística

Curso versus sexo ¡ Se sexo e matrículas nos cursos de Engenharia e Estatística fossem independentes, esperaria-se ter os seguintes perfis-coluna: sexo Curso 1 Estatística Curso 2 Engenharia total Homens 60% 60% Mulheres 40% 40% total 100%

Valores esperados sob independência ¡ Como são 100 alunos em Estatística e 300 alunos

Valores esperados sob independência ¡ Como são 100 alunos em Estatística e 300 alunos em Engenharia, (240 do sexo masculino e 160 do sexo feminino) esperaria-se, em caso de independência, ter a seguinte tabela de contingência: sexo Curso 1 Estatística Curso 2 Engenharia total Homens 60 180 240 Mulheres 40 120 160 total 100 300 400

Tabela com as freqüências observadas: sexo Curso 1 Estatística Curso 2 Engenharia total Homens

Tabela com as freqüências observadas: sexo Curso 1 Estatística Curso 2 Engenharia total Homens 40 200 240 Mulheres 60 100 160 total 100 300 400 Tabela com as frequências esperadas no caso de independência: sexo Curso 1 Estatística Curso 2 Engenharia total Homens 60 180 240 Mulheres 40 120 160 total 100 300 400

Qui-quadrado ¡ ¡ O qui-quadrado é uma medida que baseia-se na comparação entre os

Qui-quadrado ¡ ¡ O qui-quadrado é uma medida que baseia-se na comparação entre os valores observados, que aqui denotaremos por oij e os valores esperados que denotaremos por eij. Para cada cela da tabela de contingência calculamos

Tabela com as freqüências observadas: sexo Curso 1 Estatística Curso 2 Engenharia total Homens

Tabela com as freqüências observadas: sexo Curso 1 Estatística Curso 2 Engenharia total Homens 40 200 240 Mulheres 60 100 160 total 100 300 400 Tabela com as freqüências esperadas no caso de não associação: sexo Curso 1 Estatística Curso 2 Engenharia total Homens 60 180 240 Mulheres 40 120 160 total 100 300 400

Qui-quadrado ¡ O qui-quadrado é, então, em que l representa o número de categorias

Qui-quadrado ¡ O qui-quadrado é, então, em que l representa o número de categorias de resposta da primeira variável e c, representa o número de categorias de resposta da segunda variável.

Cálculo do qui-quadrado do exemplo dos estudantes de Estatística e Engenharia

Cálculo do qui-quadrado do exemplo dos estudantes de Estatística e Engenharia

Cálculo do Qui-quadrado usando o R ¡ ¡ ¡ Há no R, uma função

Cálculo do Qui-quadrado usando o R ¡ ¡ ¡ Há no R, uma função específica que calcula o qui-quadrado de uma tabela de contingência. Interpretação: se a hipótese de independência das duas variáveis for verdadeira, o valor do qui-quadrado deve estar próximo de zero. Quanto maior for o valor do qui-quadrado, mais forte é a associação entre as variáveis.

Cálculo do qui-quadrado usando o R ¡ ¡ ¡ ¡ dados=read. table(“d: \profmat\cursogenero. txt”,

Cálculo do qui-quadrado usando o R ¡ ¡ ¡ ¡ dados=read. table(“d: \profmat\cursogenero. txt”, header=T) O comando table(dados) retornará a tabela de contingência. curso genero engenharia estatistica homem 200 40 mulher 100 60 A função que retorna o valor do qui-quadrado é a função chisq. test com o argumento correct=T.

Cálculo do Qui-quadrado usando o R ¡ Qui=chisq. test(x, correct=F) Pearson's Chi-squared test data:

Cálculo do Qui-quadrado usando o R ¡ Qui=chisq. test(x, correct=F) Pearson's Chi-squared test data: x X-squared = 22. 2222 (qui-quadrado), df = 1, (graus de liberdade) p-value = 2. 428 e-06 (P-valor) Notação científica para 0, 000002428 Pode ser usado como uma medida de avaliação da magnitude do qui-quadrado: p-value<=0, 05, indica que o valor de qui-quadrado é grande, sugerindo presença de associação entre as variáveis.

Comentários do exemplo ¡ ¡ De acordo com o slide anterior, verifica-se que o

Comentários do exemplo ¡ ¡ De acordo com o slide anterior, verifica-se que o Qui-quadrado obtido é muito alto, o que indica a presença de associação entre curso e sexo. Pela análise das tabelas verificamos que essa associação ocorre de tal modo que no curso de Estatística a maioria (60%) dos estudantes tende a ser do sexo feminino enquanto no curso de Engenharia, a maioria (67%) tende a ser do sexo masculino.

Medida derivada do qui-quadrado ¡ Pearson definiu uma medida de associação, baseada no qui-quadrado,

Medida derivada do qui-quadrado ¡ Pearson definiu uma medida de associação, baseada no qui-quadrado, chamada coeficiente de contingência, dado por em que n é o tamanho da amostra.

Medida derivadas do qui-quadrado ¡ ¡ O coeficiente de contingência, apesar de estar entre

Medida derivadas do qui-quadrado ¡ ¡ O coeficiente de contingência, apesar de estar entre 0 e 1 nunca atinge o valor 1. O valor máximo de C depende de l (número de categorias de resposta da primeira variável), de c (número de categorias de resposta da segunda variável) e de n, o tamanho da amostra.

Coeficiente de contingência para os dados do exemplo qui=22. 22222 ¡ CP=sqrt(qui/(qui+400)) ¡ ¡

Coeficiente de contingência para os dados do exemplo qui=22. 22222 ¡ CP=sqrt(qui/(qui+400)) ¡ ¡ A função que retorna a raiz quadrada é sqrt. ¡ round(CP, digits=2) ¡ Arredonda o valor para duas casas decimais. [1] 0. 23 ¡ Indica associação. Lembre que nesse caso, o valor máximo do coeficiente é menor do que 1. ¡

Gráfico ilustrando os dados do exemplo 1 Podemos construir um gráfico para ilustrar essa

Gráfico ilustrando os dados do exemplo 1 Podemos construir um gráfico para ilustrar essa comparação. ¡ Se pedirmos um barplot da tabela de contingência, ele ficará distorcido, pois os totais observados em cada curso são diferentes: 300 alunos na Engenharia e 100 alunos na Estatística. ¡ Experimente pedir barplot(table(dados)) ¡

Essa figura não tem utilidade para fins de comparação. O correto é trabalhar com

Essa figura não tem utilidade para fins de comparação. O correto é trabalhar com as frequências relativas de gênero por curso.

No curso de Estatística a maioria (60%) dos estudantes é do sexo feminino. Na

No curso de Estatística a maioria (60%) dos estudantes é do sexo feminino. Na Engenharia, a maioria (67%) é do sexo masculino.

Exemplo 2: ¡ Os dados da tabela a seguir fornecem resultados de uma pesquisa

Exemplo 2: ¡ Os dados da tabela a seguir fornecem resultados de uma pesquisa social de renda e satisfação no trabalho nos Estados Unidos (Agresti, 1990, p. 21) e foram retirados do livro: Lindsey, J. K. (1994) Introductory Statistics: A Modelling Approach. Oxford Sience Publications.

Exemplo 2: Renda ($) /satisfação Muito insatisfeito Pouco insatisfeito Moderadament e satisfeito total Muito

Exemplo 2: Renda ($) /satisfação Muito insatisfeito Pouco insatisfeito Moderadament e satisfeito total Muito satisfeito Até 6000 20 24 80 82 206 De 6000 a 14999 22 38 104 125 289 De 15000 a 24999 13 28 81 113 235 7 18 54 92 171 62 108 319 412 901 Maior ou igual a 25000 total Baseando-se nesses nados, você diria que existe associação entre renda e satisfação com o trabalho?

O p-valor dado por 0, 214, não é menor ou igual a 0, 05.

O p-valor dado por 0, 214, não é menor ou igual a 0, 05. Logo, esses dados não trazem evidência contra a hipótese de independência. Vejamos uma ilustração gráfica desses dados para corroborar com essa conclusão.

Exemplo 2: Renda e satisfação com o trabalho ¡ ¡ Pelos gráficos é possível

Exemplo 2: Renda e satisfação com o trabalho ¡ ¡ Pelos gráficos é possível perceber que não há associação entre renda e satisfação com o trabalho nessa pesquisa. Em qualquer das faixas de renda a resposta modal é “Pouco Insatisfeito”. Também em todas as faixas de renda, a frequência cresceu da resposta muito insatisfeito para pouco insatisfeito (resposta modal) e depois decresceu para moderadamente satisfeito e muito satisfeito nessa ordem. Apenas na maior faixa salarial a frequência da resposta muito satisfeito superou a frequência da resposta muito insatisfeito.

Função do R para calcular o qui-quadrado ¡ chisq. test(dados, correct=F)

Função do R para calcular o qui-quadrado ¡ chisq. test(dados, correct=F)