Probabilidade e Estatstica Aplicadas Contabilidade I Prof Dr
Probabilidade e Estatística Aplicadas à Contabilidade I Prof. Dr. Marcelo Botelho da Costa Moraes mbotelho@usp. br www. marcelobotelho. com 1
Estatística Descritiva: Medidas Numéricas Capítulo 3 Parte B 2
Estatística Descritiva: Medidas Numéricas – Parte B • Medidas da Forma da Distribuição, da Posição Relativa e Detecção de Pontos Fora da Curva (outliers) • Análise Exploratória de Dados • Medidas de Associação entre Duas Variáveis • Média Ponderada e Trabalho com Dados Agrupados 3
Medidas da Forma da Distribuição, da Posição Relativa e Detecção de Pontos Fora da Curva • Formas de Distribuição • Escores-z • Teorema de Chebyshev • Regra Empírica • Detecção de Pontos Fora da Curva (outliers) 4
Forma de Distribuição: Assimetria • Uma medida numérica importante da forma de uma distribuição é a chamada assimetria • A fórmula para o cálculo da assimetria de um conjunto de dados é um pouco complexa • Assimetria pode ser facilmente calculada usando o softwares estatísticos 5
Forma de Distribuição: Assimetria • Moderadamente inclinado para a esquerda • Assimetria é negativa • A média tende a ser menor que a mediana Frequência Relativa 0, 35 Assimetria = -0, 31 0, 30 0, 25 0, 20 0, 15 0, 10 0, 05 0 6
Forma de Distribuição: Assimetria • Moderadamente inclinado para a direita • Assimetria é positiva • A média tende a ser maior que a mediana Frequência Relativa 0, 35 Assimetria = 0, 31 0, 30 0, 25 0, 20 0, 15 0, 10 0, 05 0 7
Forma de Distribuição: Assimetria • Simétrico • Assimetria é zero • Média e mediana são iguais Frequência Relativa 0, 35 Assimetria = 0 0, 30 0, 25 0, 20 0, 15 0, 10 0, 05 0 8
Forma de Distribuição: Assimetria • Fortemente inclinado para a direita • Assimetria é positiva (acima de 1, 0) • A média tende a ser maior que a mediana Frequência Relativa 0, 35 Assimetria = 1, 25 0, 30 0, 25 0, 20 0, 15 0, 10 0, 05 0 9
Forma de Distribuição: Assimetria • Exemplo: Aluguel de Apartamentos • Setenta apartamentos foram aleatoriamente amostrados em uma pequena cidade universitária • Os preços de aluguel para estes apartamentos estão listados em ordem crescente no próximo slide 10
Forma de Distribuição: Assimetria 425 440 450 465 480 510 575 430 440 450 470 485 515 575 430 440 450 470 490 525 580 435 445 450 472 490 525 590 435 445 450 475 490 525 600 435 445 460 475 500 535 600 435 445 460 475 500 549 600 435 445 460 480 500 550 600 440 450 465 480 500 570 615 440 450 465 480 510 570 615 11
Forma de Distribuição: Assimetria Frequência Relativa 0, 35 Assimetria = 0, 92 0, 30 0, 25 0, 20 0, 15 0, 10 0, 05 0 12
Escores-z • 13
Escores-z • Uma observação do escore-z é uma medida da posição relativa da observação de um conjunto de dados • Observações menores que a média da amostra terão um escore-z menor que zero • Observações maiores do que a média da amostra terão um escore-z maior que zero • Observações iguais à média da amostra terão um escore-z de zero 14
Escore-z do menor valor (425) Valores padronizados do aluguel de apartamentos -1, 20 -1, 11 -1, 02 -1, 02 -0, 93 -0, 93 -0, 84 -0, 84 -0, 75 -0, 75 -0, 56 -0, 47 -0, 38 -0, 34 -0, 29 -0, 20 -0, 11 -0, 01 0, 17 0, 35 0, 44 0, 62 0, 81 1, 06 1, 08 1, 45 1, 54 1, 63 1, 81 1, 99 2, 27 15
Teorema de Chebyshev • Pelo menos (1 – 1/z 2) dos valores de dados devem estar contidos em z desvios padrão da média, em que z é qualquer valor maior que 1 16
Teorema de Chebyshev • Pelo menos 75% dos valores de dados devem estar contidos em z = 2 desvios padrão da média • Pelo menos 89% dos valores de dados devem estar contidos em z = 3 desvios padrão da média • Pelo menos 94% dos valores de dados devem estar contidos em z = 4 desvios padrão da média 17
Teorema de Chebyshev • 18
Regra Empírica • Para dados que têm uma distribuição em forma de sino (Normal): • 68, 26% dos valores de uma variável aleatória normal estarão contidos em +/1 desvio padrão da média • 95, 44% dos valores de uma variável aleatória normal estarão contidos em +/2 desvios padrão da média • 99, 72% dos valores de uma variável aleatória normal estarão contidos em +/3 desvios padrão da média 19
Regra Empírica 99, 72% 95, 44% 68, 26% m – 3 s m – 1 s m – 2 s m m + 3 s m + 1 s m + 2 s x 20
Detecção de Pontos Fora da Curva • Um ponto fora da curva (outlier) é uma observação com valores muito pequenos ou excepcionalmente grandes em um conjunto de dados • Uma observação com valor com escore-z menor que -3 ou maior que +3 pode ser considerado um ponto fora da curva • Este pode ser • Um valor registrado incorretamente • Um valor que foi incorretamente incluído no conjunto de dados • Um valor corretamente registrado que pertence ao conjunto de dados 21
Detecção de Pontos Fora da Curva Os valores extremos do escore-z são -1, 20 e 2, 27 Valores padronizados do aluguel de apartamentos -1, 20 -1, 11 -1, 02 -1, 02 -0, 93 -0, 93 -0, 84 -0, 84 -0, 75 -0, 75 -0, 56 -0, 47 -0, 38 -0, 34 -0, 29 -0, 20 -0, 11 -0, 01 0, 17 0, 35 0, 44 0, 62 0, 81 1, 06 1, 08 1, 45 1, 54 1, 63 1, 81 1, 99 2, 27 22
Análise Exploratória de Dados • Regra de Cinco Itens • Desenhos Esquemáticos (Box Plots) 23
Regra de Cinco Itens • Cinco números utilizados para sintetizar os dados 1. Menor valor 2. Primeiro quartil (Q 1) 3. Mediana (Q 2) 4. Terceiro quartil (Q 3) 5. Maior Valor 24
Regra de Cinco Itens Menor Valor = 425 Primeiro Quartil = 445 Mediana = 475 Terceiro Quartil = 525 440 450 465 480 510 575 430 440 450 470 485 515 575 430 440 450 470 490 525 580 435 445 450 472 490 525 590 435 445 450 475 490 525 600 Maior Valor = 615 435 445 460 475 500 535 600 435 445 460 475 500 549 600 435 445 460 480 500 550 600 440 450 465 480 500 570 615 440 450 465 480 510 570 615 25
Desenhos Esquemáticos (Box Plots) • O retângulo é delimitado pelo primeiro e terceiro quartil • Uma linha vertical é desenhada no retângulo na localização da mediana (segundo quartil) 375 400 425 450 475 500 525 550 575 600 625 26 Q 1 = 445 Q 3 = 525 Q 2 = 475
Desenhos Esquemáticos (Box Plots) • Os limites são posicionados usando a amplitude interquartil (IQR) • Dados além desses limites são considerados outliers • A posição de cada outlier é indicada pelo símbolo * Continua. . . 27
Desenhos Esquemáticos (Box Plots) • O limite inferior é posicionado 1, 5(IQR) abaixo de Q 1 • Limite Inferior = Q 1 - 1, 5(IQR) = 475 – 1, 5(75) = 332, 50 • O limite superior é posicionado 1, 5(IQR) acima de Q 3 • Limite Superior = Q 3 + 1, 5(IQR) = 525 + 1, 5(75) = 637, 50 • Não existem outliers (valores abaixo de 332, 50 ou acima de 637, 50) nos dados de aluguéis de apartamentos 28
Desenhos Esquemáticos (Box Plots) Limite Inferior 375 400 425 Limite Superior 450 475 Menor valor dentro do limite= 425 500 525 550 575 600 625 Maior valor dentro do limite= 615 29
Medidas de Associação entre Duas Variáveis • Covariância • Coeficiente de Correlação 30
Covariância • Covariância é uma medida descritiva de associação linear entre duas variáveis • Valores positivos indicam um relacionamento positivo • Valores negativos indicam um relacionamento negativo 31
Covariância • A covariância é calculada da seguinte forma Para Amostra Para População 32
Coeficiente de Correlação • Coeficiente de correlação momentoproduto de Pearson • O coeficiente de correlação varia de -1 a +1 • Valores próximos a -1 indicam forte relação linear negativa • Valores próximos a +1 indicam forte relação linear positiva • Quanto mais próxima a correlação estiver de zero, mais fraca será a relação 33
Coeficiente de Correlação • O coeficiente de correlação é calculado da seguinte forma Para Amostra Para População 34
Coeficiente de Correlação • Correlação é uma medida linear de associação e não necessariamente de causalidade • Só porque duas variáveis são altamente correlacionadas, isso não significa que uma variável causa a outra 35
Covariância e Coeficiente de Correlação • Um golfista está interessado em investigar a relação, se houver, entre o raio de distância e a pontuação nos 18 buracos Distância Média (yds. ) 277, 6 259, 5 269, 1 267, 0 255, 6 272, 9 Média de Pontos 18 -Buracos 69 71 70 70 71 69 36
Covariância e Coeficiente de Correlação x 277, 6 259, 5 269, 1 267, 0 255, 6 272, 9 y 69 71 70 70 71 69 Média 267, 0 70, 0 Desv. Pad. 8, 2192 0, 8944 10, 65 -7, 45 2, 15 0, 05 -11, 35 5, 95 -1, 0 0 0 1, 0 -10, 65 -7, 45 0 0 -11, 35 -5, 95 Total -35, 40 37
Covariância e Coeficiente de Correlação • Covariância da Amostra • Coeficiente de Correlação da Amostra 38
Média Ponderada e Trabalho com Dados Agrupados • Média Ponderada • Média para Dados Agrupados • Variância para Dados Agrupados • Desvio Padrão para Dados Agrupados 39
Média Ponderada • Média calculada dando-se a cada observação um peso que reflita sua importância, sendo chamada de média ponderada • O cálculo da média ponderada (USP) é um bom exemplo, ponderações com carga horária de cada disciplina • Quando as observações variam em termos de importância, o analista deve escolher o peso que reflita melhor a importância de cada observação na determinação da média 40
Média Ponderada • 41
Dados Agrupados • O cálculo da média ponderada pode ser usado para obter aproximações da média, variância, e desvio padrão para os dados agrupados • Para calcular a média ponderada, tratamos o ponto médio de cada classe como se fosse a média de todos os itens da classe • Calculamos uma média ponderada dos pontos médios de classe usando as frequências de classe como pesos • Do mesmo modo, no cálculo da variância e do desvio padrão, as frequências de classe são usadas como pesos 42
Média para Dados Agrupados • 43
Média Amostral para Dados Agrupados • Exemplo anterior dos aluguéis mensais para 70 apartamentos, aqui apresentados como dados agrupados na forma de uma distribuição de frequência Aluguel ($) Frequência 420 -439 8 440 -459 17 460 -479 12 480 -499 8 500 -519 7 520 -539 4 540 -559 2 560 -579 4 580 -599 2 600 -619 6 44
Média Amostral para Dados Agrupados Aluguel ($) 420 -439 440 -459 460 -479 480 -499 500 -519 520 -539 540 -559 560 -579 580 -599 600 -619 Total fi Mi fi M i 8 429, 5 3436, 0 17 449, 5 7641, 5 12 469, 5 5634, 0 8 489, 5 3916, 0 7 509, 5 3566, 5 4 529, 5 2118, 0 2 549, 5 1099, 0 4 569, 5 2278, 0 2 589, 5 1179, 0 6 609, 5 3657, 0 70 34525, 0 Essa aproximação se difere em $2, 41 da atual média amostral de $490, 80 45
Variância para Dados Agrupados • Dados Amostrais • Dados Populacionais 46
Variância Amostral para Dados Agrupados Aluguel ($) 420 -439 440 -459 460 -479 480 -499 500 -519 520 -539 540 -559 560 -579 580 -599 600 -619 Total fi 8 17 12 8 7 4 2 6 70 Mi 429, 5 449, 5 469, 5 489, 5 509, 5 529, 5 549, 5 569, 5 589, 5 609, 5 Mi - x (Mi - x)2 fi(Mi - x)2 -63, 7 4058, 96 32471, 71 -43, 7 1910, 56 32479, 59 -23, 7 562, 16 6745, 97 -3, 7 13, 76 110, 11 16, 3 265, 36 1857, 55 36, 3 1316, 96 5267, 86 56, 3 3168, 56 6337, 13 76, 3 5820, 16 23280, 66 96, 3 9271, 76 18543, 53 116, 3 13523, 36 81140, 18 208234, 29 Continua. . . 47
Variância Amostral para Dados Agrupados • Variância Amostral • Desvio Padrão Amostral Essa aproximação difere em apenas $0, 20 do atual desvio padrão de $54, 74 48
Exercícios Capítulo 3 • Exercícios: 1, 2, 7, 8, 12, 13, 14, 18, 24, 25, 26, 30, 32, 33, 36, 40, 44, 45, 48, 50, 52, 55 49
Obrigado pela Atenção!!! Lista de Exercícios do Capítulo 3 Prof. Dr. Marcelo Botelho da Costa Moraes mbotelho@usp. br www. marcelobotelho. com 50
- Slides: 50