UNIVERSIDADE DE SO PAULO INTRODUO BIOESTATSTICA Amaury Llis
UNIVERSIDADE DE SÃO PAULO INTRODUÇÃO À BIOESTATÍSTICA Amaury Lélis Dal Fabbro - 2020 - 1
Variáveis ü Variáveis qualitativas – categorias mutuamente exclusivas. Ex: sexo M e F ü Variável ordinal – tem ordenação. Ex: “scores” de depressão ü Variável quantitativa contínua – expressa quantidades que podem ser medidas. Ex: peso ü Variável quantitativa discreta – expressa quantidades que podem ser obtidas por contagem. Ex: nº de filhos 2
População e amostra População é o conjunto de elementos que têm em comum uma determinada característica; pode ser finita e infinita obtida por recenseamento Amostra é todo sub-conjunto, não vazio, com menor número de elementos, da população obtida por amostragem 3
Amostragem População amostragem Amostra Parâmetros populacionais (P) Estimadores (p) inferência 4
Técnicas de amostragem ü Amostra casual simples – é composta por elementos retirados ao acaso da população por um processo aleatório. É necessário uma lista de todos os elementos da população – amostra probabilística ü Amostra sistemática – os elementos são escolhidos por um sistema, uma lista ordenada de elementos da população. Calcula-se o intervalo amostral (k=N/n) e o início casual (i) 5
Técnicas de Amostragem ü Amostra estratificada – é composta por elementos de todos os estratos da população (sexo por ex. ). A amostra deverá ter a mesma composição proporcional dos estratos da população ü Amostra por conglomerados – conglomerados são agrupamentos de elementos da população (casas em uma quadra por ex. ). Sorteia-se primeiro o conglomerado e depois os elementos que os compõe. Há uma erro implícito chamado erro do desenho. ü Amostra de conveniência – formada por elementos que o pesquisador dispõe. Há restrições pelo fato de não serem probabilísticas. 6
Apresentação de dados em tabelas Casos registrados de intoxicação humana, segundo a causa determinante. Brasil, 1993 ______________ Causa Freqüência ______________ Acidente 29. 601 Suicídio 7. 965 Profissional 3. 735 ______________ Fonte: Vieira, 1980 7
Tabela de distribuição de freqüências Casos registrados de intoxicação humana, segundo a causa determinante. Brasil, 1993 Causa Freqüência % Acidente 29. 601 71, 7 Suicídio 7. 965 19, 3 Profissional 3. 735 9, 0 Total 41. 301 100, 0 8
Tabela de contingência 2 X 2 Recém-nascidos segundo a época do ataque de rubéola na gestante e a condição de normal e defeituoso Época do ataque Até 3º mês Normal Defeituoso Total 36 14 50 Após 3º mês 51 3 54 Total 87 17 104 Fonte: Hill (1958) 9
Histograma Pressão arterial e risco cardiovascular 10
Diagrama de barras Impacto das doenças cardiovasculares na morbimortalidade no Brasil, 1998. 30% 25% 20% 15% 10% 5% 0% Internações AIH - MS Aposentadorias Invalidez - INSS Mortalidade Proporcional Doenças Cardiovasculares Nº de Internações - 1, 15 Milhões Nº de Óbitos - 250 mil 11
Diagrama de linhas Mortalidade por doenças cardiovasculares ajustadas por Idade de acordo com o sexo e a raça, EUA, 1972 -1994 0 Homens de raça branca Mulheres de raça branca -10 Homens de raça negra -20 Mulheres de raça negra -30 -40 -50 -60 -70 1971 1975 1980 1985 1990 1994 Anos 12
Diagrama de setores Medidas de PA em primeiras consultas em Salvador, BA 1982 N = 1084 18, 7% 1991 N = 846 29, 1% 13
Cartogramas 14
Medidas de tendência central - média ü Média aritmética ( ou x ) para obter a média aritmética basta somar os valores de todos os dados e dividir o total pelo número deles O que significa: 15
Medidas de tendência central - mediana Mediana – numa representação ordenada dos dados, a mediana é o valor que corresponde a exatamente o meio da distribuição, ou seja, a posição (n+1) / 2 ↓ 1 2 5 7 8 15 27 Md = 7 1 2 5 7 8 15 27 30 Md = (7+8)/2=7, 5 ↑ Dados impares – mediana exata Dados pares – mediana é a média dos dois valores centrais Distribuição quartil ( 25% 50% 75% ) Distribuição decil ( 10% 20% 30% 40% 50% 60% 70% 80% 90%) Distribuição percentil (1%. . . 10%. . . 50%. . . 95%. . . 99%) 16
Medidas de tendência central - moda ü Moda – é o valor que ocorre com maior freqüência 3 4 5 7 7 7 9 9 Mo = 7 Distribuições amodais, bimodais, multimodais 17
Medidas de dispersão ü Amplitude de variação – é a diferença entre o maior e o menor valor de uma distribuição de dados ü Variância – mede a dispersão em torno da média. Calcula-se: 18
Medidas de dispersão ü Desvio padrão – é a raiz quadrada da variância, com sinal positivo 19
Diagrama de dispersão – correlação negativa Esperança de vida (y) e analfabetismo (x) 20
Diagrama de dispersão – correlação positiva Esperança de vida (y) e abastecimento de água (x) 21
Diagrama de dispersão – sem correlação Esperança de vida (y) e assistência (x) 22
Coeficiente de correlação de Pearson ü Coeficiente de correlação – varia entre – 1 e +1, isto é, -1 r +1 xy – ( x y) /n r =____________ ( x² - ( x)²/n) ( y² - ( y)²/n) ü Coeficiente de determinação – r² - indica, para cada unidade de x, qual percentual pode ser explicado pela variação de y (variação concomitante entre x e y) 23
Regressão linear Esperança de vida e água (r=0, 6402 r²=0, 4099 p=0, 0003) 24
Regressão linear Esperança de vida e assistência (r=0, 2241 r²=0, 05020 p=0, 2612) 25
Regressão linear Esperança de vida e analfabetismo (r= -0, 8692 r=0, 7554 p<0, 0001) 26
Regressão linear ü Variável dependente e variável independente – a variável independente ou explanatória é candidata a explicar a variável dependente ü Reta de regressão: y = a + bx ü Coeficiente angular: dá a inclinação da reta xy – ( x y) /n b = _______ x² - ( x)²/n ü Intersecção com o eixo y: x=0, logo y=a 28
Probabilidades ü Experimento estatístico – fenômeno onde os resultados são ü ü incertos Espaço amostral – conjunto de todas as possibilidades de um experimento: S={1, 2, 3, 4, 5, 6} Evento – coleção de resultados; um sub-conjunto de S: A={1, 3, 5} B={1, 2) Complemento – resultados em S que não pertencem a um evento particular: não-A={2, 4, 6} não-B={3, 4, 5, 6} Probabilidade – proporção de experimentos nos quais o evento é esperado acontecer, se o experimento for realizado um número grande de vezes: P(A) = 3/6 = ½ = 0, 5 =50% P(B) = 2/6 =1/3 = 0, 33 = 33, 3% 0 P(A) 1 29
Propriedades básicas das probabilidades ü Se um evento A sempre ocorre, sua probabilidade é 1: P(A)=1 (evento certo) ü Se um evento A nunca ocorre, sua probabilidade é 0: P(A)=0 (evento impossível) ü Probabilidades estão sempre entre 0 e 1: 0 P(A) 1 ü A probabilidade de qualquer evento ocorrer é igual a 1: P(S)=1 ü Eventos A e B são mutuamente exclusivos se entre eles não houver resultado comum P(A e B) = 0 30
Propriedades básicas das probabilidades ü Se A e B são mutuamente exclusivos, então P(A ou B) pode ser calculada por adição: P(A ou B) = P(A) + P(B) ü Se A, B, C, . . . Forem mutuamente exclusivos, então P(A ou B ou C. . . ) pode ser calculado por adição P( A ou B ou C. . . )= P(A) + P(B) + P(C) +. . . ü Se A e não-A forem mutuamente exclusivos e entre eles se incluírem todas os possíveis resultados, então P(A ou não-A) é 1: P(A ou não-A)=P(A) = P(não-A) = P(S) = 1, logo P(não-A) = 1 – P(A) 31
Algumas regras sobre probabilidades ü A probabilidade condicional de A dado B é a probabilidade do evento A se B ocorrer: P(A/B) A={R} B={paus} ü A é independente de B se a probabilidade condicional de A dado B é igual a probabilidade não condicional de A: P(A/B)= P(A) A={1} B={caras} ü Regra geral da multiplicação : P(A e B) = P(B) P(A/B) ü Para eventos independentes somente: P(A e B) = P(B) P(A) ü Regra geral da adição: P(A ou B) = P(A) + P(B) – P(A e B) ü Para eventos mutuamente exclusivos somente: P(A ou B) = P(A) + P(B) 32
Diagrama de árvore para resultados de 2 jogadas consecutivas, sem reposição, de um jogo de 52 cartas 1ª jogada 2ª jogada P(A 2/A 1)=3/51=0, 0588 P(A 2 e A 1)=4/52. 3/51 = 0, 0045 P(n-A 2/A 1)=48/51=0, 9412 P(n-A 2 e A 1)=4/52. 48/51= 0, 0724 P(A 2/n-A 1)=4/51=0, 0784 P(A 2 e n-A 1) = 48/52. 4/51 = 0, 0724 P(n-A 2/n-A 1) = 47/51=0, 9216 P(n. A 2 e n. A 1)=48/52. 47/51 = 0, 8507 P(A 1)=4/52 =0, 0769 P(n-A 1)=48/52 =0, 9231 33
Fórmula de Bayes ü Thomas Bayes, sacerdote inglês falecido em 1761 ü P(E) = 0, 005 - probabilidade de mulheres acima de 35 anos ter câncer de colo de útero P(S/-E) = 0, 03 - probabilidade de mulheres com teste positivo de Papanicolau mas sem câncer (falsos positivos) P(S/E) = 0, 97 - probabilidade de teste de Papanicolau positivo entre as mulheres com câncer P(-E) = 0, 995 - probabilidade de mulheres não ter câncer ü P(E/S) = P(S/E) P(E) / P(S/E) P(E) + P(S/-E) P(E/S) = (0, 97) (0, 005) / (0, 97) (0, 005) + (0, 03) (0, 995) P(E/S) = 0, 1398 ou ~14% 34
Sensibilidade, especificidade T+ T- D+ 485 15 D 2. 985 96. 515 Total 3. 470 96. 530 Total 500 99. 500 100. 000 Sens = 485/500 = 97% Esp = 9. 6515/99. 500 = 97% VP+ = 485/3. 470 = 13, 97% P(D+) = 500/100. 000 = 0, 05 P(D-) = 1 – P(D+) = 0, 995 VP- = 96. 515/99. 500 = 97% LR+ = Sens/(1 -Esp) = 13, 97/3 = 4, 65% Razão de Verossimilhança Positiva = Quão mais provável é que um teste positivo encontre uma pessoa doente que uma não doente? 35
Distribuição binomial é uma distribuição discreta que resulta da soma de variáveis aleatórias binárias (sim/não) ü A distribuição binomial fica definida por dois parâmetros: o número (n) de variáveis aleatórias observadas e a probabilidade de ocorrer o evento desejado (p): B(n, p) 36
Média, variância e desvio padrão da binomial ü Média da binomial: = np ü Variância da binomial: ² = npq ü Desvio padrão da binomial: = npq 37
Exemplo ü A probabilidade de um menino ser daltônico é 8%. Qual é a probabilidade de serem daltônicos todos os 4 meninos que se apresentaram para exame oftalmológico em determinado dia? p = 0, 08; q = 1 -0, 08 = 0, 92 n=4 B(n=4 p=0, 08) Pergunta-se a probabilidade de P(x=4) x P(x) = [ n! / x! (n-x)! ] p n-x q 4 0 P(4) = [4! / 4!(4 -4)! (0, 08) (0, 92) = 0, 00004096 38
Binomial – representação gráfica das probabilidades para B(5; 0, 178) Distribuição binomial n=5 p= 0, 178 39
Binomial – representação gráfica das probabilidades para B(10; 0, 178) Distribuição binomial n=10 p=0, 178 40
Binomial – representação gráfica das probabilidades para B(18; 0, 178) Distribuição binomial – n=18 p=0, 178 41
Histograma Pressão arterial e risco cardiovascular 42
Curva normal 43
Equação da curva normal padrão 44
Equação da curva normal N (µ ; ) = 3, 14159. . . e = 2, 71828. . . µ = média = desvio padrão 45
Curva normal 46
Propriedades da curva normal ü É simétrica em relação ao centro, à média ü O desvio padrão mede a dispersão da curva ü Estende-se de - até + ü A probabilidade correspondente à área debaixo da curva. A área total é igual a 1 ou 100% ü Aproximadamente 68% da área encontra-se no intervalo 1 x. Cerca de 95% entre 2 x. Cerca de 99. 75% entre 3 x ü Para cada valor de e x existe uma curva normal 47
Curva normal 48
Curva normal 49
Curva normal 50
Curva normal reduzida N (0 ; 1) 51
Normal reduzida – variável z (z scores) ü Cálculo de probabilidades usando a distribuição normal reduzida – uso da variável z: z = (x - ) / ü A variável z tem distribuição normal reduzida e é usada para “reduzir” qualquer distribuição para a normal reduzida. A média pode ser substituída por x e por s no caso de amostras 52
Exemplo de uso da normal reduzida ü Obter a probabilidade de uma pessoa apresentar entre 200 e 225 mg de colesterol / 100 ml plasma, dado = 200 e = 20: z = (x - ) / z = (225 – 200) / 20 = 1, 25 ü A probabilidade de z estar entre 0 e 1, 25 é 0, 3944 ou 34, 44% (tabela normal reduzida), que equivale à probabilidade do colesterol estar entre 200 e 225 ü O que se fez foi usar a normal reduzida como um modelo, onde se calculou, em número de desvios padrão (1, 25), a distância entre 200 e 225 53
Aproximação normal da binomial Na binomial com np>5 e nq>5 ocorre uma aproximação da binomial (distribuição discreta) para a normal (distribuição contínua. ), onde x=np e s²=npq. Deve-se fazer a correção para continuidade adicionando-se 0, 5 ao valor de x : z = (x +0, 5) – x / s 54
Intervalo de confiança para médias ü Dada uma amostra de tamanho grande, o intervalo de confiança para a média populacional é: Exemplo: X = 12. 97 anos sx = 2. 42 anos n = 155 = X ± 1. 96(sx / n) = 12. 97 ± 1. 96 (2. 42 / 155) = 12. 97 ± 0. 38 IC 95% 12. 59 µ 13. 35 56
Intervalo de confiança para proporções ü Dada uma amostra de tamanho grande, o intervalo de confiança para a proporção populacional é: P ± z(EPp) = P ± z ( PQ / n) = P ± 1. 96 ( PQ / n) Exemplo: P = 0. 431 Q = 1 -P = 1 -0. 431 = 0. 569 N = 153 = P ± 1. 96 ( PQ / n) = 0. 431 ± 1. 96 ( 0. 431. 0. 569 / 153) = 0. 431 ± 0. 78 IC 95% 0. 353 P 0. 509 57
Teste de hipóteses ü Hipótese nula (Ho) e hipótese alternativa (H 1) ou hipótese de pesquisa: ü Ho: P = 0. 06 ü H 1: P 0. 06 ü Deve-se antes estabelecer um nível de significância do teste, que chamaremos de (10%, 5%, 1%, 0. 1%). É um critério de decisão. ü Teste de hipóteses: o valor de p obtido no teste é a probabilidade de obter os resultados da amostra, se a amostra for retirada aleatóriamente de uma população em que Ho for verdadeira. Ou seja, é a probabilidade de rejeitar Ho, quando, de fato, Ho for verdadeira. 58
Etapas do teste de hipóteses Especificar Ho e H 1. Usando uma amostra, calcular o teste estatístico para obter o valor de p: Qual a probabilidade de obter o valor observado na amostra se ela for retirada de uma população na qual Ho for verdadeiro? ü Se o p- valor for muito pequeno (abaixo do valor de selecionado, 0. 05) ü Ho pode ser rejeitado, por parecer difícil ser verdadeiro. As evidências são mais favoráveis a H 1 ü Sempre será possível estar errado em rejeitar Ho. Esse tipo de erro é o Erro Tipo I ( ) ü Se o valor de p não for muito pequeno (acima de a = 0. 05) ü Há insuficiente evidencia em rejeitar Ho; a amostra pode ter sido coletada de uma população em que Ho seja verdadeira. A amostra alternativa H 1 não tem suporte ü Não se rejeita Ho. Sempre haverá possibilidade de erroneamente não se rejeitar Ho. Esse tipo de erro é o Erro Tipo II ( ) 59
Teste para proporções, para amostras grandes O teste de hipóteses para proporções, para amostras de tamanho grande, é realizado calculando-se a estatística z: z = P – P o / P o Qo / n Amostras grandes são aquelas em que se pode usar a aproximação normal. Isso ocorre quando: mim {np/q ; nq/p} 9 60
Teste para médias, para amostras grandes O teste de hipóteses para médias usando amostras grandes, emprega a estatística z: z = x - o / SEx z = x - o / (sx/ n) Teste estatístico = Estatística amostral – Parâmetro HO / erro padrão da estatística amostral Qualquer teste estatístico construído dessa maneira, irá medir a distância, em erros padrão, entre a estatística amostral e o parâmetro sob Ho. 61
Teste para proporções - exemplo ü ü Ho: P = 0. 30 H 1: P > 0. 30 Tamanho da amostra n = 99 Proporção amostral: P= 0. 455 z = P – Po / Po. Qo / n Z = 0. 455 – 0. 30 / (0. 30. 0. 70) / 99 Z = 3. 37 P(Z. 3. 37) < 0. 0005, que é menor que 0. 05. Logo, rejeita-se Ho para o nível de significância de 5% 62
Teste para médias - exemplo ü Ho: µ = 2. 17 ü H 1: µ 2. 17 ü Tamanho da amostra n = 1000 ü Média obtida na amostra x = 2. 18 ü Desvio padrão da amostra sx = 1. 10 Z = 2. 18 – 2. 17 / ( 1. 10/ 1000) Z = 0. 286 0. 70 < P(z>0. 286) < 0. 80 rejeita Ho. logo não se 63
Inferência envolvendo médias e proporções amostrais Tipo de variável estatística Amostra grande Amostra pequena Quantitativa contínua média Normal ou Distribuição t distribuição t se se n 30 n > 30 Categórica proporções Normal se np 9 e nq 9 Binomial se np < 9 e nq < 9 64
Distribuição t de “Student” ü Teorema do Limite Central, para amostras grandes, o erro padrão é x = x / n ü Usualmente não se sabe qual é o parâmetro populacional, então usa-se o desvio padrão da amostra para estimar: EPx = sx / n ü Todavia para amostras pequenas essa estimativa fica melhor usando-se a distribuição t de “Student”(Gosset, 1908) ao invés da Normal ü Então temos a estatística t para amostras pequenas: com n-1 graus de liberdade 65
Teste t para observações independentes ü Teste para comparação de duas médias x 1: média do grupo 1 x 2: média do grupo 2 s 1 ²: variância do grupo 1 s 2 ²: variância do grupo 2 Variância ponderada: s² = (n 1 -1) s 1 ² + (n 2 -1) s 2 ² / n 1 + n 2 – 2 com (n 1 + n 2 – 2) graus de liberdade 66
Teste t para observações pareadas ü Quando as observações são pareadas, como por exemplo, situações antes e depois de um tratamento no mesmo indivíduo: Calcula-se a diferença entre as unidades de cada um dos pares: d = x 2 – x 1 Média das diferenças: d = d / n Variância das diferenças: s² = [ d² - ( d)²/n]/n-1 O valor de t = d / s²/n, com n-1 graus de liberdade 67
Variâncias desiguais? Ao comparar as variâncias há uma regra prática: se a maior variância for igual até 4 vezes a menor, as variâncias são iguais Teste F: Variância do grupo 1: s 1 ² Variância do grupo 2: s 2 ² F = s 1 ² / s 2 ² com n 1 -1 (numerador) e n 2 -1 (denominador) graus de liberdade Na tabela da distribuição F verifica-se o valor de F com nível de significância igual à metade do estabelecido. Se o valor calculado de F for maior que o da tabela, rejeita-se Ho (portanto as variâncias não são iguais) 68
Teste t para observações independentes quando as variâncias são desiguais Se as variâncias são desiguais, para comparar duas médias aplica-se o teste t da seguinte forma: x 1: Média do grupo 1 x 2: média do grupo 2 s 1 ²: variância do grupo 1 s 2 ²: variância do grupo 2 t = x 1 – x 2 / s 1²/n 1 + s 2²/n 2 g =[ s 1²/n 1 + s 1²/n 2]² / (s 1²/n 1)²/n 1 -1 + (s 2²/n 2)²/n 2 -1 gl 69
Teste t para coeficiente de correlação Ho: r = 0 H 1: r 0 (lembrar que – 1 < r < +1) t = [r / 1 -r²] n-2 com n-2 graus de liberdade 70
Teste ² ü Teste ² para aderência: para verificar se a distribuição de freqüências observadas está de acordo com a teoria: Estabelecer o nível de significância = 0. 05 Calcular o valor do ² pela fórmula: ² = (Oi – Ei)² / Ei Comparar o ² obtido com a tabela, com r – 1 graus de liberdade 71
Exemplo Valores Homens Mulheres Total Observado 130(108) 82(104) 212(212*) (O-E)²/E 4. 48 4. 65 *Na população sabe-se que 51% são homens e 49% mulheres ² = (Oi – Ei)² / Ei ² = 4. 48 + 4. 65 = 9. 13 com (r-1) = (2 -1) = 1 gl 72
Teste do ² Lesões ao esquiar segundo habilidade Habilidade em esquiar Lesões Total Presentes Ausentes Iniciantes 20 60 80 Intermediários 9 84 93 Avançados-experts 2 39 41 Total 31 183 214 Pergunta-se: existe associação entre lesões e habilidade para esquiar? 73
Teste do ² Habilidade Lesão Sem-lesão Total Iniciante 20(11. 6) 60(68. 4) 80(80) (O-E)²/E 6. 08 1. 03 9(13. 5) 84(79. 5) (O-E)²/E 1. 50 0. 25 Avançado 2(5. 9) 39(35. 1) (O-E)²/E 2. 58 0. 43 31(31) 183(183) Intermediário Total 93(93) 41(41) 214(214) 74
Teste do ² ü Teste do ² para independência: ² = (O – Ei)² / E ² = 6. 08 + 1. 03 = 1. 50 + 0. 25 + 2. 58 + 0. 43 ² = 11. 87 com (r-1)(s-1) gl = (3 -1)(2 -1) = 2 gl 75
- Slides: 75