MTODOS ESTATSTICOS PARA EXATIDO DE MAPEAMENTO E AVALIAO

  • Slides: 25
Download presentation
MÉTODOS ESTATÍSTICOS PARA EXATIDÃO DE MAPEAMENTO E AVALIAÇÃO DE MODELOS Camilo Daleles Rennó Referata

MÉTODOS ESTATÍSTICOS PARA EXATIDÃO DE MAPEAMENTO E AVALIAÇÃO DE MODELOS Camilo Daleles Rennó Referata Biodiversidade 8 novembro 2007

Modelagem lençol freático rocha de origem

Modelagem lençol freático rocha de origem

Modelagem O que faz uma planta estar num determinado lugar? • Fatores ambientais •

Modelagem O que faz uma planta estar num determinado lugar? • Fatores ambientais • Fatores aleatórios Modelagem => Simplificação => erros lençol freático rocha de origem

Modelagem seleção calibração lençol freático probabilidade ou chance de ocorrência limiar rocha de origem

Modelagem seleção calibração lençol freático probabilidade ou chance de ocorrência limiar rocha de origem mapa de ocorrência (estimada)

Avaliando Modelos. . . X X verdade estimado modelo A Comparando com uma referência.

Avaliando Modelos. . . X X verdade estimado modelo A Comparando com uma referência. . . estimado modelo B Comparando-se modelos. . .

Matriz de Erro (de Confusão) + presença - ausência Real (ou Referência) Estimado +

Matriz de Erro (de Confusão) + presença - ausência Real (ou Referência) Estimado + - Total + a b a+b - c d c+d Total a+c b+d n Erros: falsos positivos (b) falsos negativos (c) É função do limiar de corte e do conjunto de pontos usados na avaliação

Particionamento dos Dados Treinamento X Teste Idealmente deveriam ser conjuntos independentes de pontos, ou

Particionamento dos Dados Treinamento X Teste Idealmente deveriam ser conjuntos independentes de pontos, ou seja, pontos de teste não usados durante o desenvolvimento do modelo Métodos de particionamento: Resubstituição (treinamento = teste) -> resultado otimista Bootstrapping (amostragem com repetição) * Aleatorização (amostragem sem repetição) * Amostragem prospectiva (amostragem pós-modelagem) Leave-one-out (1 para teste e demais para treinamento) * *avaliação iterativa: permite estimar a incerteza da precisão

Um pouco de teoria. . . No lançamento de uma moeda normal, P(K) =

Um pouco de teoria. . . No lançamento de uma moeda normal, P(K) = ? 0, 5 ou 50% P(C) = ? 0, 5 No lançamento de duas moedas normais, P(KK) = P(K) ? . P(K) eventos independentes 1 a 2 a K K C C 1 a KK KC CK CC 2 a K C Total K 0, 25 0, 5 C 0, 25 0, 5 Total 0, 5 1

Um pouco de teoria. . . Se repetíssemos o lançamento de duas moedas 100

Um pouco de teoria. . . Se repetíssemos o lançamento de duas moedas 100 vezes, em quantas vezes as duas seriam caras? Resposta: de zero a 100 vezes (variável aleatória) Se repetíssemos o lançamento de duas moedas 100 vezes, em quantas vezes esperaríamos que as duas fossem caras? Resposta: 25 (conceito de esperança, 100*0, 25) 1 a 2 a 1 a K C Total K ? ? ? C ? ? ? Total ? ? 100 observado 2 a K C Total K 25 25 50 C 25 25 50 Total 50 50 100 esperado

Um pouco de teoria. . . Com base no resultado de um experimento, podemos

Um pouco de teoria. . . Com base no resultado de um experimento, podemos saber se, de fato, o resultado de uma moeda não influencia o da outra? 1 a 2 a 1 a K C Total K 30 32 62 C 14 24 38 Total 44 56 100 2 a K C Total K 25 25 50 C 25 25 50 Total 50 50 100 observado esperado Importante: pressupõese que não haja relação entre cada uma das 100 repetições (2 moedas) (Distribuição qui-quadrado com 1 grau de liberdade) 0 + independentesnão independentes

Voltando ao nosso problema. . . + presença - ausência Real Estimado Erros: falsos

Voltando ao nosso problema. . . + presença - ausência Real Estimado Erros: falsos positivos (b) falsos negativos (c) + - Total + a b a+b - c d c+d Total a+c b+d n deveriam ser independentes pontos distribuídos no espaço. . . Autocorrelação Espacial

Autocorrelação Espacial Potencial problema para estudo baseados em área Independência entre amostras é violada

Autocorrelação Espacial Potencial problema para estudo baseados em área Independência entre amostras é violada -> problema para definição de significância dos testes Soluções: • incorporar a informação de vizinhança no modelo • selecionar conjunto independente espacialmente (necessita avaliação da autocorrelação espacial)

Medidas de Avaliação Real Estimado + - Total + a b a+b - c

Medidas de Avaliação Real Estimado + - Total + a b a+b - c d c+d Total a+c b+d n Exatidão Total = mínimo = 0 máximo = 1 (ou 100%)

Exatidão Total Exemplo numérico Real Estimado + - Total + 45 2 47 -

Exatidão Total Exemplo numérico Real Estimado + - Total + 45 2 47 - 5 48 53 Total 50 50 100 Exatidão Total =

Exatidão Total Se a relação entre o real e o estimado pelo modelo fosse

Exatidão Total Se a relação entre o real e o estimado pelo modelo fosse totalmente aleatória: Real + + Estimado - ? 47 Total 53 50 50 100

Exatidão Total Se a relação entre o real e o estimado pelo modelo fosse

Exatidão Total Se a relação entre o real e o estimado pelo modelo fosse totalmente aleatória: Real Estimado + - Total + 23, 5 47 - 26, 5 53 Total 50 50 100 Exatidão Total =

Kappa Real Estimado + - Total + a b a+b - c d c+d

Kappa Real Estimado + - Total + a b a+b - c d c+d Total a+c b+d n Índice Kappa ( ) – medida de concordância exatidão total mínimo = < 0 máximo = 1 exatidão total (se independência)

Kappa Exemplo numérico Real Estimado + - Total + 45 2 47 - 5

Kappa Exemplo numérico Real Estimado + - Total + 45 2 47 - 5 48 53 Total 50 50 100 Índice Kappa ( ) – medida de concordância Será que este valor é significativamente superior a zero? Teste de hipótese

Kappa

Kappa

Outras Medidas de Avaliação Real Estimado + - Total + a b a+b -

Outras Medidas de Avaliação Real Estimado + - Total + a b a+b - c d c+d Total a+c b+d n Prevalência = (a + c)/n Poder de diagnóstico total = (b + d)/n Sensitividade = a/(a + c) Especificidade = d/(b + d) Taxa de falso positivo = b/(b + d) Taxa de falso negativo = c/(a + c) Poder preditivo positivo = a/(a + b) Poder preditivo negativo = d/(c + d) Taxa de erro = (b + c)/n Odds-ratio = (ad)/(cb) Tau

Medida independente do limiar (fração de verdadeiros positivos) aumento do limiar ROC plot Área

Medida independente do limiar (fração de verdadeiros positivos) aumento do limiar ROC plot Área treinamento teste (fração de falsos positivos) presença = 0 se Prob(ocorrência) < limiar 1 caso contrário Área ~ exatidão total

Comparando-se Modelos X estimado modelo A verdade medida A X medida B X verdade

Comparando-se Modelos X estimado modelo A verdade medida A X medida B X verdade estimado modelo B cuidado!!! testes estatísticos quase sempre pressupõe independência na amostragem OBS: 2 Kappas só podem ser comparados se as amostras forem diferentes!!!

Comparando-se Modelos X estimado modelo A verdade medida A (ok) X medida B (ok)

Comparando-se Modelos X estimado modelo A verdade medida A (ok) X medida B (ok) estimado modelo A estimado modelo B X verdade estimado modelo B medida Ax. B

Comparando-se Modelos X estimado modelo A estimado modelo B Modelo A certo errado Total

Comparando-se Modelos X estimado modelo A estimado modelo B Modelo A certo errado Total certo a b a+b Modelo B errado c d c+d a+c b+d n Total OBS: Se b + c < 5, use teste binomial. Para comparações múltiplas (3 ou mais modelos), use o teste de Cochran teste de Mc. Nemar: + 0 coerentes não coerentes

Obrigado

Obrigado