Taxas em pequenas reas uma abordagem bayesiana Ilka

Taxas em pequenas áreas : uma abordagem bayesiana Ilka Afonso Reis Análise Espacial - INPE

Taxas em pequenas áreas l l l yi é o número de casos da “doença” na área i ; ei é o número esperado de casos da “doença” na área i ; ρi é o risco relativo (desconhecido) da “doença” em relação à taxa de referência ; (padronização) ¡ Taxa bruta : Quanto menor o no. esperado de casos, maior a variabilidade na estimação

Qual é o problema com taxas brutas ? • Suponha uma “doença” com r = 0, 10 e acontece um caso em cada área (y = 1) • Se Pop 1 = 10000, e 1 = 0, 10 x 10000 = 1000 • Se Pop 2 = 1000, e 2 = 0, 10 x 1000 = 100 • Se Pop 3 = 100, e 3 = 0, 10 x 100 = 10 p 1=1/10000 = 0, 0001 e Var(p 1) = 1/100002 = 1 x 10 -8 p 2=1/1000 = 0, 001 e Var(p 2) = 1/10002 = 1 x 10 -6 p 3=1/100 = 0, 01 e Var(p 3) = 1/1002 = 1 x 10 -4

Qual é o problema com taxas brutas ? Taxa bruta Taxa suavizada

Solução para o problema das taxas brutas ¡ Suavizar as taxas l Como ? Estimadores Bayesianos • Empíricos • Completos

Uma Breve Introdução à Inferência Bayesiana Probabilidade Condicional Teorema de Bayes Verossimilhança Probabilidade a priori Probabilidade a posteriori

Um exemplo : medidas de qualidade de testes diagnósticos Positivo (+|D) Doente (D) Sadio (S) Negativo (-|D) Positivo (+|S) Negativo (-|S)

Avaliação da qualidade do teste Acertos : • Entre os doentes Sensibilidade (s) • Entre os sadios Especificidade (e)

Avaliação da qualidade do teste Resultado do teste Padrão-ouro Total Doente Não Doente Positivo 265 47 312 Negativo 11 50 61 Total 276 97 373

Avaliação da qualidade do diagnóstico Acertos : • Entre os positivos Valor de Predição Positiva (VPP) • Entre os negativos Valor de Predição Negativa (VPN)

Avaliação da qualidade do diagnóstico Regra de Bayes

Enfim. . . Probabilidade a priori “Verossimilhança” Probabilidade a posteriori

Conceitos Básicos e Notação ¡ Dados : provenientes de uma amostra da população de interesse y = (y 1, y 2, . . . , yn) l P(y), distribuição de probabilidade conjunta de y. l ¡ Parâmetros: quantidades, em geral desconhecidas, que estão presentes nos modelos probabilísticos para y e serão representadas por . l P(y| ), função de verossimilhança de y.

Exemplo : estimação de taxas ¡ ¡ yi , casos da “doença” na área i ei , número de casos esperados na área i segunda a taxa de referência ¡ Parâmetros a serem estimados ρi : o risco relativo (desconhecido) da “doença” em relação à taxa de referência ¡ eiρi representa o número de casos esperados (média) na área i ¡ Na inferência clássica, boas estimativas para ρi são os valores que maximizam a função de verossimilhança P(y|ρi ). Estes valores são a estimativa de máxima verossimilhança O modelo para os dados é a função de verossimilhança P(y| ). Modelo : yi ∼ Poisson(eiρi) ¡ ¡ ¡

O Método da Máxima Verossimilhança ¡ Na inferência clássica, os parâmetros de um modelo são tratados como quantidades fixas (não aleatórias), porém desconhecidas. ¡ O método da máxima verossimilhança é considerado bom em muitos casos. ¡ Porém, quando a forma de P(y| ) é complexa e/ou quando o número de parâmetros envolvidos é grande, este método torna-se difícil de implementar.

A abordagem Bayesiana ¡ ¡ ¡ Na inferência Bayesiana, os parâmetros são tratados como quantidades aleatórias. O modelo estatístico não é mais somente P(y| ) e sim P(y, ), a distribuição conjunta dos dados y e dos parâmetros . As estimativas para não serão somente valores, mas sim uma distribuição de probabilidades. P( |y) é a distribuição de probabilidades dos parâmetros “ à luz” dos dados y.

A abordagem Bayesiana ¡ Como obter P( |y) ? ¡ Pela Regra de Bayes Verossimilhança Probabilidade a posteriori Probabilidade a priori

A abordagem Bayesiana ¡ ¡ ¡ P( ) expressa a incerteza sobre antes de observarmos os dados y que dependem dele priori). (a P( |y) expressa a incerteza sobre depois de observarmos os dados y que dependem dele posteriori). (a De posse de P( |y), podemos examinar qualquer aspecto de (média, variância, percentis, probabilidade de assumir determinados valores, etc. ) (“Full Posterior Distribution”)

Passos para obtenção de P( |y) 1. Escolher um modelo probabilístico para P(y| ) – a função de verossimilhança; 2. Escolher um modelo probabilístico para P( ) – a distribuição a priori ; 3. Aplicar a regra de Bayes e calcular P( |y).

Exemplo : modelo Gamma-Poisson l l l y é o número de casos da “doença” em certa área ; e é o número esperado de casos da “doença” em certa área; ρ é o risco relativo (desconhecido) da “doença” em relação à taxa de referência nesta área; Modelo para P(y| ) : y ~ Poisson (e )

Exemplo : modelo Gamma-Poisson Modelo para P( ) : ~ Gamma ( , ) Cálculo da posteriori P( |y) hiperparâmetros |y ~ Gamma ( + y , + e )

Exemplo : modelo Gamma-Poisson Suponha que y = 4 e e = 6. 5 Priori´s : Gamma (0. 5 , 0. 5), Gamma (1, 1) e Gamma (10, 10) Posteriori´s : Gamma (4. 5 , 7. 0), Gamma (5, 7. 5) e Gamma(14, 16. 5)

Exemplo : modelo Gamma-Poisson Quantis a posteriori 0. 025 0. 500 0. 975 Priori Gamma (0. 5, 0. 5) Gamma (1 , 1) Gamma (10 , 10) 0. 421 0. 449 0. 687 0. 596 0. 623 0. 828 Média a posteriori 0. 813 0. 837 0. 988 Intervalo de Credibilidade de 95% 0. 643 0. 673 0. 855

Modelo espacial bayesiano para taxas em pequenas áreas

Modelo espacial bayesiano para taxas em pequenas áreas ¡ ¡ Modelo geral yi ∼ Poisson(µi) = Poisson(eiρi) l l l ¡ log µi = log ei + θi ; ¡ ¡ yi é o número de casos da “doença” na área i ; ei é o número esperado de casos da “doença” na área i ; ρi é o risco relativo (desconhecido) da “doença” em relação à taxa de referência ; (padronização) θi denota o log do risco relativo (θi = log ρi , ou seja, ρi = exp(θi) ) Modelo de efeitos fixos (máxima verossimilhança) Quanto menor o no. esperado de casos, maior a variabilidade na estimação

Qual é o problema com taxas brutas ? Taxa bruta Taxa suavizada

Modelo espacial bayesiano para ¡ Modelo de efeitos aleatórios taxas em pequenas áreas 2 l l l ρi ∼ Gamma(ψi, i) µρ = ψi/ i e σ ρ = ψi/ i 2 ; Gamma “+” Poisson “=” Gamma ; P(ρi|y) ∼ Gamma(ψi + yi, i + ei). • Quanto maior o número de dados, mais próximo de yi/ei estará a estimativa do risco relativo ; • Quanto menor o número de dados, mais próximo de ψi/ i estará a estimativa de risco relativo.

Modelo espacial bayesiano para taxas em pequenas áreas ¡ Os parâmetros ψi e i são os hiperparâmetros. ¡ Como saber quem ψi e i ? l Podem ser estimados (Bayes empírico) ; Pode-se estabelecer uma distribuição a priori para ψ e φ (hiperprioris). l P(ρ, ψ, |y) ∝ P(y|ρ)P(ρ|ψ, )P(ψ)P( ) priori Exemplo: Mersey hiperprioris

Modelo espacial bayesiano para taxas em pequenas áreas ¡ Modelo espacialmente estruturado (abordagem completa) l yi ∼ Poisson(µi) = Poisson(eiρi) l log µi = log ei + θi ; θi = log ρi l θi = α + i , onde ¡ α é o log do risco relativo médio sobre todas as áreas ; ¡ i é a parte não-espacialmente estruturada do log do risco relativo da área i ; (média zero) ¡ i é a parte espacialmente estruturada do log do risco relativo da área i;

Modelo espacial bayesiano para taxas em pequenas áreas ¡ Prioris : l α ~ Uniforme [- ; ] (“flat”) l i ~ Normal (0 ; 2 ) l l A priori para νi é um modelo autoregressivo condicional Gaussiano (CAR) wij são pesos representando a adjacência das áreas. A definição mais comum para wij são valores binários : wij = 1, se as áreas i e j são adjacentes; wij = 0, caso contrário.

Modelo espacial bayesiano para taxas em pequenas áreas ¡ Modelo completo l yi ∼ Poisson(µi) = Poisson(eiρi) l log µi = log ei + α + i l α ~ Uniforme [- ; ] l i ~ Normal (0 ; 2 ) l νi ~ CAR( 2 ) l Hiperprioris Gamma para τ = 1/ 2 e para τ = 1/ 2 (τ e τ representam a precisão) Exemplo: leishmaniose visceral (leish_inpe_spatial)

Modelo espacial bayesiano para taxas em pequenas áreas Leishmaniose Visceral Humana (BH – 1994/95) Taxa bruta Taxa suavizada

Modelo espacial bayesiano para taxas em pequenas áreas

Modelo espacial bayesiano para taxas em pequenas áreas Modelo espaço-temporal yi ∼ Poisson(µi) = Poisson(eiρi) log µi = log ei + θi ; θi = log ρi θi = α + i + 0 t + it, onde • α , i e i são definidos como antes ; • 0 ~ Uniforme [- ; ] e i ~ CAR( 2 ) representam a parte temporal do modelo Exemplo: leishmaniose visceral (leish_inpe_spatial_temporal)

Modelo espacial bayesiano para taxas em pequenas áreas Previsão para o quarto período Modelo: No. de parâmetros : 365 Tempo de simulação de 10000 iterações: 112 segundos AMD Athlon XP 2000 1. 67 GHz 512 Mb RAM

Modelo espacial bayesiano para taxas em pequenas áreas Modelo espaço-temporal (alternativo) yi ∼ Poisson(µi) = Poisson(eiρi) log µi = log ei + θi ; θi = log ρi • Modelo linear para θi θi = α 0 + αi + i (t-1), onde • α 0 ~ Uniforme [- ; ] • αi ~ CAR( 2α) e i ~ CAR( 2β) são parâmetros de uma equação de regressão ; Exemplo: leishmaniose visceral (leish_inpe_dissert)

Modelo espacial bayesiano para taxas em pequenas áreas Previsão para o quarto período Modelo linear No. de parâmetros : 243 Tempo de simulação de 10000 iterações: 51 segundos

Modelo espacial bayesiano para taxas em pequenas áreas Modelo espaço-temporal (alternativo) yi ∼ Poisson(µi) = Poisson(eiρi) log µi = log ei + θi ; θi = log ρi θi = α 0 + αi + i (t-1)2 , onde • α 0 , αi e i são definidos como antes ; • i ~ CAR( 2 ) ; Exemplo: leishmaniose visceral (leish_inpe_dissert)

Modelo espacial bayesiano para taxas em pequenas áreas Previsão para o quarto período Modelo quadrático No. de parâmetros : 364 Tempo de simulação de 10000 iterações: 69 segundos

Referências Bibliográficas Assunção, R. M. ; Reis, I. A. ; Oliveira, C. L. Diffusion and Prediction of Leishmaniasis in a Large Metropolitan Area in Brasil with a Space-Time Model. Statistics in Medicine (2001), 20 : pp. 2319 - 2335 Spiegelhalter, D. ; Thomas, A. ; Best, N. ; Lunn, D. Win. BUGS User Manual , (References), version 1. 4, (2003)

Back-up slides

Bayes Empírico ¡ ¡ yi ∼ Poisson(µi) = Poisson(eiρi) ρi ∼ Gamma(ψi, i) E[ρi] = ψi/ i e Var[ρi] = ψi/ i 2 E[yi] = Eρ[Ey[yi| ρi]] = Eρ[eiρi] = ei ψi/ i Var [yi] = Eρ[Vary[yi| ρi]] + Varρ[Ey[ yi| ρi]] = ei ψi/ i + (ei)2 ψi/ i 2 Pelo Método dos Momentos Então

Bayes Empírico ¡ O que nos leva a ¡ Igualando (1) e (2), temos

Padronização direta das taxas ¡ ¡ ¡ r é taxa de referência da “doença”; Popi é a população sob risco da área i ; ei = r x Popi , é o número esperado de casos na área i ; i é o risco da “doença” na área i ; ρi = i / r é o risco relativo (desconhecido) da “doença” em relação à taxa de referência ; ei x ρi = (r x Popi) x ( i / r) = Popi x i ;

Cálculo da posteriori P( |y)

Distribuição Gaussiana (Normal) - < yi < , - < < >0 , y = (y 1, y 2, . . . , yn) y 1, y 2, . . . , yn i. i. d

Distribuição Beta

Distribuição Gamma ( , )