O MTODO BOOTSTRAP Prof Eduardo Bezerra CEFETRJ ebezerracefetrj

O MÉTODO BOOTSTRAP Prof. Eduardo Bezerra (CEFET/RJ) ebezerra@cefet-rj. br

Motivação 2 Para estudar uma população, produzimos uma amostra para fazer um estudo indireto. Como saber se a resposta obtida com a amostra é próxima da resposta que seria obtida na população? Uma maneira: produzir a resposta para muitas amostras da população. Impraticável! Para contornar, adotamos pressupostos sobre a forma da população. � e. g. , premissa de que a população é normalmente distribuída

Motivação (cont. ) 3 Mas, e se tivermos apenas a amostra empírica e não sabemos nada sobre a população? Alternativa: produzir amostras (com reposição) a partir da própria amostra empírica. Justificativa: é provável que a forma da amostra empírica seja parecida com a população original (contanto que o tamanho dessa amostra seja razoavelmente grande).

Motivação (cont. ) 4 A amostragem "com substituição" é uma maneira conveniente de � tratar a amostra empírica como uma população e � amostrar a partir dela de uma forma que reflete sua forma.

Princípio do bootstrap (bootstrap principle) 6 Suponha que 1. 2. temos uma amostra empírica de uma população desejamos estudar uma estatística que estima algum parâmetro dessa população, mas não conhecemos a distribuição amostral. O princípio do bootstrap sugere usar a distribuição definida pela amostra para realizar inferências sobre a distribuição amostral.

Método Bootstrap - introdução 7 O método bootstrap é útil para estimar a distribuição de uma estatística (e. g. , média, variância, . . . ) quando não podemos usar a premissa de normalidade (e. g. , z-teste, t-teste). � baseado no no princípio do bootstrap. Exemplos de uso: � � calcular um IC para a média quando a população não é normal e o tamanho da amostra é pequeno. calcular uma IC para outros parâmetros, como a mediana da população ou outros percentis.

Método Bootstrap - procedimento 8 Considere uma amostra empírica X de n observações de uma população cuja distribuição é desconhecida. Suponha que o objetivo seja estimar um parâmetro θ da população (por exemplo: média, mediana, desvio padrão, quartil superior etc. ) Uma reamostra (bootstrap sample) é uma amostra com reposição de tamanho n, retirada da amostra empírica X. � Vamos denotar a i-ésima reamostra por X*i.

Método Bootstrap - procedimento 9 1. 2. 3. 4. Produzir uma amostra X de tamanho n a partir da população de interesse. Gerar B reamostras (cada uma de tamanho n) a partir de X: X*1, X*2, . . . , X*B. Calcular B estimativas do parâmetro de interesse a partir de cada uma das B reamostras: Usar a distribuição resultante (bootstrap estimate) para fazer inferências sobre

Exemplo 10 Suponha que uma amostra empírica de pesos de dez indivíduos é retirada de uma população: Um pesquisador está interessado em � estimar a mediana do peso da população e � ter uma medida de incerteza em torno dessa estimativa.

Exemplo (cont. ) 11 Suponha que esse pesquisador produz 50 amostras com substituição das observações, sendo cada nova amostra de tamanho igual ao original (n = 10). As tabelas ao lado: três amostras (do total de 50) de bootstrap resultantes da reamostragem.

Exemplo (cont. ) 12 Observe que �o indivíduo 1 aparece duas vezes na primeira amostra do bootstrap, mas não aparece na segunda � o indivíduo 2 aparece apenas na segunda amostra.

Exemplo (cont. ) 13 https: //www. methodsconsultants. com/tutorial/what-is-the-bootstrap/

14 Estudo de caso

Produção das reamostras 15 São produzidas 10000 reamostras a partir da distribuição empírica. B <- 10000 resamples <- matrix(sample(x, n * B, replace = TRUE), B, n)

Produção das reamostras 16 Se precisamos de B datasets completos, então devemos realizar n * B amostragens. Comando a seguir corresponde a amostrar a partir de uma distribuição empírica definida pela amostra original, sendo que essa distribuição atribui probabilidade 1/n para cada ponto de dado. sample(x, n * B, replace = TRUE)

Produção das reamostras 17 Comando a seguir organiza os dados em uma matriz com B linhas e n colunas. Sendo assim, cada linha da variável resamples corresponde a uma reamostra � i. e. , um conjunto de dados com as mesmas dimensões do dataset original. matrix(. , B, n)

Histograma das reamostras 18

Inferências 19 Uma vez que temos a distribuição de reamostras, é possível realizar inferências. � e. g. , produzir o erro padrão estimado para a mediana: sd(resample. Medians) � e. g. , produzir um intervalo de confiança de 95% para a mediana: quantile(resample. Medians, c(. 025, 0. 975))