Implementao O algoritmo para o matching algoritmo para

  • Slides: 32
Download presentation
Implementação

Implementação

O algoritmo para o matching

O algoritmo para o matching

algoritmo para o matching • Vamos denotar o grupo de comparação para cada tratado

algoritmo para o matching • Vamos denotar o grupo de comparação para cada tratado i com características xi como o conjunto: – C(xi) características das vizinhanças de x • Seja Nc o número de casos no grupo de comparação e w(i, j) o peso dado a cada j quando comparado ao individuo tratado i. .

O algoritmo para o matching • ATT • Estimadores de matching distintos são criados

O algoritmo para o matching • ATT • Estimadores de matching distintos são criados pela variação de wij. Ou seja, pela definição dos vizinhos, pelo modo como se lida com o suporte comum e pelos pesos dados aos vizinhos. • Vamos estudar essas possibilidades!!!

algoritmo para o matching • Matching simples: compara células com mesmo x – resultados

algoritmo para o matching • Matching simples: compara células com mesmo x – resultados médios dos tratados e não tratados – wk fração das observações na célula k

Matching vizinhos próximos (nearest neighbors): Escolhe para cada tratado i um indivíduo do grupo

Matching vizinhos próximos (nearest neighbors): Escolhe para cada tratado i um indivíduo do grupo não-tratado que tenha o p(x) mais próximo possível do seu. – Pode ser 1 vizinho ou n vizinhos. – Pode ser com ou sem reposição. – O método com reposição é recomendado quando o tratamento e controle possuem distrib. do ps muito distintas. – O método sem reposição depende da ordem que as observações são combinadas. Tem que ter ordem aleatória. – Número de vizinhos: Pode haver mais de um vizinho para cada tratado. Trade-off entre viés e variância. Tem que decidir quantos vizinhos e qual o peso para cada vizinho.

Nearest neighboor • Reposição e número de unidades – Sem reposição - observações do

Nearest neighboor • Reposição e número de unidades – Sem reposição - observações do grupo de controle são combinadas com apenas uma observação do grupo tratado (combinação mais próxima). • Problema – se tiver grupo de controle pequeno, as comparações podem não estar tão próximas em termos de p(x) • Ordem que é feito o pareamento importa! – Com reposição - observações do grupo de controle podem ser combinadas com mais de uma observação do grupo tratado (combinação mais próxima). – Número de casos no grupo comparação = envolve o trade-off entre viés e variância. Um caso único pode reduzir viés. Quanto maior o número de matches, menor pode ser a variância e maior pode ser o viés devido a piores combinações de PS.

Matching radial – O matching por vizinhos próximos pode sofrer combinações ruins pelo fato

Matching radial – O matching por vizinhos próximos pode sofrer combinações ruins pelo fato do vizinho mais próximo estar bastante afastado – No matching radial todo controle que estiver dentro de r será combinado. Nível de tolerância para a distância do ps (caliper). – Funciona na mesma direção que a reposição. – Uma dificuldade é saber qual o nível de tolerância é razoável. – Matching radial é uma variante do Matching por caliper. A idéia básica do radial é não somente utilizar o vizinho próximo através de cada caliper, mas todos os indivíduos de comparação dentro do raio r.

Matching por estratificação – Dividir o ps em intervalos, de tal forma que para

Matching por estratificação – Dividir o ps em intervalos, de tal forma que para cada intervalo as unidades tratadas e não tratadas, possuam na média o mesmo ps. – ATT é a média ponderada das diferenças entre o produto médio do grupo dos tratados e dos não tratados – Sendo b os blocos definidos sobre os intervalos do ps. Então, o efeito do tratamento no b-ésimo bloco será:

Matching por estratificação – Então o efeito do tratamento será: – Uma questão é

Matching por estratificação – Então o efeito do tratamento será: – Uma questão é quantos estratos devem existir. • Alguns autores julgam que 5 estratos são suficientes. • Passos: i) cheque se com esse estrato o ps está balanceado entre tratamento e controle; ii) se não estiver, o estrato deve ser dividido; ii) se o ps estiver balanceado, mas as covariadas não, então a definição do ps não está adequada, devendo alterar o vetor x (interações e ordens >1).

Matching por kernel – k é um kernel – Até agora um número pequeno

Matching por kernel – k é um kernel – Até agora um número pequeno de observações foi utilizado para construir o contrafactual. – KM ou LLM (local linear matching) são estimadores matching não paramétricos que usam médias ponderadas de todos os indivíduos no grupo controle para construir o produto contrafactual.

Matching por kernel – Pode ter problemas combinações ruins e portanto a condição de

Matching por kernel – Pode ter problemas combinações ruins e portanto a condição de suporte comum é importante. – Se forem utilizados pesos de um kernel simétrico, não negativo e unimodal, se dará mais peso aos casos com ps mais próximos. – Tem que escolher a função kernel e as janelas de variações. A primeira não parece ser importante. No entanto, as bandas de variações possuem um trade-off. Quanto maior a banda menor a variância e maior o viés. Então a escolha da banda envolve trade-off entre variância pequena e estimativas não viesadas verdadeiras funções de densidade.

Tipos de função Kernel disponível no Stata • normal the gaussian kernel. • biweight

Tipos de função Kernel disponível no Stata • normal the gaussian kernel. • biweight the biweight kernel. • epan the epanechnikov kernel (Default with kernel matching). • uniform the uniform kernel. • tricube the tricube kernel (Default with llr matching). • Para mais detalhes, consultar Cameron e Trivedi, cap. 9. • Tabela 9. 1 – Exemplos de função Kernel.

Trade-off em termos de viés e eficiência – Assintoticamente, os PSM produzem o mesmo

Trade-off em termos de viés e eficiência – Assintoticamente, os PSM produzem o mesmo resultado. – Em amostras pequenas, a performance dos diferentes métodos depende de cada caso. Não existe um método ganhador – Exemplos • Se existir poucos controles, é apropriado usar com reposição • Se existir muitos indivíduos comparáveis não tratados vale a pena utilizar mais de um vizinho para obter maior precisão – Deve-se tentar vários métodos. Se produzirem resultados semelhantes a escolha não é importante; caso sejam distintos cabe uma investigação mais profunda.

Trade-off em termos de viés e eficiência Decisão Viés Variância - vizinhos multiplos /

Trade-off em termos de viés e eficiência Decisão Viés Variância - vizinhos multiplos / um vizinho (+)/(-) (-)/(+) - com caliper / sem caliper (-)/(+) (+)/(-) - Matching NN / Matching radial (-)/(+) (+)/(-) - KM ou LLM / Métodos NN (+)/(-) (-)/(+) (+)/(-) Matching Vizinhos Próximos (NN) Uso de indivíduos para controle - com reposição / sem reposição Escolha do método Largura da banda com KM - pequena / grande Aumenta (+), diminui (-)

Suporte comum

Suporte comum

ATE e ATT • ATE e ATT são definidos apenas sobre a área de

ATE e ATT • ATE e ATT são definidos apenas sobre a área de suporte comum. É importante checar a sobreposição entre tratados e não tratados. • Implementando o suporte comum assegura-se qualquer combinação das características observadas no tratamento pode também ser observada no controle. Como fazer? • Checagem informal ou visual: visual – Checar visualmente a distribuição de densidade do ps para o grupo tratado e não tratado.

 • Comparação mínimo máximo: máximo – Apagar todas as observações cujo ps é

• Comparação mínimo máximo: máximo – Apagar todas as observações cujo ps é menor que o mínimo ou maior que o ps máximo do grupo oposto. – Ex: controle (0. 07; 0. 94) e trat (0. 04; 0. 89) Sup. Comum (0. 07; 0. 89) descartando as demais obs. – Isso é importante para o método de kernel, que usa todas as observações do controle. O NN matching lida bem com a condição de suporte comum, pois usa apenas os vizinhos mais próximos. – Problemas desse critério: • Se as informação descartadas estão próximas do limite • Se houver “buracos” na sobreposição dos 2 grupos. • Cauda da distrib. for muito fina (valores distantes).

 • Aparar para determinar o suporte comum (Trimming to Determine the Common Support):

• Aparar para determinar o suporte comum (Trimming to Determine the Common Support): Support) – Define-se a região de suporte comum como os valores de P que possuem densidade > 0 tanto para a distribuição dos tratados como para não tratados. Estimador de densidades não paramétricas – São excluídos os pontos onde a estimativa da densidade é igual a zero e menor do que um valor q. – Esse método exclui os casos onde a densidade possui um buraco. – A escolha entre um método ou outro depende dos dados disponíveis para a avaliação.

Ex. 1 Mínimo-Máximo: suporte comum (0. 2; 0. 8). “Aparando”, dependendo do q, poderia

Ex. 1 Mínimo-Máximo: suporte comum (0. 2; 0. 8). “Aparando”, dependendo do q, poderia excluir adicionalmente as pontas, ficando com (0. 3; 0. 7) Pouca diferença entre os métodos. Obs: esquerda=controle; direita=tratamento

– Ex. 2 Minimo-Maximo falha, pois não há controle no meio: suporte comum (0.

– Ex. 2 Minimo-Maximo falha, pois não há controle no meio: suporte comum (0. 01; 0. 99). “Aparando”, excluo com certeza (0. 4; 0. 7) do suporte comum mais confiável Obs: esquerda=controle; direita=tratamento

observação • Once one has defined the region of common support, individuals that fall

observação • Once one has defined the region of common support, individuals that fall outside this region have to be disregarded and for these individuals the treatment effect cannot be estimated. • Bryson et al. (2002) note that when the proportion of lost individuals is small, this poses few problems. However, if the number is too large, there may be concerns whether the estimated effect on the remaining individuals can be viewed as representative. • It may be instructive to inspect the characteristics of discarded individuals since those can provide important clues when interpreting the estimated treatment effects. pistas

Qualidade do matching

Qualidade do matching

Qualidade do matching • Como o condicionamento é feito no ps e não em

Qualidade do matching • Como o condicionamento é feito no ps e não em todas as covariadas x, é necessário checar se o procedimento de matching balanceia a distribuição das variáveis relevantes em ambos os grupos. • Esta análise também pode ser útil para nos ajudar a verificar o que incluir na especificação da eq. do ps. • A ideia básica é comparar a situação antes e depois do matching e checar se existe alguma diferença após o condicionamento no ps. Se existir é sinal que a equação de ps está mal especificada.

Qualidade do matching • Viés padronizado: padronizado – Define-se: – A questão é: qual

Qualidade do matching • Viés padronizado: padronizado – Define-se: – A questão é: qual é o percentual aceitável da diminuição do viés para o sucesso do matching? – Na literatura SBdepois abaixo de 3% a 5% é suficiente. . .

Implementação - Qualidade do matching • Teste t: t – Antes do matching diferenças

Implementação - Qualidade do matching • Teste t: t – Antes do matching diferenças são esperadas e após o matching as covariadas devem ser balanceadas entre os grupos e, portanto, nenhuma diferença significativa deve ser encontrada. – É preferível se o avaliador está preocupado com a significância estatística do resultado.

Implementação- Qualidade do matching • Significância conjunta e pseudo-R 2: – Reestimar o ps

Implementação- Qualidade do matching • Significância conjunta e pseudo-R 2: – Reestimar o ps na amostra combinada (tratados e não tratados) e comparar o pseudo-R 2 antes e depois do matching. – Após o matching não deve haver diferenças sistemáticas na dist das covariadas entre os tratados e não tratados, o pseudo -R 2 deve ser bem baixo. – Pode calcular o teste F. O teste não deve rejeitar antes e rejeitar após o matching.

Implementação- Qualidade do matching • Se os indicadores de qualidade não estiverem satisfatórios, pode

Implementação- Qualidade do matching • Se os indicadores de qualidade não estiverem satisfatórios, pode ser devido a erros de especificação do modelo de ps. Portanto, deve-se dar um passo atrás. Se após a re-especificação ainda houver problemas de qualidade, pode indicar uma falha na CIA e deve ser considerado outro método.

Estimação do erro padrão

Estimação do erro padrão

Estimação do erro padrão • Testar a significância estatística do efeito do tratamento e

Estimação do erro padrão • Testar a significância estatística do efeito do tratamento e computar seu erro padrão não é tão direto. • Abadie e Imbens (2008) mostraram que o uso de bootstrap não é, de modo geral, válido para estimadores de matching. • Abadie e Imbens (2012) desenvolveram teoria assintótica para os estimadores de PSM.

Referências • Abadie A. and Imbens, G. (2006), "Large sample properties of matching estimators

Referências • Abadie A. and Imbens, G. (2006), "Large sample properties of matching estimators for average treatment effects", Econometrica 74(1), 235 -267. • Abadie e Imbens (2012) “Matching on the estimated propensity score”, NBER Working Paper deriva a distribuição assintótica dos estimadores de PSM.

Estimação do erro padrão (Abadie e Imbens, 2012) • A seção IV explica como

Estimação do erro padrão (Abadie e Imbens, 2012) • A seção IV explica como estimar essa variância. • A seção V mostra os resultados de um exercício de simulação (Monte Carlo) para mostrar a qualidade dos estimadores que são propostos no artigo. • Duas coisas importantes: ü resultados independem da forma de estimar o propensityscore; ü resultados são obtidos admitindo que a hipótese de ignorabilidade forte ou não-confundimento é assegurada. • No STATA 13 está implementado o algoritmo de Abadie e Imbens, 2006.