Modelos de variveis qualitativas dependentes Econometria Ps Julho

Modelos de variáveis qualitativas dependentes Econometria Pós Julho de 2017

Probabilidade, odds e logit n Explicar a ocorrência de um evento: y={0; 1} tem

Logit A probabilidade de que um evento ocorra é:

Odds ratio – razão de chances A odds ratio é definida como a razão

Probabilidade, odds e logit P(Y=1) Odds p(y=1) 1 -p(y=1) 0. 01 1/99 0, 01

Transformação logística n A probabilidade varia entre 0 e 1, a odds varia entre

Função logit No modelo: Como estimamos se não conhecemos o z?

EMV n Usamos a EMV como alternativa ao método de MQO. Ou seja, achar

Função de verossimilhança n Especificando f(. ): . Distribuição empírica discreta de um evento

Função de verossimilhança n Sabendo p (se for um logit), temos a função de

Log da função de verossimilhança (LL) Transformação logarítima (log likelihood) : n

EMV n A função LL pode dar infinitos valores para β. n Dada a

EMV LL é globalmente côncava e tem um máximo. O gradiente é para computar

Exemplo: n Fatores que afetam a probabilidade de ter uma firma que faz inovação

Regressão logística n Modelo com a constante apenas

Interpretação dos coeficientes n Transformação do logit em probabilidade :

Interpretação dos coeficientes n Valor empírico da amostra: 81, 7%

Interpretação dos coeficientes n Um coeficiente positivo indica que a probabilidade de inovação aumenta

Interpretação n Usando os valores médios de rdi, lassets, spe e biotech, podemos calcular

Efeitos marginais n A probabilidade é uma função não linear das variáveis explicativas n

Medidas de ajuste n Nas estimações por Máxima Verossimilhança, não há algo como um

Teste LR n A LR consiste na diferença entre o modelo não restrito (unc)

Mc. Fadden Pseudo R 2 n Mc. Fadden Pseudo R 2 (1973). n Interpretação

LR teste de uma variável adicionada (biotech)

Slides: 32

Download presentation

Modelos de variáveis qualitativas dependentes Econometria Pós Julho de 2017

Modelo de probabilidade linear

LOGIT

Probabilidade, odds e logit n Explicar a ocorrência de um evento: y={0; 1} tem dois possíveis valores (0 e 1) n Precisamos explicar a probabilidade de ocorrência do evento, condicionado em X: P(Y=y | X) ∈ [0 ; 1]. n MQO não é adequado pois as predições caem fora do intervalo [0 ; 1]. n Temos que transformar o número real z que ∈ ]-∞; +∞[ para uma P(Y=y | X) ∈ [0 ; 1]. n A transformação logística faz esta ligação – o número real z ∈ ]-∞; +∞[ para P(Y=y | X) ∈ [0 ; 1]. Ou seja, função de ligação - link function

Função link Logit

Logit A probabilidade de que um evento ocorra é:

Odds ratio – razão de chances A odds ratio é definida como a razão entre a probabilidade e seu complemento. Tomando o log temos z. Consequentemente, z é a transformação logarítima da “odds ratio”. 1. Z ∈ ]-∞; +∞[ and P(Y=1) ∈ [0 ; 1] 2. A probabilidade não é linear em z

Probabilidade, odds e logit P(Y=1) Odds p(y=1) 1 -p(y=1) 0. 01 1/99 0, 01 -4, 60 0. 03 3/97 0, 03 -3, 48 0. 05 5/95 0, 05 -2, 94 0. 20 20/80 0, 25 -1, 39 0. 30 30/70 0, 43 -0, 85 0. 40 40/60 0, 67 -0, 41 0. 50 50/50 1, 00 0. 60 60/40 1, 50 0, 41 0. 70 70/30 2, 33 0, 85 0. 80 80/20 4, 00 1, 39 0. 95 95/5 19, 0 2, 94 0. 97 0. 99 97/3 99/1 32, 3 99, 0 3, 48 4, 60 Ln (odds)

Transformação logística n A probabilidade varia entre 0 e 1, a odds varia entre 0 e + ∞. O log da odds varia entre– ∞ e + ∞. n Note que a distribuição do log da odds é simétrica.

Plot do log da Odds

“A probabilidade não é linear em z”

Função logit No modelo: Como estimamos se não conhecemos o z?

EMV n Usamos a EMV como alternativa ao método de MQO. Ou seja, achar os estimadores dos parâmetros que sejam consistentes com os dados da amostra. n A Função de verossimilhança é definida como a probabilidade conjunta de observar uma dada amostra, dados os parâmetros. n n n Suponha que tenha uma amostra com n observações aleatórias. f(yi ) é a função densidade de probabilidade de yi = 1 ou yi = 0. A probabilidade conjunta de observar os n valores de yi é dada pela função de verossimilhança:

Função de verossimilhança n Especificando f(. ): . Distribuição empírica discreta de um evento que tem apenas dois resultados: sucesso (yi = 1) ou fracasso (yi = 0). n Distribuição binomial

Função de verossimilhança n Sabendo p (se for um logit), temos a função de verossimilhança:

Log da função de verossimilhança (LL) Transformação logarítima (log likelihood) : n

EMV n A função LL pode dar infinitos valores para β. n Dada a forma funcional de f(. ) e as n observações, qual valor dos parâmetros β que maximizam a função de verossimilhança para a minha amostra? n Em outras palavras, quais são os valores mais prováveis para o meu vetor de parâmetros desconhecidos β dada a amostra disponível?

EMV LL é globalmente côncava e tem um máximo. O gradiente é para computar os parâmetros de interesse, e a hessian é usada para calcular a matriz variância covariância. Não existe solução analítica para este problema não linear. Uso do algortimo de otimização Newton-Raphson. O computador irá gerar todos possíveis valores para β, e irá calcular o valor da verossimilhança para cada um, para escolher o vetor de β tal que a verossimilhança seja a mais alta.

Exemplo: n Fatores que afetam a probabilidade de ter uma firma que faz inovação (inno = 1) n 352 (81. 7%) inovam e 79 (18. 3%) não inovam. n A odds de se ter uma inovação é 4 contra 1 (352/79=4. 45). n log da odds é 1. 494 (z = 1. 494) n Para a amostra de firmas a probabilidade de ser inovador é 4 vezes maior que a probabilidade de não ser inovador.

Regressão logística n Modelo com a constante apenas

Interpretação dos coeficientes n Transformação do logit em probabilidade :

Interpretação dos coeficientes n Valor empírico da amostra: 81, 7%

Interpretação dos coeficientes n Um coeficiente positivo indica que a probabilidade de inovação aumenta com o valor da variável explicativa. E vice-versa. n Não linearidade: a probabilidade não varia na mesma magnitude conforme o nível dos regressores. n Calcular a probabilidade do evento ocorrer num ponto médio da amostra.

Exemplo n Modelo completo

Interpretação n Usando os valores médios de rdi, lassets, spe e biotech, podemos calcular a probabilidade condicionada :

Efeitos marginais n A probabilidade é uma função não linear das variáveis explicativas n Uma mudança na probabilidade devido a mudança em uma variável explicativa não é independente dos valores das outras variáveis explicativas.

Medidas de ajuste n Nas estimações por Máxima Verossimilhança, não há algo como um R 2 n O log da verossimilhança pode ser usado como medida de ajuste. n Comparar os modelos usando os valores de LL.

Teste LR n A LR consiste na diferença entre o modelo não restrito (unc) e o modelo restrito (c ). Esta diferença segue uma distribuição de probabilidade de uma c 2. n Se a diferença entre os valores de LL é (não é) importante, é porque o conjunto de variáveis explicativas dão (não dão) informação relevante. A hipótese nula H 0 é que o modelo não fornece informação relevante. n Para valores altos de LR rejeitamos H 0 e aceitamos a hipótese alternativa Ha de que o conjunto de variáveis explicativas explicam de forma significativa o resultado.

Mc. Fadden Pseudo R 2 n Mc. Fadden Pseudo R 2 (1973). n Interpretação análoga ao R 2. Viesado para baixo e sempre baixo…

Modelo restrito Irrestrito

LR teste de uma variável adicionada (biotech)

Qualidade da predição