SlideShare uma empresa Scribd logo
Métodos Quantitativos para Finanças e Economia
Análise de Regressão
Jo˜ao F. Caldeira
www.ufrgs.br/ppge/caldeira/
Especializac¸ ˜ao em Economia e Financ¸as, PPGE-UFRGS
Porto Alegre, 12 de setembro de 2017
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 1
Introduc¸ ˜ao
• Um modelo de regressão é um meio formal de expressar um ingrediente
fundamental de uma relação:
◦ uma tendência de uma variável resposta (dependente) Y variar de acordo
com a variação de um preditor X de uma maneira sistemática.
• Postularemos que existe uma distribuição de probabilidade de Y para cada nível
de X e que esta distribuição de probabilidade varia de uma maneira sistemática
conforme X varia.
• A análise de regressão foi primeiramente desenvolvida por Sir Francis Galton na
última parte do século XIX.
• Galton estudou a relação entre as alturas de pais e filhos e notou que as alturas
das crianças dos pais mais altos e mais baixos pareciam “reverter” ou “regredir”
para a média do grupo. Ele chamou esta tendência de “regressão à
mediocridade”.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 2
Exemplos de Regress˜oes
• Regressão da Inflação (Y) sobre Desemprego (X): primeira versão da curva de
Phillips (em nível.
• Regressão do PIB sobre o Desemprego: Tipo a Lei de Okun (só que esta última é
usando a variação);
• Investimento sobre o PIB: chamam de efeito multiplicador, PIB sobre Investimento:
efeito acelerador;
• Investimento sobre Public Debt (Dívida Pública);
• Dívida Pública sobre Tax Burden (Carga Tributária);
• Investimento sobre Corporate Tax Rate (taxa de imposto corporativo);
• Public Debt sobre Investimento (para ver se o gasto do governo expulsa o
investimento - chamam de efeito crowding out).
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 3
Tipos de Dados
• Dados de corte (seção) transversal (coletados no mesmo intervalo de tempo).
◦ Exemplo: o salário de cada um de 100 indivíduos de um inventário.
◦ O mais comum é que os dados sejam quantitativos (salários são medidos em
reais, assim, os dados são números).
◦ Às vezes os dados são qualitativos, mas podem ser convertidos em dados
numéricos, referidas como variáveis dummy.
• Dados de série temporal.
◦ Comum em macroeconomia e finanças: GDP, preços de ações, taxas de
juros, taxa de câmbio, etc.
◦ Os dados são coletados em pontos específicos no tempo (diário, semanal,
mensal, ou todo ano).
• Dados em Painel: dados com componentes de cross-section e de séries
temporais.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 4
An´alise de Regress˜ao
• Objetivo da modelagem: simplificar o mundo complexo a nossa volta e nos
concentrar na essência do problema.
• Um modelo não precisa conter todos os detalhes do mundo complexo para ser
útil. Podemos quebrar os problemas em pequenas partes para ajudar na
compreensão.
• Podemos tentar manter constantes algumas das variáveis envolvidas em nosso
estudo afim de nos concentrar nas demais. Entretanto, devemos estar atentos aos
problemas de variável omitida e causalidade reversa para minorar erros nas
nossas conclusões sobre causa e efeito.
• Exemplo (causalidade reversa): em cidades com mais policiais há um número
maior de crimes. Logo, o policiamento aumenta a violência urbana!? O número de
policiais determina a criminalidade ou a criminalidade determina o número de
policiais?
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 5
An´alise de Regress˜ao
• A análise de regressão tem pelo menos 200 anos.
• Ela é a técnica de modelagem preditiva mais utilizada por ser simples e efetiva.
• Há, no entanto, várias técnicas mais sofisticadas que surgiram desde então.
Ainda assim, o estudo das té cnicas que iremos ver neste curso servem como
fundação para aplicações mais sofisticadas.
• A técnica é utilizada amplamente nas mais diversas áreas. Exemplos: Marketing,
Economia, Psicologia, Bioinformática.
• Às vezes, é útil transformar ou recodificar os dados para obter um bom modelo.
Enfoques condicionais: logaritmo, inversa, potências, etc...
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 6
Modelo Cl´assico de Regress˜ao Linear
• Vamos apresentar os conceitos básicos sobre estimação e testes de uma
regressão usando mínimos quadrados ordinários.
• Definimos um modelo de regressão linear simples como a relação entre Y e X
dada pela seguinte expressão:
Y = β0 + β1X + υ
onde:
◦ Y é a variável dependente, variável resposta, ou regressando;
◦ X é a variável independente, variável explicativa, ou regressor;
◦ β0 e β1 são os coeficientes da regressão, os quais são constantes;
◦ υ é o distúrbio estocástico ou termo de erro.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 7
Modelo de Regress˜ao Linear
• Modelo de Regressão Linear Populacional:
• Interpretação dos parâmetros:
◦ β0 (intercepto) ´e o valor da m´edia da distribuic¸ ˜ao de Y em X = 0, nem sempre tem
significado pr´atico como um termo separado (isolado) no modelo;
◦ β1 (inclinac¸ ˜ao) expressa a taxa de mudanc¸a em Y , isto ´e, a mudanc¸a em Y quando ocorre a
mudanc¸a de uma unidade em X.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 8
Modelo de Regress˜ao Linear
• Modelo de Regressão Linear Amostral
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 9
Motivac¸ ˜ao
• Como estimar o impacto de uma variável sobre a outra, o efeito causal, com base
em uma amostra de dados aleatória?
• Conversa de bar: o governo deve aumentar o número de policiais nas ruas para
reduzir a criminalidade ...
• Conversa de corredor: se a nossa turma fosse menor, o desempenho da classe
seria melhor;
• Conversa com os pais: preciso fazer pós-graduação para que o meu salário
aumente.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 10
Causalidade versus correlac¸ ˜ao
• Pesquisadores frequentemente são tentados a inferir uma relação de causa e
efeito entre X e Y quando eles ajustam um modelo de regressão ou realizam
uma análise de correlação.
• Uma associação significativa entre X e Y em ambas as situações não
necessariamente implica numa relação de causa e efeito.
• Correlação: indica a força e a direção do relacionamento linear entre duas
variáveis aleatórias, embora correlação não implique causalidade.
• Regressão: é um método para se estimar a média condicional (valor esperado) de
uma variável Y , dados os valores de algumas outras variáveis X.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 11
Construc¸ ˜ao de Modelos de Regress˜ao
• Seleção das variáveis preditoras;
• Escolha do Modelo de Regressão;
• Abrangência do Modelo.
• Obs: O problema, em estudos observacionais, é escolher o conjunto de variáveis
que podem ou devem ser incluídas no modelo.
• Dificuldades Pr´aticas:
◦ Nem todos os dados de interesse estão disponíveis;
◦ A base de dados pode não ser suficientemente ampla;
◦ Os resultados dificilmente podem ser generalizados;
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 12
Modelo Cl´assico de Regress˜ao Linear
• 1◦ Passo: Compreender o modelo clássico de regressão linear (MCRL regressão
simples);
• 2◦ Passo: Limitações do modelo;
• 3◦ Passo: Extensão do modelo simples para o modelo de regressão múltipla;
• 4◦ Passo: Testes para a verificação dos pressupostos do MMQO.
• Análise de regressão é uma metodologia estatística que utiliza a relação entre
duas ou mais variáveis quantitativas (ou qualitativas) de tal forma que uma
variável pode ser predita a partir da outra ou outras;
• Estamos interessados na relação entre duas variáveis, as quais chamaremos de
X e Y. Observamos pares de valores X e Y em cada amostra ou unidade
experimental, e vamos usá-los para dizer alguma coisa sobre a relação.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 13
Modelo de Regress˜ao Linear
• Considere o modelo com uma variável preditora, em que a função de regressão é
linear. O modelo é dado por:
Y = β0 + β1Xi + υi, i = 1, . . . , N.
onde:
◦ β0 (intercepto); quando a amostra inclui X = 0, β0 é o valor da média de Y
em X = 0, não tem significado prático como um termo separado (isolado) no
modelo.
◦ β1 (inclinação): expressa a variação esperada na variável dependente,
quando a variável independente varia uma unidade. Ele indica a mudança na
média da distribuição de probabilidade de Y por unidade de acréscimo em X.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 14
Modelo de Regress˜ao Linear: Exemplo
• Observe o modelo teórico para a estimação das quantidades demandadas:
Qd
= β0 − β1Pi
• Nos modelos teóricos, costuma-se atribuir de antemão valores para β0
(intercepto) e β1 (coeficiente angular).
• Por exemplo:
Qd
= 10 − 2Pi
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 15
Modelo de Regress˜ao Linear: Exemplo
• Com a equação em mãos, basta escolher valores para o preço (variável
independente) e descobrir qual será a quantidade demanda para cada nível de
preço;
• O problema é que, na prática, β0 e β1 são desconhecidos.
• Logo, para obter a quantidade demandada para cada nível de preço é preciso
estimar uma função de demanda, ou seja, obter estimativas de β0 e β1.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 16
O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO)
• Uma vez que não é possível saber quais os verdadeiros valores dos β′s, não será
possível encontrar a reta de regressão populacional(!)
E(Yi/Xi) = β0 + β1Xi
• Como proceder?
• O objetivo, portanto, é encontrar a reta de regressão que mais se aproxima da reta
regressão populacional; ou seja, descobrir a reta que melhor se ajusta aos dados.
• Observe, portanto, que o desafio é descobrir quais os estimadores (os
betas-chapéu) que mais se aproximam dos verdadeiros valores dos parâmetros
populacionais.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 17
O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO)
• É possível escrever o modelo linear de regressão simples como:
Yi = β0 + β1Xi
ou
Yi = E (Yi/Xi) + υi
• Uma vez que E(yi/xi) = β0 + β1xi é uma reta e os β′s são desconhecidos, é
possível utilizar a função de regressão amostral e, em seguida, isolar os resíduos,
ou seja:
Yi = β0 + β1Xi + υi ou
υi = Yi − β0 + β1Xi ou ainda
υi = Yi − Yi
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 18
O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO)
• Intuitivamente, o que se busca é a menor distância entre yi e yi, ou seja, a menor
diferença entre o valor estimado (previsto) e o valor observado. Em outros termos,
o menor valor para a soma dos resíduos.
• Para evitar que a soma dos resíduos seja igual a zero, utiliza-se a soma dos
quadrados dos resíduos.
• O método consiste em minimizar a função dada por:
min
β0,β1
N
i=1
ˆυ2
i = min
β0,β1
n
i=1
Yi − β0 − β1Xi
2
• Nesse caso, os valores betas-chapéu estimados serão os melhores estimadores
lineares, pois minimizam a distância entre o valor positivo e o valor esperado.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 19
O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO)
• Tomando as derivadas parciais com respeito aos parâmetros e resolvendo as
condições de primeira ordem:
ˆβ1 =
N
i=1
(xi − x) (yi − y)
N
i=1
(xi − x)
=
N
i=1
wi (yi − y)
ˆβ0 = y − ˆβ1x
onde:
wi =
(xi − x)
N
i=1
(xi − x)2
o que mostra que ˆβ1 é uma função linear de y. O mesmo argumento se aplica aos
estimadores de OLS de um modelo de regressão múltiplo.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 20
Hip´oteses do Modelo de Regress˜ao Linear
• H1 (Linearidade dos parâmetros): O modelo de regressão linear populacional é
linear nos coeficientes da regressão:
Y = β0 + β1X1 + β2X2 + β3X3 + . . . + βkXk + υ.
• H2 (Amostragem aleatória): Podemos extrair uma amostra aleatória da
população:
{(x1i, . . . , xki, yi) , i = 1, . . . , n}
• H3 (Média Condicional Zero): Condicional aos regressores, o valor esperado do
termo de erro é zero:
E (υ|X1, X2, . . . , Xk) = 0
Esta é a hipótese mais importante do modelo de regressão populacional.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 21
Hip´oteses do Modelo de Regress˜ao Linear
• H4 (Ausência de Colinearidade Perfeita): As variáveis explicativas 1, X1, . . . , XK
são linearmente independentes. Logo, Xj, j = 1, . . . , K, não podem ser
constantes. 






1 X11 X12 . . . XK1
1 X21 X22 . . . XK2
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 X1n X2n . . . XKn







n×(K+1)
Esta hipótese implica que o posto(X) = K + 1, pois n ≥ K + 1. (Não existe uma
relação linear exata entre os regressores. Com multicolinearidade perfeita, o
modelo não pode ser estimado por OLS. Um dos regressores precisa ser
removido).
• H5 (Homocedasticidade): Condicional aos regressores, a variância do termo de
erro é constante:
var (υ|X1, X2, . . . , Xk) = σ2
υ
ou, a variância condicional da variável dependente é constante.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 22
Hip´oteses do Modelo de Regress˜ao Linear
• H6 (Ausência de Correlação Serial): Ausência de correlação serial significa que
os termos de erro não são correlacionados ao longo do tempo:
cov (υi, υj|X) = 0, ∀i, j, i = j.
Esta hipótese refere-se a um modelo de regressão para o qual os dados são
coletados ao longo do tempo.
• H7 (Variação Amostral nos Regressores): Todos os regressores devem ter
variâncias positivas, isto é, nenhum regressor pode ser constante para todas as
observações amostra:
var (Xj) > 0, j = 1, 2, . . . , k.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 23
O Teorema de Gauss-Markov
• Sob (algumas) as hipóteses do modelo clássico de regresão linear, os
estimadores ˆβ0, ˆβ1, . . . , ˆβk são os best linear unbiased estimators (BLUE) dos
respectivos coeficientes de regressão populacional (β0, β1, . . . , βk).
• Linear: O estimador ˆβ é uma função linear das variáveis dependentes. Vamos
trabalhar com ˆβ1:
ˆβ1 =
N
i=1
(xi − x) (yi − y)
N
i=1
(xi − x)
=
N
i=1
wi (yi − y)
onde:
wi =
(xi − x)
N
i=1
(xi − x)2
o que mostra que ˆβ1 é uma função linear de y. O mesmo argumento se aplica aos
estimadores de OLS de um modelo de regressão múltiplo.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 24
O Teorema de Gauss-Markov
• Unbiased: O valor esperado do estimador de OLS ˆβ é o correspondente
coeficiente da regressão populacional:
E ˆβj = βj, j = 1, 2, . . . , k.
mesmo na presença de heterocedasticidade e correlação serial, os estimadores
de OLS ainda são não-viesados.
• Significa que se pegarmos um número de amostras e estimarmos os parâmetros
populacionais com estas amostras, o valor médio das estimativas será igual ao
valor populacional quando o números de amostras tender a infinito.
E β0 = β0,
E β1 = β1.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 25
O Teorema de Gauss-Markov
• Best: Significa que que a variância do estimador de OLS ˆβ é a menor dentre
quaisquer outros estimadores lineares não-viesados:
var ˆβj ≤ var ˜βj , j = 1, 2, . . . , k.
esta propriedade é conhecida como propriedade da eficiência. Todas as
hipóteses enunciadas são necessárias para a validade desta propriedade.
• Eficiência dos estimadores não viesados: o estimador é eficiente e nenhum
outro estimador linear não viesado tem maior precisão (menor variância) . Requer
que a variância seja homocedástica e não autocorrelacionada ao longo do tempo.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 26
Propriedade dos Estimadores de M´ınimos Quadrados
• Consistência: Significa que quando o tamanho da amostra cresce, tende a
infinito, a variância dos parâmetros deve convergir para zero e os parâmetros
convergem para os parâmetros populacionais.
◦ Um estimador pode ser viesado e ainda assim consistente, mas não é
possível um estimador ser não viesado e inconsistente.
• Parâmetros normalmente distribuídos: Uma vez que os parâmetros são
médias ponderadas das variáveis dependentes, eles podem ser tratados como
uma média.
◦ De acordo com o teorema do limite central, a média é normalmente
distribuída.
◦ Consequentemente, os estimadores de OLS são normalmente distribuídos
em amostras suficientemente grandes.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 27
R-quadrado e R2
-ajustado
• Uma medida da qualidade de ajuste - quão bem o modelo ajustado explica a
variabilidade de Y - é fornecida pelo R-quadrado da regressão, o qual é conhecido
como coeficiente de determinac¸ ˜ao.
• O coeficiente de determinação busca decompor o desvio em torno da média em
uma parte explicada e outra parte inexplicada:
Yi − Y = Yi − Y + Yi − ˆYi + Yi − Y
Explicado
+ Yi − ˆYi
Não-Explicado υi
• Assim, definimos a seguinte partição da soma de quadrados total.
• Soma dos Quadrados dos Total:
SST =
n
i=1
Yi − Y
2
que é a variação total amostral na variável dependente y com respeito à sua
média amostral.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 28
R-quadrado e R-quadrado ajustado
• Soma dos Quadrados da Explicada:
SSE =
n
i=1
Yi − Y i
2
que é a variação total amostral nos valores ajustados y com respeito à sua média
amostral.
• Soma dos Quadrados dos Resíduos:
SSR =
n
i=1
Yi − Yi
2
=
n
i=1
υ2
i
que é a variação amostral nos resíduos υ com respeito à sua média amostral, a
qual é igual a zero.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 29
R-quadrado e R-quadrado ajustado
• Isso prova que a variação total pode ser decomposta em variação explicada e
variação inexplicada:
SST = SSE + SSR
• Com base nesta relação, o R-quadrado é definido como a razão:
R2
=
SSE
SST
= 1 −
SSR
SST
a qual é a proporção da variação amostral da variável dependente explicada pelo
(s) regressor (es).
• Coeficiente de determinac¸ ˜ao: é uma medida de aderência da regressão, que mede o
sucesso dentro da amostra do modelo de regressão:
0 ≤ R2
≤ 1.
É também interpretado como a proporção da variância da variável dependente
que é explicada pelas variáveis explanatórias.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 30
O Coeficiente de determinac¸ ˜ao ajustado - R
2
• Um problema com o R2 é que qualquer variável adicionada ao modelo, por menor
que seja o seu poder de explicação, gera um crescimento no R2 normal.
• Logo, o R2-ajustado busca penalizar a estatística pelo acréscimo de variáveis
irrelevantes.
• O R
2
tem a mesma interpretação que o R2. A diferença é que o R
2
é corrigido
pelo número de graus de liberdade:
R
2
= 1 −
SSR/(n − k − 1)
SST(n − 1)
= 1 − 1 − R2 n − k
n − k − 1
.
• Comparando ambos os R-quadrados, podemos ver que:
R
2
≤ R2
.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 31
Exerc´ıcio: MCRL
• Utilizando o banco de dados mroz (contido no xlsx) faça uma regressão via
mínimos quadrados ordinários do log do salário (lwage) sobre uma constante,
edução (educ), experiência (exper) e experiência ao quadrado (expersq).
Interprete os resultados dos coefficientes (Como eles foram calculados? E os
erros-padrão? E R2?)
lwage = β0 + β1educ + β2exper + β3exper
2
• Faça as questões da lista de exercícios.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 32
Escolhendo a forma funcional: n˜ao-linearidades
• É possível incorporar algumas não-linearidades em um modelo de regressão
redefinindo os regressores e/ou a variável dependente. Suponha que façamos
W = X2, então Y = β0 + β1X + β2X2 pode ser escrito como
Y = β0 + β1X + β2W + υ.
O qual é uma função linear de W e pode ser estimado por OLS.
• Outras especificações não-lineares tais como a log − log, ou semilog também são
modelos considerados.
• Por exemplo, em:
log Y = β0 + β1 log X + υ.
qual é a resposta de Y a uma mudança marginal em X?
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 33
Por que usar o log natural?
• Taxa de Crescimento: A primeira-diferença do logaritmo de Y é
aproximadamente igual a taxa de crescimento de Y .
log yt − log yt−1
∼=
y1 − yt−1
yt−1
• Em termos percentuais,
%∆yt
∼= 100 ∗ ∆ log yt = 100 ∗ (log yt − log yt−1)
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 34
Por que usar o log natural?
• O logaritmo natural como expressão da elasticidade:
log(Yt) = α + β log(Xt)
log(Yt) = β∆ log(Xt)
∆ log(Yt)
∆ log(Xt)
= β
• Mas:
∆ log(Yt) = log(Yt) − log(Yt−1) = log
Yt
Yt−1
≈
Yt − Yt−1
Yt−1
• Então:
∆ log(Yt)
∆ log(Xt)
=
[(Yt − Yt−1)/Yt−1]
[(Xt − Xt−1/Xt−1]
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 35
Escolhendo a forma funcional: n˜ao-linearidades
• Sabendo a derivada do log: d log Y = dY/Y . Assim:
d log Y
d log X
=
∆Y/Y
∆X/X
= β1
o que significa que uma variação de 1% em X (i.e., ∆X/X) se traduz em uma
variação em Y igual a β1 (∆Y/Y = β1∆X/X).
• Os coeficientes do modelo log − log são expressos como elasticidades.
• Lembre-se que a elasticidade é expressa em porcentagem e não na forma
decimal, portanto, não deve ser multiplicada por 100.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 36
Escolhendo a forma funcional: log-linear
• Da mesma forma, se o modelo é log Y = β0 + β1X + υ, então
d log Y
dX
=
∆Y/Y
∆X
= β1
Note que agora não trabalhamos com variação percentual em X, mas sim uma
variação marginal.
• Em outras palavras, se X aumentar uma unidade, a mudança em Y será de
(β1 × 100)%.
• Essa especificação log-linear é amplamente usada na literatura sobre capital
humano. Para calcular a taxa de retorno de um ano a mais de educação, por
exemplo.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 37
Escolhendo a forma funcional: linear-log
• Finalmente, se o modelo é Y = β0 + β1 log X + υ, então:
dY
d log X
=
∆Y
∆X/X
= β1,
o que significa que uma variação de 1% em X implica em uma variação em Y de
β1 unidades.
• Note que em todas as especificações os coeficientes das regressões, β′s, são
lineares.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 38
Vari´aveis Dummy
• Até agora, todas as variáveis foram assumidas como sendo de natureza
quantitativa.
• No entanto, muitas variáveis interessantes são expressas em termos qualitativos,
como sexo, escolaridade, períodos de tempo e as estações, privado ou público e
assim por diante.
• Estas medidas qualitativas tem que ser transformadas em alguma proxy, de modo
que possam ser representadam e utilizadas em uma regressão.
• Variáveis binárias (dummies) são transformações discretas e usadas para esta
finalidade.
• Uma variável dummy para os homens poderiam, portanto, ser expressa da
seguinte forma:
D =



1 se um homem
0 caso contrário (mulher)
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 39
Vari´aveis Dummy de Intercepto
• A forma mais básica de aplicação de variáveis dummy é quando apenas o
intercepto é afetado:
Y = β0 + β1X + β2D + υ.
• Se tormamos a esperança condicional em relação às duas categorias de D que
obtemos:
E[Y |D = 1, X] = β0 + β2 + β1X
E[Y |D = 0, X] = β0 + β1X
• A única coisa que difere entre as duas médias condicionais é o coeficiente da
variável dummy.
• Suponha o seguinte resultado de um modelo de regressão com Y sendo a taxa
de salário hora, D uma dummy para os homens, e X uma variável para anos de
escolaridade.Os erros padrão são dados entre parênteses:
Y = 55.9
8.16
+ 21.9
4.30
D + 2.4
0.63
X
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 40
Vari´aveis Dummy de Intercepto
• Use os resultados da regressão para calcular quanto maior é a taxa média de
salário por hora para homens. Primeiro temos que verificar se o coeficiente para a
dummy para o sexo masculino é significativa.
• Na literatura empírica sobre capital humano a forma funcional mais utilizada é a
log-linear:
ln Y = 4.02
0.03
+ 0.18
0.02
D + 0.03
0.01
X
Efeito Marginal: eβ1 − 1 = e0.18
− 1 = 0.197.
• Ou seja, os homens ganham, em média, 19.7 por cento a mais por hora do que as
mulheres, o controlando para a educação.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 41
Vari´aveis Dummy de Inclinac¸ ˜ao
• Se voltarmos ao modelo de capital humano, é possível argumentar que a
diferença de salário entre homens e mulheres pode ser devido a diferenças no
seu retorno à educação.
Y = β0 + (β1 + β2D)X + υ
= β0 + β1X + β2(DX) + υ
• Assim, uma maneira de testar se o retorno à educação é diferente entre homens e
mulheres seria testar se β2 é diferente de zero, o que deve ser testado antes de
testar se β1 + β2 é diferente de zero.
• Usando o mesmo conjunto de dados do Exemplo acima. Os resultados são
apresentados a seguir com os erros padrão entre parêntesis:
ln Y = 4.11
0.031
+ 0.024
0.003
X + 0.014
0.001
DX
• Para investigar se há uma diferença no retorno da educação entre homens e
mulheres basta testar o coeficiente estimado para o produto cruzado.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 42
Vari´aveis qualitativas com v´arias categorias
• Isso exige uma variável qualitativa com mais de duas categorias. Por exemplo:
D =



0 escola primária
1 escola secundária
2 ensino superior
• Para incluir D diretamente em um modelo de regressão tem que ter certeza de
que o efeito de ir do ensino primário para o ensino secundário na taxa de salário
por hora é do mesmo tamanho do efeito da passagem do ensino secundário para
o ensino pós-secundário.
• Se este não for o caso, temos de permitir diferenças nestes dois efeitos. Existem
pelo menos duas abordagens a este problema.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 43
Vari´aveis qualitativas com v´arias categorias
• A primeira e mais básica abordagem é criar três variáveis binárias; uma para cada
nível de ensino, da seguinte forma:
D1 =



0 escola primária
1 caso contrário
D2 =



0 escola secundária
1 caso contrário
D3 =



0 ensino superior
1 caso contrário
• Podemos agora tratar D1, D2 e D3 como três variáveis explicativas, e incluí-las
no modelo de regressão.
• No entanto, é importante evitar a chamado armadilha variável binária (dummy).
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 44
Vari´aveis qualitativas com v´arias categorias
• A armadilha da variável dummy aparece quando o analista tenta especificar e
estimar o seguinte modelo:
ln Y = β0 + β1D1 + β2D32 + β3D3 + β4X + υ.
• É matematicamente impossível estimar os parâmetros, pois não há variação na
soma das três variáveis dummy, uma vez que D1 + D2 + D3 = 1 para todas as
observações no conjunto de dados.
• A maneira mais fácil de resolver isso é para excluir uma delas e tratar a categoria
que foi excluída como uma categoria de referência.
ln Y = β0 + β2D2 + β3D3 + β4X + υ.
• Isto é, se D1 é excluída, as outras categorias terão D1 como referência.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 45
Vari´aveis qualitativas com v´arias categorias
• β2, portanto, é interpretado como o efeito no salário de ir do ensino primário para
o ensino secundário, e β3 irá representar o efeito no salário de ir do ensino
primário para escolaridade superior.
• Uma alternativa a excluir uma das categorias é de excluir o termo constante, o
que nos daria o modelo:
ln Y = β†
1D1 + β†
2D2 + β†
3D3 + β4X + υ.
• Neste caso as três variáveis dummy irão funcionar como três interceptos neste
modelo; um para cada nível de ensino. Os coeficientes não podem ser
interpretadas como mudanças relativas a este caso.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 46
Vari´aveis qualitativas com v´arias categorias
• Comparar e interpretar os resultados:
Especificação I: ln Y = 3.29
0.043
+ 0.154
0.024
D2 + 0.295
0.022
D3 + 0.009
0.001
X
Especificação II: ln Y = 3.29
0.043
D1 + 4.083
0.034
D2 + 4.224
0.036
D3 + 0.009
0.001
X.
onde as três variáveis dummies representam três níveis de ensino, e X
representa a idade do indivíduo.
• A primeira coisa a notar é que β0 = β†
1, β0 + β2 = β†
2 e β0 + β2 + β3 = β†
3.
Assim, as duas especificações estão muito relacionados.
• Além disso β†
2 − β†
1 = β2 e β†
3 − β†
1 = β3.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 47

Mais conteúdo relacionado

PDF
A fábula do tigre (indiana)
PPTX
AS abelha
PDF
Versos personalizados para finalistas
PDF
E4 análise de regressão simples
PDF
Regressão Linear I
PPTX
Regressao linear
PPT
Modelo de regressão linear: aspectos teóricos e computacionais
PDF
Econometria modelos de_regressao_linear
A fábula do tigre (indiana)
AS abelha
Versos personalizados para finalistas
E4 análise de regressão simples
Regressão Linear I
Regressao linear
Modelo de regressão linear: aspectos teóricos e computacionais
Econometria modelos de_regressao_linear

Semelhante a Linear regression model (20)

PDF
IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)
PDF
Regressao simples
PPTX
Tópico 4 regressão linear simples 01
PPTX
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
PPT
Cap 2 - MRLS.ppt
PDF
Introdução à Regressão Linear
PDF
Regressão Linear Múltipla
PPTX
Análise de regressão linear
PDF
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
PPTX
AMD - Aula n.º 8 - regressão linear simples.pptx
PDF
Regressao
PDF
SCX5001_2023 - Regressao Linear Multipla.pdf
PDF
Cap 2 gujarati alunos
PDF
Lista de Exercícios Econometria I - UFES
PDF
Apostila regressao linear
PDF
Módulo 1 - Modelos de regressão-6536985555.
PDF
Métodos quantitativos para a disciplina
PPT
PDF
Aula 4 modelos de regressão linear
PPT
regressão linear- multicolinearidade.ppt
IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)
Regressao simples
Tópico 4 regressão linear simples 01
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
Cap 2 - MRLS.ppt
Introdução à Regressão Linear
Regressão Linear Múltipla
Análise de regressão linear
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
AMD - Aula n.º 8 - regressão linear simples.pptx
Regressao
SCX5001_2023 - Regressao Linear Multipla.pdf
Cap 2 gujarati alunos
Lista de Exercícios Econometria I - UFES
Apostila regressao linear
Módulo 1 - Modelos de regressão-6536985555.
Métodos quantitativos para a disciplina
Aula 4 modelos de regressão linear
regressão linear- multicolinearidade.ppt
Anúncio

Mais de Gabriel Peixe (6)

PDF
Algoritmos de Clusterização
PDF
O framework de big data para inteligência de marketing dinâmica
PDF
Sistema de recomendações de Filmes do Netflix
PDF
Social Big Data - Inovação e Branding
PPTX
Wilex é isso mesmo!
PDF
O planejamento
Algoritmos de Clusterização
O framework de big data para inteligência de marketing dinâmica
Sistema de recomendações de Filmes do Netflix
Social Big Data - Inovação e Branding
Wilex é isso mesmo!
O planejamento
Anúncio

Último (14)

PDF
TRABALHO DE MATEMÁTICA FINAL SLIDES (3).pdf
PPTX
AULA 5_JOGOS-PRÉ DESPORTIVOS_260822.pptx
PPTX
IRPF2025Coletivadeimprensaimposto de renda 2.pptx
PDF
Organização sistemas e metodos - adminis
PPT
ANÁLISE FINANCEIRA apresentação completa.ppt
PPTX
BLOCOS ECONOMICOS PARA ALUNOS DO 9 ANO DO ENSINO BASICO
PDF
Gastos com o Pessoal - quais os gastos com pessoal
PPTX
Aula 1 - Introdução à Contabilidade Pública - CASP (1).pptx
PPTX
Estrutura de Capital das Empresas na Óptica Financeira
PDF
DOC-20250806-WA0031._20250806_135655_0000.pdf
PPTX
Planilha de custo e formação de preços.pptx
PDF
Pilulas-do-Conhecimento-Suprimento-de-Fundos-Orientacoes-Gerais-e-Regularizac...
PPTX
planejamento estratégico em rh etrtrtrt
PDF
Cartórios: Pilar Estratégico para a Economia, Cidadania e Eficiência do Brasil
TRABALHO DE MATEMÁTICA FINAL SLIDES (3).pdf
AULA 5_JOGOS-PRÉ DESPORTIVOS_260822.pptx
IRPF2025Coletivadeimprensaimposto de renda 2.pptx
Organização sistemas e metodos - adminis
ANÁLISE FINANCEIRA apresentação completa.ppt
BLOCOS ECONOMICOS PARA ALUNOS DO 9 ANO DO ENSINO BASICO
Gastos com o Pessoal - quais os gastos com pessoal
Aula 1 - Introdução à Contabilidade Pública - CASP (1).pptx
Estrutura de Capital das Empresas na Óptica Financeira
DOC-20250806-WA0031._20250806_135655_0000.pdf
Planilha de custo e formação de preços.pptx
Pilulas-do-Conhecimento-Suprimento-de-Fundos-Orientacoes-Gerais-e-Regularizac...
planejamento estratégico em rh etrtrtrt
Cartórios: Pilar Estratégico para a Economia, Cidadania e Eficiência do Brasil

Linear regression model

  • 1. Métodos Quantitativos para Finanças e Economia Análise de Regressão Jo˜ao F. Caldeira www.ufrgs.br/ppge/caldeira/ Especializac¸ ˜ao em Economia e Financ¸as, PPGE-UFRGS Porto Alegre, 12 de setembro de 2017 M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 1
  • 2. Introduc¸ ˜ao • Um modelo de regressão é um meio formal de expressar um ingrediente fundamental de uma relação: ◦ uma tendência de uma variável resposta (dependente) Y variar de acordo com a variação de um preditor X de uma maneira sistemática. • Postularemos que existe uma distribuição de probabilidade de Y para cada nível de X e que esta distribuição de probabilidade varia de uma maneira sistemática conforme X varia. • A análise de regressão foi primeiramente desenvolvida por Sir Francis Galton na última parte do século XIX. • Galton estudou a relação entre as alturas de pais e filhos e notou que as alturas das crianças dos pais mais altos e mais baixos pareciam “reverter” ou “regredir” para a média do grupo. Ele chamou esta tendência de “regressão à mediocridade”. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 2
  • 3. Exemplos de Regress˜oes • Regressão da Inflação (Y) sobre Desemprego (X): primeira versão da curva de Phillips (em nível. • Regressão do PIB sobre o Desemprego: Tipo a Lei de Okun (só que esta última é usando a variação); • Investimento sobre o PIB: chamam de efeito multiplicador, PIB sobre Investimento: efeito acelerador; • Investimento sobre Public Debt (Dívida Pública); • Dívida Pública sobre Tax Burden (Carga Tributária); • Investimento sobre Corporate Tax Rate (taxa de imposto corporativo); • Public Debt sobre Investimento (para ver se o gasto do governo expulsa o investimento - chamam de efeito crowding out). M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 3
  • 4. Tipos de Dados • Dados de corte (seção) transversal (coletados no mesmo intervalo de tempo). ◦ Exemplo: o salário de cada um de 100 indivíduos de um inventário. ◦ O mais comum é que os dados sejam quantitativos (salários são medidos em reais, assim, os dados são números). ◦ Às vezes os dados são qualitativos, mas podem ser convertidos em dados numéricos, referidas como variáveis dummy. • Dados de série temporal. ◦ Comum em macroeconomia e finanças: GDP, preços de ações, taxas de juros, taxa de câmbio, etc. ◦ Os dados são coletados em pontos específicos no tempo (diário, semanal, mensal, ou todo ano). • Dados em Painel: dados com componentes de cross-section e de séries temporais. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 4
  • 5. An´alise de Regress˜ao • Objetivo da modelagem: simplificar o mundo complexo a nossa volta e nos concentrar na essência do problema. • Um modelo não precisa conter todos os detalhes do mundo complexo para ser útil. Podemos quebrar os problemas em pequenas partes para ajudar na compreensão. • Podemos tentar manter constantes algumas das variáveis envolvidas em nosso estudo afim de nos concentrar nas demais. Entretanto, devemos estar atentos aos problemas de variável omitida e causalidade reversa para minorar erros nas nossas conclusões sobre causa e efeito. • Exemplo (causalidade reversa): em cidades com mais policiais há um número maior de crimes. Logo, o policiamento aumenta a violência urbana!? O número de policiais determina a criminalidade ou a criminalidade determina o número de policiais? M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 5
  • 6. An´alise de Regress˜ao • A análise de regressão tem pelo menos 200 anos. • Ela é a técnica de modelagem preditiva mais utilizada por ser simples e efetiva. • Há, no entanto, várias técnicas mais sofisticadas que surgiram desde então. Ainda assim, o estudo das té cnicas que iremos ver neste curso servem como fundação para aplicações mais sofisticadas. • A técnica é utilizada amplamente nas mais diversas áreas. Exemplos: Marketing, Economia, Psicologia, Bioinformática. • Às vezes, é útil transformar ou recodificar os dados para obter um bom modelo. Enfoques condicionais: logaritmo, inversa, potências, etc... M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 6
  • 7. Modelo Cl´assico de Regress˜ao Linear • Vamos apresentar os conceitos básicos sobre estimação e testes de uma regressão usando mínimos quadrados ordinários. • Definimos um modelo de regressão linear simples como a relação entre Y e X dada pela seguinte expressão: Y = β0 + β1X + υ onde: ◦ Y é a variável dependente, variável resposta, ou regressando; ◦ X é a variável independente, variável explicativa, ou regressor; ◦ β0 e β1 são os coeficientes da regressão, os quais são constantes; ◦ υ é o distúrbio estocástico ou termo de erro. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 7
  • 8. Modelo de Regress˜ao Linear • Modelo de Regressão Linear Populacional: • Interpretação dos parâmetros: ◦ β0 (intercepto) ´e o valor da m´edia da distribuic¸ ˜ao de Y em X = 0, nem sempre tem significado pr´atico como um termo separado (isolado) no modelo; ◦ β1 (inclinac¸ ˜ao) expressa a taxa de mudanc¸a em Y , isto ´e, a mudanc¸a em Y quando ocorre a mudanc¸a de uma unidade em X. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 8
  • 9. Modelo de Regress˜ao Linear • Modelo de Regressão Linear Amostral M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 9
  • 10. Motivac¸ ˜ao • Como estimar o impacto de uma variável sobre a outra, o efeito causal, com base em uma amostra de dados aleatória? • Conversa de bar: o governo deve aumentar o número de policiais nas ruas para reduzir a criminalidade ... • Conversa de corredor: se a nossa turma fosse menor, o desempenho da classe seria melhor; • Conversa com os pais: preciso fazer pós-graduação para que o meu salário aumente. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 10
  • 11. Causalidade versus correlac¸ ˜ao • Pesquisadores frequentemente são tentados a inferir uma relação de causa e efeito entre X e Y quando eles ajustam um modelo de regressão ou realizam uma análise de correlação. • Uma associação significativa entre X e Y em ambas as situações não necessariamente implica numa relação de causa e efeito. • Correlação: indica a força e a direção do relacionamento linear entre duas variáveis aleatórias, embora correlação não implique causalidade. • Regressão: é um método para se estimar a média condicional (valor esperado) de uma variável Y , dados os valores de algumas outras variáveis X. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 11
  • 12. Construc¸ ˜ao de Modelos de Regress˜ao • Seleção das variáveis preditoras; • Escolha do Modelo de Regressão; • Abrangência do Modelo. • Obs: O problema, em estudos observacionais, é escolher o conjunto de variáveis que podem ou devem ser incluídas no modelo. • Dificuldades Pr´aticas: ◦ Nem todos os dados de interesse estão disponíveis; ◦ A base de dados pode não ser suficientemente ampla; ◦ Os resultados dificilmente podem ser generalizados; M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 12
  • 13. Modelo Cl´assico de Regress˜ao Linear • 1◦ Passo: Compreender o modelo clássico de regressão linear (MCRL regressão simples); • 2◦ Passo: Limitações do modelo; • 3◦ Passo: Extensão do modelo simples para o modelo de regressão múltipla; • 4◦ Passo: Testes para a verificação dos pressupostos do MMQO. • Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas (ou qualitativas) de tal forma que uma variável pode ser predita a partir da outra ou outras; • Estamos interessados na relação entre duas variáveis, as quais chamaremos de X e Y. Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usá-los para dizer alguma coisa sobre a relação. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 13
  • 14. Modelo de Regress˜ao Linear • Considere o modelo com uma variável preditora, em que a função de regressão é linear. O modelo é dado por: Y = β0 + β1Xi + υi, i = 1, . . . , N. onde: ◦ β0 (intercepto); quando a amostra inclui X = 0, β0 é o valor da média de Y em X = 0, não tem significado prático como um termo separado (isolado) no modelo. ◦ β1 (inclinação): expressa a variação esperada na variável dependente, quando a variável independente varia uma unidade. Ele indica a mudança na média da distribuição de probabilidade de Y por unidade de acréscimo em X. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 14
  • 15. Modelo de Regress˜ao Linear: Exemplo • Observe o modelo teórico para a estimação das quantidades demandadas: Qd = β0 − β1Pi • Nos modelos teóricos, costuma-se atribuir de antemão valores para β0 (intercepto) e β1 (coeficiente angular). • Por exemplo: Qd = 10 − 2Pi M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 15
  • 16. Modelo de Regress˜ao Linear: Exemplo • Com a equação em mãos, basta escolher valores para o preço (variável independente) e descobrir qual será a quantidade demanda para cada nível de preço; • O problema é que, na prática, β0 e β1 são desconhecidos. • Logo, para obter a quantidade demandada para cada nível de preço é preciso estimar uma função de demanda, ou seja, obter estimativas de β0 e β1. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 16
  • 17. O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO) • Uma vez que não é possível saber quais os verdadeiros valores dos β′s, não será possível encontrar a reta de regressão populacional(!) E(Yi/Xi) = β0 + β1Xi • Como proceder? • O objetivo, portanto, é encontrar a reta de regressão que mais se aproxima da reta regressão populacional; ou seja, descobrir a reta que melhor se ajusta aos dados. • Observe, portanto, que o desafio é descobrir quais os estimadores (os betas-chapéu) que mais se aproximam dos verdadeiros valores dos parâmetros populacionais. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 17
  • 18. O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO) • É possível escrever o modelo linear de regressão simples como: Yi = β0 + β1Xi ou Yi = E (Yi/Xi) + υi • Uma vez que E(yi/xi) = β0 + β1xi é uma reta e os β′s são desconhecidos, é possível utilizar a função de regressão amostral e, em seguida, isolar os resíduos, ou seja: Yi = β0 + β1Xi + υi ou υi = Yi − β0 + β1Xi ou ainda υi = Yi − Yi M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 18
  • 19. O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO) • Intuitivamente, o que se busca é a menor distância entre yi e yi, ou seja, a menor diferença entre o valor estimado (previsto) e o valor observado. Em outros termos, o menor valor para a soma dos resíduos. • Para evitar que a soma dos resíduos seja igual a zero, utiliza-se a soma dos quadrados dos resíduos. • O método consiste em minimizar a função dada por: min β0,β1 N i=1 ˆυ2 i = min β0,β1 n i=1 Yi − β0 − β1Xi 2 • Nesse caso, os valores betas-chapéu estimados serão os melhores estimadores lineares, pois minimizam a distância entre o valor positivo e o valor esperado. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 19
  • 20. O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO) • Tomando as derivadas parciais com respeito aos parâmetros e resolvendo as condições de primeira ordem: ˆβ1 = N i=1 (xi − x) (yi − y) N i=1 (xi − x) = N i=1 wi (yi − y) ˆβ0 = y − ˆβ1x onde: wi = (xi − x) N i=1 (xi − x)2 o que mostra que ˆβ1 é uma função linear de y. O mesmo argumento se aplica aos estimadores de OLS de um modelo de regressão múltiplo. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 20
  • 21. Hip´oteses do Modelo de Regress˜ao Linear • H1 (Linearidade dos parâmetros): O modelo de regressão linear populacional é linear nos coeficientes da regressão: Y = β0 + β1X1 + β2X2 + β3X3 + . . . + βkXk + υ. • H2 (Amostragem aleatória): Podemos extrair uma amostra aleatória da população: {(x1i, . . . , xki, yi) , i = 1, . . . , n} • H3 (Média Condicional Zero): Condicional aos regressores, o valor esperado do termo de erro é zero: E (υ|X1, X2, . . . , Xk) = 0 Esta é a hipótese mais importante do modelo de regressão populacional. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 21
  • 22. Hip´oteses do Modelo de Regress˜ao Linear • H4 (Ausência de Colinearidade Perfeita): As variáveis explicativas 1, X1, . . . , XK são linearmente independentes. Logo, Xj, j = 1, . . . , K, não podem ser constantes.        1 X11 X12 . . . XK1 1 X21 X22 . . . XK2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 X1n X2n . . . XKn        n×(K+1) Esta hipótese implica que o posto(X) = K + 1, pois n ≥ K + 1. (Não existe uma relação linear exata entre os regressores. Com multicolinearidade perfeita, o modelo não pode ser estimado por OLS. Um dos regressores precisa ser removido). • H5 (Homocedasticidade): Condicional aos regressores, a variância do termo de erro é constante: var (υ|X1, X2, . . . , Xk) = σ2 υ ou, a variância condicional da variável dependente é constante. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 22
  • 23. Hip´oteses do Modelo de Regress˜ao Linear • H6 (Ausência de Correlação Serial): Ausência de correlação serial significa que os termos de erro não são correlacionados ao longo do tempo: cov (υi, υj|X) = 0, ∀i, j, i = j. Esta hipótese refere-se a um modelo de regressão para o qual os dados são coletados ao longo do tempo. • H7 (Variação Amostral nos Regressores): Todos os regressores devem ter variâncias positivas, isto é, nenhum regressor pode ser constante para todas as observações amostra: var (Xj) > 0, j = 1, 2, . . . , k. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 23
  • 24. O Teorema de Gauss-Markov • Sob (algumas) as hipóteses do modelo clássico de regresão linear, os estimadores ˆβ0, ˆβ1, . . . , ˆβk são os best linear unbiased estimators (BLUE) dos respectivos coeficientes de regressão populacional (β0, β1, . . . , βk). • Linear: O estimador ˆβ é uma função linear das variáveis dependentes. Vamos trabalhar com ˆβ1: ˆβ1 = N i=1 (xi − x) (yi − y) N i=1 (xi − x) = N i=1 wi (yi − y) onde: wi = (xi − x) N i=1 (xi − x)2 o que mostra que ˆβ1 é uma função linear de y. O mesmo argumento se aplica aos estimadores de OLS de um modelo de regressão múltiplo. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 24
  • 25. O Teorema de Gauss-Markov • Unbiased: O valor esperado do estimador de OLS ˆβ é o correspondente coeficiente da regressão populacional: E ˆβj = βj, j = 1, 2, . . . , k. mesmo na presença de heterocedasticidade e correlação serial, os estimadores de OLS ainda são não-viesados. • Significa que se pegarmos um número de amostras e estimarmos os parâmetros populacionais com estas amostras, o valor médio das estimativas será igual ao valor populacional quando o números de amostras tender a infinito. E β0 = β0, E β1 = β1. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 25
  • 26. O Teorema de Gauss-Markov • Best: Significa que que a variância do estimador de OLS ˆβ é a menor dentre quaisquer outros estimadores lineares não-viesados: var ˆβj ≤ var ˜βj , j = 1, 2, . . . , k. esta propriedade é conhecida como propriedade da eficiência. Todas as hipóteses enunciadas são necessárias para a validade desta propriedade. • Eficiência dos estimadores não viesados: o estimador é eficiente e nenhum outro estimador linear não viesado tem maior precisão (menor variância) . Requer que a variância seja homocedástica e não autocorrelacionada ao longo do tempo. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 26
  • 27. Propriedade dos Estimadores de M´ınimos Quadrados • Consistência: Significa que quando o tamanho da amostra cresce, tende a infinito, a variância dos parâmetros deve convergir para zero e os parâmetros convergem para os parâmetros populacionais. ◦ Um estimador pode ser viesado e ainda assim consistente, mas não é possível um estimador ser não viesado e inconsistente. • Parâmetros normalmente distribuídos: Uma vez que os parâmetros são médias ponderadas das variáveis dependentes, eles podem ser tratados como uma média. ◦ De acordo com o teorema do limite central, a média é normalmente distribuída. ◦ Consequentemente, os estimadores de OLS são normalmente distribuídos em amostras suficientemente grandes. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 27
  • 28. R-quadrado e R2 -ajustado • Uma medida da qualidade de ajuste - quão bem o modelo ajustado explica a variabilidade de Y - é fornecida pelo R-quadrado da regressão, o qual é conhecido como coeficiente de determinac¸ ˜ao. • O coeficiente de determinação busca decompor o desvio em torno da média em uma parte explicada e outra parte inexplicada: Yi − Y = Yi − Y + Yi − ˆYi + Yi − Y Explicado + Yi − ˆYi Não-Explicado υi • Assim, definimos a seguinte partição da soma de quadrados total. • Soma dos Quadrados dos Total: SST = n i=1 Yi − Y 2 que é a variação total amostral na variável dependente y com respeito à sua média amostral. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 28
  • 29. R-quadrado e R-quadrado ajustado • Soma dos Quadrados da Explicada: SSE = n i=1 Yi − Y i 2 que é a variação total amostral nos valores ajustados y com respeito à sua média amostral. • Soma dos Quadrados dos Resíduos: SSR = n i=1 Yi − Yi 2 = n i=1 υ2 i que é a variação amostral nos resíduos υ com respeito à sua média amostral, a qual é igual a zero. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 29
  • 30. R-quadrado e R-quadrado ajustado • Isso prova que a variação total pode ser decomposta em variação explicada e variação inexplicada: SST = SSE + SSR • Com base nesta relação, o R-quadrado é definido como a razão: R2 = SSE SST = 1 − SSR SST a qual é a proporção da variação amostral da variável dependente explicada pelo (s) regressor (es). • Coeficiente de determinac¸ ˜ao: é uma medida de aderência da regressão, que mede o sucesso dentro da amostra do modelo de regressão: 0 ≤ R2 ≤ 1. É também interpretado como a proporção da variância da variável dependente que é explicada pelas variáveis explanatórias. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 30
  • 31. O Coeficiente de determinac¸ ˜ao ajustado - R 2 • Um problema com o R2 é que qualquer variável adicionada ao modelo, por menor que seja o seu poder de explicação, gera um crescimento no R2 normal. • Logo, o R2-ajustado busca penalizar a estatística pelo acréscimo de variáveis irrelevantes. • O R 2 tem a mesma interpretação que o R2. A diferença é que o R 2 é corrigido pelo número de graus de liberdade: R 2 = 1 − SSR/(n − k − 1) SST(n − 1) = 1 − 1 − R2 n − k n − k − 1 . • Comparando ambos os R-quadrados, podemos ver que: R 2 ≤ R2 . M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 31
  • 32. Exerc´ıcio: MCRL • Utilizando o banco de dados mroz (contido no xlsx) faça uma regressão via mínimos quadrados ordinários do log do salário (lwage) sobre uma constante, edução (educ), experiência (exper) e experiência ao quadrado (expersq). Interprete os resultados dos coefficientes (Como eles foram calculados? E os erros-padrão? E R2?) lwage = β0 + β1educ + β2exper + β3exper 2 • Faça as questões da lista de exercícios. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 32
  • 33. Escolhendo a forma funcional: n˜ao-linearidades • É possível incorporar algumas não-linearidades em um modelo de regressão redefinindo os regressores e/ou a variável dependente. Suponha que façamos W = X2, então Y = β0 + β1X + β2X2 pode ser escrito como Y = β0 + β1X + β2W + υ. O qual é uma função linear de W e pode ser estimado por OLS. • Outras especificações não-lineares tais como a log − log, ou semilog também são modelos considerados. • Por exemplo, em: log Y = β0 + β1 log X + υ. qual é a resposta de Y a uma mudança marginal em X? M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 33
  • 34. Por que usar o log natural? • Taxa de Crescimento: A primeira-diferença do logaritmo de Y é aproximadamente igual a taxa de crescimento de Y . log yt − log yt−1 ∼= y1 − yt−1 yt−1 • Em termos percentuais, %∆yt ∼= 100 ∗ ∆ log yt = 100 ∗ (log yt − log yt−1) M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 34
  • 35. Por que usar o log natural? • O logaritmo natural como expressão da elasticidade: log(Yt) = α + β log(Xt) log(Yt) = β∆ log(Xt) ∆ log(Yt) ∆ log(Xt) = β • Mas: ∆ log(Yt) = log(Yt) − log(Yt−1) = log Yt Yt−1 ≈ Yt − Yt−1 Yt−1 • Então: ∆ log(Yt) ∆ log(Xt) = [(Yt − Yt−1)/Yt−1] [(Xt − Xt−1/Xt−1] M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 35
  • 36. Escolhendo a forma funcional: n˜ao-linearidades • Sabendo a derivada do log: d log Y = dY/Y . Assim: d log Y d log X = ∆Y/Y ∆X/X = β1 o que significa que uma variação de 1% em X (i.e., ∆X/X) se traduz em uma variação em Y igual a β1 (∆Y/Y = β1∆X/X). • Os coeficientes do modelo log − log são expressos como elasticidades. • Lembre-se que a elasticidade é expressa em porcentagem e não na forma decimal, portanto, não deve ser multiplicada por 100. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 36
  • 37. Escolhendo a forma funcional: log-linear • Da mesma forma, se o modelo é log Y = β0 + β1X + υ, então d log Y dX = ∆Y/Y ∆X = β1 Note que agora não trabalhamos com variação percentual em X, mas sim uma variação marginal. • Em outras palavras, se X aumentar uma unidade, a mudança em Y será de (β1 × 100)%. • Essa especificação log-linear é amplamente usada na literatura sobre capital humano. Para calcular a taxa de retorno de um ano a mais de educação, por exemplo. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 37
  • 38. Escolhendo a forma funcional: linear-log • Finalmente, se o modelo é Y = β0 + β1 log X + υ, então: dY d log X = ∆Y ∆X/X = β1, o que significa que uma variação de 1% em X implica em uma variação em Y de β1 unidades. • Note que em todas as especificações os coeficientes das regressões, β′s, são lineares. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 38
  • 39. Vari´aveis Dummy • Até agora, todas as variáveis foram assumidas como sendo de natureza quantitativa. • No entanto, muitas variáveis interessantes são expressas em termos qualitativos, como sexo, escolaridade, períodos de tempo e as estações, privado ou público e assim por diante. • Estas medidas qualitativas tem que ser transformadas em alguma proxy, de modo que possam ser representadam e utilizadas em uma regressão. • Variáveis binárias (dummies) são transformações discretas e usadas para esta finalidade. • Uma variável dummy para os homens poderiam, portanto, ser expressa da seguinte forma: D =    1 se um homem 0 caso contrário (mulher) M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 39
  • 40. Vari´aveis Dummy de Intercepto • A forma mais básica de aplicação de variáveis dummy é quando apenas o intercepto é afetado: Y = β0 + β1X + β2D + υ. • Se tormamos a esperança condicional em relação às duas categorias de D que obtemos: E[Y |D = 1, X] = β0 + β2 + β1X E[Y |D = 0, X] = β0 + β1X • A única coisa que difere entre as duas médias condicionais é o coeficiente da variável dummy. • Suponha o seguinte resultado de um modelo de regressão com Y sendo a taxa de salário hora, D uma dummy para os homens, e X uma variável para anos de escolaridade.Os erros padrão são dados entre parênteses: Y = 55.9 8.16 + 21.9 4.30 D + 2.4 0.63 X M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 40
  • 41. Vari´aveis Dummy de Intercepto • Use os resultados da regressão para calcular quanto maior é a taxa média de salário por hora para homens. Primeiro temos que verificar se o coeficiente para a dummy para o sexo masculino é significativa. • Na literatura empírica sobre capital humano a forma funcional mais utilizada é a log-linear: ln Y = 4.02 0.03 + 0.18 0.02 D + 0.03 0.01 X Efeito Marginal: eβ1 − 1 = e0.18 − 1 = 0.197. • Ou seja, os homens ganham, em média, 19.7 por cento a mais por hora do que as mulheres, o controlando para a educação. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 41
  • 42. Vari´aveis Dummy de Inclinac¸ ˜ao • Se voltarmos ao modelo de capital humano, é possível argumentar que a diferença de salário entre homens e mulheres pode ser devido a diferenças no seu retorno à educação. Y = β0 + (β1 + β2D)X + υ = β0 + β1X + β2(DX) + υ • Assim, uma maneira de testar se o retorno à educação é diferente entre homens e mulheres seria testar se β2 é diferente de zero, o que deve ser testado antes de testar se β1 + β2 é diferente de zero. • Usando o mesmo conjunto de dados do Exemplo acima. Os resultados são apresentados a seguir com os erros padrão entre parêntesis: ln Y = 4.11 0.031 + 0.024 0.003 X + 0.014 0.001 DX • Para investigar se há uma diferença no retorno da educação entre homens e mulheres basta testar o coeficiente estimado para o produto cruzado. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 42
  • 43. Vari´aveis qualitativas com v´arias categorias • Isso exige uma variável qualitativa com mais de duas categorias. Por exemplo: D =    0 escola primária 1 escola secundária 2 ensino superior • Para incluir D diretamente em um modelo de regressão tem que ter certeza de que o efeito de ir do ensino primário para o ensino secundário na taxa de salário por hora é do mesmo tamanho do efeito da passagem do ensino secundário para o ensino pós-secundário. • Se este não for o caso, temos de permitir diferenças nestes dois efeitos. Existem pelo menos duas abordagens a este problema. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 43
  • 44. Vari´aveis qualitativas com v´arias categorias • A primeira e mais básica abordagem é criar três variáveis binárias; uma para cada nível de ensino, da seguinte forma: D1 =    0 escola primária 1 caso contrário D2 =    0 escola secundária 1 caso contrário D3 =    0 ensino superior 1 caso contrário • Podemos agora tratar D1, D2 e D3 como três variáveis explicativas, e incluí-las no modelo de regressão. • No entanto, é importante evitar a chamado armadilha variável binária (dummy). M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 44
  • 45. Vari´aveis qualitativas com v´arias categorias • A armadilha da variável dummy aparece quando o analista tenta especificar e estimar o seguinte modelo: ln Y = β0 + β1D1 + β2D32 + β3D3 + β4X + υ. • É matematicamente impossível estimar os parâmetros, pois não há variação na soma das três variáveis dummy, uma vez que D1 + D2 + D3 = 1 para todas as observações no conjunto de dados. • A maneira mais fácil de resolver isso é para excluir uma delas e tratar a categoria que foi excluída como uma categoria de referência. ln Y = β0 + β2D2 + β3D3 + β4X + υ. • Isto é, se D1 é excluída, as outras categorias terão D1 como referência. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 45
  • 46. Vari´aveis qualitativas com v´arias categorias • β2, portanto, é interpretado como o efeito no salário de ir do ensino primário para o ensino secundário, e β3 irá representar o efeito no salário de ir do ensino primário para escolaridade superior. • Uma alternativa a excluir uma das categorias é de excluir o termo constante, o que nos daria o modelo: ln Y = β† 1D1 + β† 2D2 + β† 3D3 + β4X + υ. • Neste caso as três variáveis dummy irão funcionar como três interceptos neste modelo; um para cada nível de ensino. Os coeficientes não podem ser interpretadas como mudanças relativas a este caso. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 46
  • 47. Vari´aveis qualitativas com v´arias categorias • Comparar e interpretar os resultados: Especificação I: ln Y = 3.29 0.043 + 0.154 0.024 D2 + 0.295 0.022 D3 + 0.009 0.001 X Especificação II: ln Y = 3.29 0.043 D1 + 4.083 0.034 D2 + 4.224 0.036 D3 + 0.009 0.001 X. onde as três variáveis dummies representam três níveis de ensino, e X representa a idade do indivíduo. • A primeira coisa a notar é que β0 = β† 1, β0 + β2 = β† 2 e β0 + β2 + β3 = β† 3. Assim, as duas especificações estão muito relacionados. • Além disso β† 2 − β† 1 = β2 e β† 3 − β† 1 = β3. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 47