SlideShare uma empresa Scribd logo
2020/03/27 00:37 1/8 9.1. Modelos Gaussianos Heteroscedásticos
Philodendros
Φιλοδενδρος - http://cmq.esalq.usp.br/Philodendros/
LCF-5876 Computação no Ambiente R:
Aplicações em Ecologia
e Recursos Florestais
9. MODELOS AVANÇADOS
9.1. Modelos Gaussianos Heteroscedásticos
9.1.1. Modelos Avançados
Os modelos lineares e não-lineares clássicos podem ser vistos como tendo os seguintes
componentes fundamentais:
$$ y = f(x_1,x_2,ldots,x_p) + varepsilon$$
sendo que
$y$ é a variável resposta, sempre uma variável quantitativa contínua;
$f(x_1,x_2,ldots,x_p)$ é o componente determinístico representado por uma função linear
(regressão linear) ou uma função não-linear (regressão não-linear);
$varepsilon$ é o componente estocástico, isto é, aleatório, sempre proveniente da família
Gaussiana.
Quando a relação linear se dá com uma transformação da média da variável resposta, surgem os
GLMs - Modelos Lineares Generalizados.
Mas, outros tipos de modelos são gerados quando se modificam os componentes dos modelos
clássicos. Por exemplo, o componente estocástico ($varepsilon$) é sempre tomada como sendo da
família Gaussiana, mas com média nula e variância constante. A média nula não deve ser alterada
pois o componente estocástico é adicionado ao componente determinístico. Mas, se relaxarmos a
exigência de que a variância seja constante mantendo os mesmos componentes determinísticos
(linear e não-linear) teremos um tipo de modelo que não seguem mais a teoria dos modelos clássicos.
Chamaremos esses modelos de Modelos Gaussianos Heteroscedásticos e examinaremos a sua
relevância.
Por outro lado, além de se alterar a variância do componente estocástico, pode se altear o carácter
determinístico das funções lineares e não-lineares. Se a essas funções forem adicionados elementos
estocásticos o componente determinístico deixará de ser totalmente determinístico, tendo efeitos
fixos (determinísticos) e efeitos aleatórios (estocásticos) . Tais modelos são chamados de Modelos
de Efeitos Mistos e são poderosos para modelar dados com estruturas complexas.
Last
update:
2020/03/06
10:14
lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos http://cmq.esalq.usp.br/Philodendros/doku.php?id=lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos
http://cmq.esalq.usp.br/Philodendros/ Printed on 2020/03/27 00:37
9.1.2. Modelos Gaussianos Heteroscedásticos
A Lei de Taylor (Taylor's Law) define que um grande número de variáveis biológicas e ecológicas
não possuem variâncias constante (não são homoscedásticas na linguagem estatística), mas pelo
contrário a variância populacional segue uma potência da média populacional (são
heteroscedásticas).
Por isso, a premissa fundamental do modelos clássicos de que a variância é homogênea
independentemente do efeito das variáveis explicativas é muito pouco realista. Uma efeito que tenda
a aumentar a média também tenderá a aumentar a variância.
Os Modelos Gaussianos Heteroscedásticos são importantes quando é necessário modelar a estrutura
heteroscedástica da variância.
1
############################################################################
2 ########### 9. MODELOS AVANÇADOS
3 ########### 9.1. Modelos Gaussianos Heteroscedásticos
4
############################################################################
5 # 9.1.1. Modelos Avançados
6 # 9.1.2. Modelos Gaussianos Heteroscedásticos
7 library(nlme)
8
9.1.3. A função 'gls' do pacote 'nlme'
O método utilizado para ajustar modelos com variância heteroscedástica é chamado de Quadrados
Mínimos Generalizados, em inglês “Generalized Least Squares”. O pacote nlme foi desenvolvido para
ajustar modelos avançados e para ajustar os modelos heteroscedásticos lineares ele possui a função
gls.
Vejamos os argumentos da função gls:
9 ## A função 'gls' do pactoe 'nlme'
10 args(gls)
11
> args(gls)
function (model, data = sys.frame(sys.parent()), correlation = NULL,
weights = NULL, subset, method = c("REML", "ML"), na.action = na.fail,
control = list(), verbose = FALSE)
NULL
2020/03/27 00:37 3/8 9.1. Modelos Gaussianos Heteroscedásticos
Philodendros
Φιλοδενδρος - http://cmq.esalq.usp.br/Philodendros/
>
model - o primeiro argumento, embora chamado de model, é a fórmula estatística que define o
modelo linear. Esse argumento segue a mesma lógica da definição dos modelos lineares da
função lm.
data - é a tabela de dados (data.frame) que contém os dados das variáveis da fórmula
estatística.
correlation - argumento que permite definir a estrtura de correlação entre as observações.
weights - argumento que permite definir a estrutura da variância heteroscedástica.
subset - vetor lógico que subamostra da tabela de dados.
method - método de ajuste: “REML” = restricted maximum likelihood (default) e “ML” =
maximum likelihood.
na.action - o que fazer com os NAs.
control - lista de controle do processo iterativo (o mesmo argumento da nls)
verbose - mostrar os passos do processo de ajuste iterativo.
O argumento que nos interessa é o weights pois é nele que definimos a estrutura de variância dos
dados.
Para seguir a Lei de Taylor, esse argumento deve ser definido como uma função de potência da
média. Existem várias funções para definir diferentes estruturas de variância no pacote nlme. Para
função de potência, há a função varPower.
Como a varPower é uma função que trabalha como argumento de outras funções, para inspecionar
seus argumentos é necessária tratá-la como uma string (nome entre aspas duplas):
12 args("varPower")
13
> args("varPower")
function (value = numeric(0), form = ~fitted(.), fixed = NULL)
NULL
>
O segundo argumento (form) define a forma como a função deve funcionar e valor default é ser uma
função (de potência) do valor ajustado pelo modelo (fitted(.)), que é a estimativa do valor médio.
Portanto, a função varPower modela a Lei de Taylor por default.
9.1.4. Exemplo: Equação de Volume de Meyer
Para exemplificar os modelos heteroscedásticos utilizaremos os dado do arquivo egrandis-volume.csv
que traz dados do diâmetro (dap), altura total (ht) e volume total (vtotal) de árvores de Eucalyptus
grandis.
14 # 9.1.3. Exemplo: Equação de Volume de Meyer
Last
update:
2020/03/06
10:14
lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos http://cmq.esalq.usp.br/Philodendros/doku.php?id=lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos
http://cmq.esalq.usp.br/Philodendros/ Printed on 2020/03/27 00:37
15 egrv <- read.csv("egrandis-volume.csv",as.is=TRUE)
16 plot( vtotal ~ dap, data=egrv)
17 plot( vtotal ~ ht, data=egrv)
18
Uma equação de volume, é um modelo que nos permite predizer o volume de uma árvore a partir do
seu diâmetro e altura. Um modelo clássico de equação de volume é conhecido como Modelo de
Meyer:
Modelo de Meyer
$$ v = beta_0 +beta_1 d +beta_2 d^2 +beta_3 h
+beta_4 d,h +beta_5 d^2,h + varepsilon$$
Na regressão linear clássica (variância constante) o modelo de Meyer é ajustado utilizando a função
lm. E se pode realizar as análilses tradicionais da regressão clássica.
19 meyer.ho <- lm(vtotal ~ dap + I(dap^2) + ht + I(dap*ht) + I(dap^2*ht),
data=egrv)
20 class(meyer.ho)
21 summary(meyer.ho)
22 plot(meyer.ho)
23
Note que o primeiro e o terceiro gráficos produzido pela função plot indicam claramente que os
dados são heteroscedásticos. Mas, isso pode ficar mais explícito ainda se compararmos o gráfico de
dispersão dos resíduos e dos resíduos padronizados (standardized residuals).
24 par(mfrow=c(1,2))
25 scatter.smooth(fitted(meyer.ho), residuals(meyer.ho),
lpars=list(col="red"))
26 abline(h=0, lty=2)
27 scatter.smooth(fitted(meyer.ho), residuals(meyer.ho,type="pearson"),
lpars=list(col="red"))
28 abline(h=0, lty=2)
29 par(mfrow=c(1,1))
30
Note que a padronização dos resíduos, isto é, dividí-los pelos seus respectivos desvios padrão, não
altera em nada o aumento da dispersão dos resíduos que ocorre à medida que o valor ajustado fica
maior.
Para ajustarmos o modelo de regressão linear heteroscedástico com estrutura de variância na forma
da função de potência, utilizamos a função gls:
31 meyer.he <- gls(vtotal ~ dap + I(dap^2) + ht + I(dap*ht) + I(dap^2*ht),
data=egrv,
32 weights = varPower(), method="ML")
33 class(meyer.he)
34 summary(meyer.he)
2020/03/27 00:37 5/8 9.1. Modelos Gaussianos Heteroscedásticos
Philodendros
Φιλοδενδρος - http://cmq.esalq.usp.br/Philodendros/
35
Aparentemente, considerar a variância heterogênea não ter resultado em grande mudança. Se
compararmos os valores ajustados pelos modelos, veremos que a diferença é negligenciável.
36 plot(fitted(meyer.ho), fitted(meyer.he)); abline(0,1,col="red")
37
Contudo, se compararmos o gráfico de dispersão do resíduo e do resíduo padronizado, veremos que
no modelo heteroscedástico o resíduo padronizado tem variância constante.
38 par(mfrow=c(1,2))
39 scatter.smooth(fitted(meyer.he), residuals(meyer.he),
lpars=list(col="red"))
40 abline(h=0, lty=2)
41 scatter.smooth(fitted(meyer.he), residuals(meyer.he, type="pearson"),
lpars=list(col="red"))
42 abline(h=0, lty=2)
43 par(mfrow=c(1,1))
44
Da mesma forma, a comparação dos modelos pelo critério de Akaike (AIC) mostra que o modelo
heteroscedástico é muito mais plausível.
45 AIC(meyer.ho, meyer.he)
46
9.1.5. A função 'gnls' do pacote 'nlme'
A função gnls permite ajustar modelos não lineares como aqueles ajustados pela função nls, mas
com estrutura de variância e correlação entre as observações.
Vejamos seus argumentos.
47 # 9.1.5. A função 'gnls' do pactoe 'nlme'
48
49 args(gnls)
50
> args(gnls)
function (model, data = sys.frame(sys.parent()), params, start,
correlation = NULL, weights = NULL, subset, na.action = na.fail,
naPattern, control = list(), verbose = FALSE)
NULL
Last
update:
2020/03/06
10:14
lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos http://cmq.esalq.usp.br/Philodendros/doku.php?id=lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos
http://cmq.esalq.usp.br/Philodendros/ Printed on 2020/03/27 00:37
>
Como na função gls, os argumentos correaltion e weights são utilizados para definir as
estruturas de correlação e variância das observações.
O argumento params (ausente na gls) permite transfomar os parâmetros do modelo não linear em
funções lineares de variáveis explicativas.
Os demais parâmetros seguem o que foi explicado acima.
9.1.6. Exemplo: Equação de Volume de Schumacher-Hall
O modelo Schumacher-Hall é um modelo não lineara para equações de volume e tem a seguinte
forma
Modelo Schumacher-Hall
$$ v = beta_0,d^{beta_1},h^{beta_2} +
varepsilon $$
Em se tratando de um modelo não-linear, é necessário encontrar valores iniciais para o ajuste do
modelo.
O componente determinístico do modelo pode ser facilmente linearizado aplicando-se a função
logaritmo:
Modelo Schumacher-Hall
$$ log(v) = beta_0' + beta_1,log(d)
+beta_2,log(h)$$
lembrando que $beta_0' = log(beta_0) Rightarrow beta_0 = exp(beta_0')$.
Os coeficientes da regerssão linear obtidos do modelo na escala logarítmica podem ser utilizados
como valores iniciais para o modelo não-linear.
51 # 9.1.6. Exemplo: Equação de volume de Schumacher-Hall
52
53 sh.l <- lm( log(vtotal) ~ log(dap) + log(ht), data=egrv)
54 summary(sh.l)
55
56 sh.nl <- nls( vtotal ~ b0*dap^b1*ht^b2, data=egrv,
57 start=list(b0=exp(-3.32), b1=1.80, b2=1.16) )
58 summary(sh.nl)
59
Como o volume de madeira das árvores segue a Lei de Taylor, o modelo não-linear possui o
problema da heteroscedasticidade, o que pode ser comprovado pelo gráfico de dispersão de resíduo
padronizado.
2020/03/27 00:37 7/8 9.1. Modelos Gaussianos Heteroscedásticos
Philodendros
Φιλοδενδρος - http://cmq.esalq.usp.br/Philodendros/
60 par(mfrow=c(1,2))
61 scatter.smooth(fitted(sh.nl), residuals(sh.nl), lpars=list(col="red"))
62 abline(h=0,lty=2)
63 scatter.smooth(fitted(sh.nl), residuals(sh.nl,type="pearson"),
lpars=list(col="red"))
64 abline(h=0,lty=2)
65 par(mfrow=c(1,1))
66
Com a função gnls podemos introduzir a variância crescente como função da média na estrutura do
modelo:
67 sh.nl.he <- gnls( vtotal ~ b0*dap^b1*ht^b2, data=egrv,
68 start=list(b0=0.038, b1=1.89, b2=1.07),
69 weights=varPower())
70 summary(sh.nl.he)
71
O gráfico dos resíduos padronizados atesta a importância da variância crescente no modelo.
72 par(mfrow=c(1,2))
73 scatter.smooth(fitted(sh.nl.he), residuals(sh.nl.he),
lpars=list(col="red"))
74 abline(h=0,lty=2)
75 scatter.smooth(fitted(sh.nl.he), residuals(sh.nl.he,type="pearson"),
lpars=list(col="red"))
76 abline(h=0,lty=2)
77 par(mfrow=c(1,1))
78
Novamente, o critério de Akaike aponta o modelo heteroscedástico como sendo muito superior ao
modelo homoscedástico, mas as diferenças de predição entre os dois modelos são negligenciáveis.
79 AIC(sh.nl, sh.nl.he)
80 plot(fitted(sh.nl), fitted(sh.nl.he)); abline(0,1,col="red")
81
Uma forma mais sofisticada de compara os modelos (e mostrar a pouca diferença entre eles) é
através dos gráficos de contorno para o volume predito.
82 range(egrv$dap)
83 range(egrv$ht)
84 d.fix <- seq(3.5,40,length=50)
85 h.fix <- seq(4.5,45,length=50)
86 v.pred.ho <- outer(d.fix, h.fix, function(x,y) predict(sh.nl,
data.frame(dap=x,ht=y)))
87 v.pred.he <- outer(d.fix, h.fix, function(x,y) predict(sh.nl.he,
data.frame(dap=x,ht=y)))
Last
update:
2020/03/06
10:14
lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos http://cmq.esalq.usp.br/Philodendros/doku.php?id=lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos
http://cmq.esalq.usp.br/Philodendros/ Printed on 2020/03/27 00:37
88 levs <- c(0.5,1,seq(2,18,by=2))*100
89 plot(ht ~ dap, data=egrv,
90 xlab="DAP (cm)", ylab="Altura Total (m)",
91 main="Gráfico de Contorno do Volume Total (dm3)",
92 cex=1.4, cex.axis=1.4, cex.lab=1.6, cex.main=1.7,
col="grey70",pch=16)
93 contour(d.fix, h.fix, v.pred.ho, levels=levs, col="blue", lwd=2,
labcex=1, add=TRUE)
94 contour(d.fix, h.fix, v.pred.he, levels=levs, col="red", lwd=2,
labcex=1, add=TRUE)
95 legend(15, 10, c("Homo","Hetero"), col=c("blue","red"), lwd=2, cex=1.6)
96
From:
http://cmq.esalq.usp.br/Philodendros/ - Philodendros
Φιλοδενδρος
Permanent link:
http://cmq.esalq.usp.br/Philodendros/doku.php?id=lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos
Last update: 2020/03/06 10:14

Mais conteúdo relacionado

PDF
Livro seagro
PPT
Modelo de regressão linear: aspectos teóricos e computacionais
PDF
Introdução à Regressão Linear
PDF
Gustavo relatorio
PDF
lista regressão 2024 ufmg primeira prova
PDF
Modelos lineares mistos aplicados em ciências atuariais.
PDF
Curso estatistica descritiva no r
PDF
Conceitos básicos de Software R
Livro seagro
Modelo de regressão linear: aspectos teóricos e computacionais
Introdução à Regressão Linear
Gustavo relatorio
lista regressão 2024 ufmg primeira prova
Modelos lineares mistos aplicados em ciências atuariais.
Curso estatistica descritiva no r
Conceitos básicos de Software R

Semelhante a Modelos gaussianos_heteroscedasticos (20)

PDF
Livro analise de dados amostrais complexos
PPT
Apresentação contabilometria 6
PDF
06. Inferência Estatística autor Ana Maria de Lima Farias_para_2025_1.pdf
PDF
Inferencia ESTATISTICA - VER ESSE MATERIAL.pdf
PPT
2009 - Seminário pós-graduação UFPR - Arch e garch
PDF
Minicurso de estatística experimental com o R - III SIC IFNMG
PDF
Take Home 2 - analise econometrica .pdf
PDF
DOCX
Modelos (S)ARIMA e extensões
PPTX
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
PPT
Regressao linear multipla
PDF
Topicos de econometria de séries temporais 2020_1
PDF
Analise empirica de dados multinomiaiE
PDF
Aula 2 de Análise de Regressão ufmg prova 1
PDF
Apostila filho 2003 nota metodológica sobre modelos lineares mistos
PDF
Econometria modelos de_regressao_linear
PDF
Cons_Modelos_Empiricos_Aula _Introdutoria.pdf
PPTX
Tópico 4 regressão linear simples 01
PDF
Módulo 1 - Modelos de regressão-6536985555.
DOCX
Vetores Autoregressivos
Livro analise de dados amostrais complexos
Apresentação contabilometria 6
06. Inferência Estatística autor Ana Maria de Lima Farias_para_2025_1.pdf
Inferencia ESTATISTICA - VER ESSE MATERIAL.pdf
2009 - Seminário pós-graduação UFPR - Arch e garch
Minicurso de estatística experimental com o R - III SIC IFNMG
Take Home 2 - analise econometrica .pdf
Modelos (S)ARIMA e extensões
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
Regressao linear multipla
Topicos de econometria de séries temporais 2020_1
Analise empirica de dados multinomiaiE
Aula 2 de Análise de Regressão ufmg prova 1
Apostila filho 2003 nota metodológica sobre modelos lineares mistos
Econometria modelos de_regressao_linear
Cons_Modelos_Empiricos_Aula _Introdutoria.pdf
Tópico 4 regressão linear simples 01
Módulo 1 - Modelos de regressão-6536985555.
Vetores Autoregressivos
Anúncio

Último (10)

PDF
01 Anticoag + fibrinol Abr 24 - prof MAISA DIA 020424.pdf
DOC
Saude Frutal qqqqqqqqqqqqqqqqqqqqqqqqqqq
PDF
POP-28-Administracao-de-medicacao-intramuscular.pdf
PDF
Previsão de Paradas em Máquinas Industriais
PDF
712893401-Geografia-em-perspectiva-3.pdf
PPTX
Apresentação Lagoa Mandaú Lagoa Mandaú Lagoa Mandaú
PPTX
Slide Gêneros textuais: resenha crítica.ppxt
PDF
DIAGNOSTICO DE AVARIAS EM AUTOMATISMOS INDUSTRIAIS.pdf
PDF
Investigação Operacional história completa
PPT
Aula 5 - Percepção e Tomada de Decisão Individual.ppt
01 Anticoag + fibrinol Abr 24 - prof MAISA DIA 020424.pdf
Saude Frutal qqqqqqqqqqqqqqqqqqqqqqqqqqq
POP-28-Administracao-de-medicacao-intramuscular.pdf
Previsão de Paradas em Máquinas Industriais
712893401-Geografia-em-perspectiva-3.pdf
Apresentação Lagoa Mandaú Lagoa Mandaú Lagoa Mandaú
Slide Gêneros textuais: resenha crítica.ppxt
DIAGNOSTICO DE AVARIAS EM AUTOMATISMOS INDUSTRIAIS.pdf
Investigação Operacional história completa
Aula 5 - Percepção e Tomada de Decisão Individual.ppt
Anúncio

Modelos gaussianos_heteroscedasticos

  • 1. 2020/03/27 00:37 1/8 9.1. Modelos Gaussianos Heteroscedásticos Philodendros Φιλοδενδρος - http://cmq.esalq.usp.br/Philodendros/ LCF-5876 Computação no Ambiente R: Aplicações em Ecologia e Recursos Florestais 9. MODELOS AVANÇADOS 9.1. Modelos Gaussianos Heteroscedásticos 9.1.1. Modelos Avançados Os modelos lineares e não-lineares clássicos podem ser vistos como tendo os seguintes componentes fundamentais: $$ y = f(x_1,x_2,ldots,x_p) + varepsilon$$ sendo que $y$ é a variável resposta, sempre uma variável quantitativa contínua; $f(x_1,x_2,ldots,x_p)$ é o componente determinístico representado por uma função linear (regressão linear) ou uma função não-linear (regressão não-linear); $varepsilon$ é o componente estocástico, isto é, aleatório, sempre proveniente da família Gaussiana. Quando a relação linear se dá com uma transformação da média da variável resposta, surgem os GLMs - Modelos Lineares Generalizados. Mas, outros tipos de modelos são gerados quando se modificam os componentes dos modelos clássicos. Por exemplo, o componente estocástico ($varepsilon$) é sempre tomada como sendo da família Gaussiana, mas com média nula e variância constante. A média nula não deve ser alterada pois o componente estocástico é adicionado ao componente determinístico. Mas, se relaxarmos a exigência de que a variância seja constante mantendo os mesmos componentes determinísticos (linear e não-linear) teremos um tipo de modelo que não seguem mais a teoria dos modelos clássicos. Chamaremos esses modelos de Modelos Gaussianos Heteroscedásticos e examinaremos a sua relevância. Por outro lado, além de se alterar a variância do componente estocástico, pode se altear o carácter determinístico das funções lineares e não-lineares. Se a essas funções forem adicionados elementos estocásticos o componente determinístico deixará de ser totalmente determinístico, tendo efeitos fixos (determinísticos) e efeitos aleatórios (estocásticos) . Tais modelos são chamados de Modelos de Efeitos Mistos e são poderosos para modelar dados com estruturas complexas.
  • 2. Last update: 2020/03/06 10:14 lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos http://cmq.esalq.usp.br/Philodendros/doku.php?id=lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos http://cmq.esalq.usp.br/Philodendros/ Printed on 2020/03/27 00:37 9.1.2. Modelos Gaussianos Heteroscedásticos A Lei de Taylor (Taylor's Law) define que um grande número de variáveis biológicas e ecológicas não possuem variâncias constante (não são homoscedásticas na linguagem estatística), mas pelo contrário a variância populacional segue uma potência da média populacional (são heteroscedásticas). Por isso, a premissa fundamental do modelos clássicos de que a variância é homogênea independentemente do efeito das variáveis explicativas é muito pouco realista. Uma efeito que tenda a aumentar a média também tenderá a aumentar a variância. Os Modelos Gaussianos Heteroscedásticos são importantes quando é necessário modelar a estrutura heteroscedástica da variância. 1 ############################################################################ 2 ########### 9. MODELOS AVANÇADOS 3 ########### 9.1. Modelos Gaussianos Heteroscedásticos 4 ############################################################################ 5 # 9.1.1. Modelos Avançados 6 # 9.1.2. Modelos Gaussianos Heteroscedásticos 7 library(nlme) 8 9.1.3. A função 'gls' do pacote 'nlme' O método utilizado para ajustar modelos com variância heteroscedástica é chamado de Quadrados Mínimos Generalizados, em inglês “Generalized Least Squares”. O pacote nlme foi desenvolvido para ajustar modelos avançados e para ajustar os modelos heteroscedásticos lineares ele possui a função gls. Vejamos os argumentos da função gls: 9 ## A função 'gls' do pactoe 'nlme' 10 args(gls) 11 > args(gls) function (model, data = sys.frame(sys.parent()), correlation = NULL, weights = NULL, subset, method = c("REML", "ML"), na.action = na.fail, control = list(), verbose = FALSE) NULL
  • 3. 2020/03/27 00:37 3/8 9.1. Modelos Gaussianos Heteroscedásticos Philodendros Φιλοδενδρος - http://cmq.esalq.usp.br/Philodendros/ > model - o primeiro argumento, embora chamado de model, é a fórmula estatística que define o modelo linear. Esse argumento segue a mesma lógica da definição dos modelos lineares da função lm. data - é a tabela de dados (data.frame) que contém os dados das variáveis da fórmula estatística. correlation - argumento que permite definir a estrtura de correlação entre as observações. weights - argumento que permite definir a estrutura da variância heteroscedástica. subset - vetor lógico que subamostra da tabela de dados. method - método de ajuste: “REML” = restricted maximum likelihood (default) e “ML” = maximum likelihood. na.action - o que fazer com os NAs. control - lista de controle do processo iterativo (o mesmo argumento da nls) verbose - mostrar os passos do processo de ajuste iterativo. O argumento que nos interessa é o weights pois é nele que definimos a estrutura de variância dos dados. Para seguir a Lei de Taylor, esse argumento deve ser definido como uma função de potência da média. Existem várias funções para definir diferentes estruturas de variância no pacote nlme. Para função de potência, há a função varPower. Como a varPower é uma função que trabalha como argumento de outras funções, para inspecionar seus argumentos é necessária tratá-la como uma string (nome entre aspas duplas): 12 args("varPower") 13 > args("varPower") function (value = numeric(0), form = ~fitted(.), fixed = NULL) NULL > O segundo argumento (form) define a forma como a função deve funcionar e valor default é ser uma função (de potência) do valor ajustado pelo modelo (fitted(.)), que é a estimativa do valor médio. Portanto, a função varPower modela a Lei de Taylor por default. 9.1.4. Exemplo: Equação de Volume de Meyer Para exemplificar os modelos heteroscedásticos utilizaremos os dado do arquivo egrandis-volume.csv que traz dados do diâmetro (dap), altura total (ht) e volume total (vtotal) de árvores de Eucalyptus grandis. 14 # 9.1.3. Exemplo: Equação de Volume de Meyer
  • 4. Last update: 2020/03/06 10:14 lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos http://cmq.esalq.usp.br/Philodendros/doku.php?id=lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos http://cmq.esalq.usp.br/Philodendros/ Printed on 2020/03/27 00:37 15 egrv <- read.csv("egrandis-volume.csv",as.is=TRUE) 16 plot( vtotal ~ dap, data=egrv) 17 plot( vtotal ~ ht, data=egrv) 18 Uma equação de volume, é um modelo que nos permite predizer o volume de uma árvore a partir do seu diâmetro e altura. Um modelo clássico de equação de volume é conhecido como Modelo de Meyer: Modelo de Meyer $$ v = beta_0 +beta_1 d +beta_2 d^2 +beta_3 h +beta_4 d,h +beta_5 d^2,h + varepsilon$$ Na regressão linear clássica (variância constante) o modelo de Meyer é ajustado utilizando a função lm. E se pode realizar as análilses tradicionais da regressão clássica. 19 meyer.ho <- lm(vtotal ~ dap + I(dap^2) + ht + I(dap*ht) + I(dap^2*ht), data=egrv) 20 class(meyer.ho) 21 summary(meyer.ho) 22 plot(meyer.ho) 23 Note que o primeiro e o terceiro gráficos produzido pela função plot indicam claramente que os dados são heteroscedásticos. Mas, isso pode ficar mais explícito ainda se compararmos o gráfico de dispersão dos resíduos e dos resíduos padronizados (standardized residuals). 24 par(mfrow=c(1,2)) 25 scatter.smooth(fitted(meyer.ho), residuals(meyer.ho), lpars=list(col="red")) 26 abline(h=0, lty=2) 27 scatter.smooth(fitted(meyer.ho), residuals(meyer.ho,type="pearson"), lpars=list(col="red")) 28 abline(h=0, lty=2) 29 par(mfrow=c(1,1)) 30 Note que a padronização dos resíduos, isto é, dividí-los pelos seus respectivos desvios padrão, não altera em nada o aumento da dispersão dos resíduos que ocorre à medida que o valor ajustado fica maior. Para ajustarmos o modelo de regressão linear heteroscedástico com estrutura de variância na forma da função de potência, utilizamos a função gls: 31 meyer.he <- gls(vtotal ~ dap + I(dap^2) + ht + I(dap*ht) + I(dap^2*ht), data=egrv, 32 weights = varPower(), method="ML") 33 class(meyer.he) 34 summary(meyer.he)
  • 5. 2020/03/27 00:37 5/8 9.1. Modelos Gaussianos Heteroscedásticos Philodendros Φιλοδενδρος - http://cmq.esalq.usp.br/Philodendros/ 35 Aparentemente, considerar a variância heterogênea não ter resultado em grande mudança. Se compararmos os valores ajustados pelos modelos, veremos que a diferença é negligenciável. 36 plot(fitted(meyer.ho), fitted(meyer.he)); abline(0,1,col="red") 37 Contudo, se compararmos o gráfico de dispersão do resíduo e do resíduo padronizado, veremos que no modelo heteroscedástico o resíduo padronizado tem variância constante. 38 par(mfrow=c(1,2)) 39 scatter.smooth(fitted(meyer.he), residuals(meyer.he), lpars=list(col="red")) 40 abline(h=0, lty=2) 41 scatter.smooth(fitted(meyer.he), residuals(meyer.he, type="pearson"), lpars=list(col="red")) 42 abline(h=0, lty=2) 43 par(mfrow=c(1,1)) 44 Da mesma forma, a comparação dos modelos pelo critério de Akaike (AIC) mostra que o modelo heteroscedástico é muito mais plausível. 45 AIC(meyer.ho, meyer.he) 46 9.1.5. A função 'gnls' do pacote 'nlme' A função gnls permite ajustar modelos não lineares como aqueles ajustados pela função nls, mas com estrutura de variância e correlação entre as observações. Vejamos seus argumentos. 47 # 9.1.5. A função 'gnls' do pactoe 'nlme' 48 49 args(gnls) 50 > args(gnls) function (model, data = sys.frame(sys.parent()), params, start, correlation = NULL, weights = NULL, subset, na.action = na.fail, naPattern, control = list(), verbose = FALSE) NULL
  • 6. Last update: 2020/03/06 10:14 lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos http://cmq.esalq.usp.br/Philodendros/doku.php?id=lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos http://cmq.esalq.usp.br/Philodendros/ Printed on 2020/03/27 00:37 > Como na função gls, os argumentos correaltion e weights são utilizados para definir as estruturas de correlação e variância das observações. O argumento params (ausente na gls) permite transfomar os parâmetros do modelo não linear em funções lineares de variáveis explicativas. Os demais parâmetros seguem o que foi explicado acima. 9.1.6. Exemplo: Equação de Volume de Schumacher-Hall O modelo Schumacher-Hall é um modelo não lineara para equações de volume e tem a seguinte forma Modelo Schumacher-Hall $$ v = beta_0,d^{beta_1},h^{beta_2} + varepsilon $$ Em se tratando de um modelo não-linear, é necessário encontrar valores iniciais para o ajuste do modelo. O componente determinístico do modelo pode ser facilmente linearizado aplicando-se a função logaritmo: Modelo Schumacher-Hall $$ log(v) = beta_0' + beta_1,log(d) +beta_2,log(h)$$ lembrando que $beta_0' = log(beta_0) Rightarrow beta_0 = exp(beta_0')$. Os coeficientes da regerssão linear obtidos do modelo na escala logarítmica podem ser utilizados como valores iniciais para o modelo não-linear. 51 # 9.1.6. Exemplo: Equação de volume de Schumacher-Hall 52 53 sh.l <- lm( log(vtotal) ~ log(dap) + log(ht), data=egrv) 54 summary(sh.l) 55 56 sh.nl <- nls( vtotal ~ b0*dap^b1*ht^b2, data=egrv, 57 start=list(b0=exp(-3.32), b1=1.80, b2=1.16) ) 58 summary(sh.nl) 59 Como o volume de madeira das árvores segue a Lei de Taylor, o modelo não-linear possui o problema da heteroscedasticidade, o que pode ser comprovado pelo gráfico de dispersão de resíduo padronizado.
  • 7. 2020/03/27 00:37 7/8 9.1. Modelos Gaussianos Heteroscedásticos Philodendros Φιλοδενδρος - http://cmq.esalq.usp.br/Philodendros/ 60 par(mfrow=c(1,2)) 61 scatter.smooth(fitted(sh.nl), residuals(sh.nl), lpars=list(col="red")) 62 abline(h=0,lty=2) 63 scatter.smooth(fitted(sh.nl), residuals(sh.nl,type="pearson"), lpars=list(col="red")) 64 abline(h=0,lty=2) 65 par(mfrow=c(1,1)) 66 Com a função gnls podemos introduzir a variância crescente como função da média na estrutura do modelo: 67 sh.nl.he <- gnls( vtotal ~ b0*dap^b1*ht^b2, data=egrv, 68 start=list(b0=0.038, b1=1.89, b2=1.07), 69 weights=varPower()) 70 summary(sh.nl.he) 71 O gráfico dos resíduos padronizados atesta a importância da variância crescente no modelo. 72 par(mfrow=c(1,2)) 73 scatter.smooth(fitted(sh.nl.he), residuals(sh.nl.he), lpars=list(col="red")) 74 abline(h=0,lty=2) 75 scatter.smooth(fitted(sh.nl.he), residuals(sh.nl.he,type="pearson"), lpars=list(col="red")) 76 abline(h=0,lty=2) 77 par(mfrow=c(1,1)) 78 Novamente, o critério de Akaike aponta o modelo heteroscedástico como sendo muito superior ao modelo homoscedástico, mas as diferenças de predição entre os dois modelos são negligenciáveis. 79 AIC(sh.nl, sh.nl.he) 80 plot(fitted(sh.nl), fitted(sh.nl.he)); abline(0,1,col="red") 81 Uma forma mais sofisticada de compara os modelos (e mostrar a pouca diferença entre eles) é através dos gráficos de contorno para o volume predito. 82 range(egrv$dap) 83 range(egrv$ht) 84 d.fix <- seq(3.5,40,length=50) 85 h.fix <- seq(4.5,45,length=50) 86 v.pred.ho <- outer(d.fix, h.fix, function(x,y) predict(sh.nl, data.frame(dap=x,ht=y))) 87 v.pred.he <- outer(d.fix, h.fix, function(x,y) predict(sh.nl.he, data.frame(dap=x,ht=y)))
  • 8. Last update: 2020/03/06 10:14 lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos http://cmq.esalq.usp.br/Philodendros/doku.php?id=lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos http://cmq.esalq.usp.br/Philodendros/ Printed on 2020/03/27 00:37 88 levs <- c(0.5,1,seq(2,18,by=2))*100 89 plot(ht ~ dap, data=egrv, 90 xlab="DAP (cm)", ylab="Altura Total (m)", 91 main="Gráfico de Contorno do Volume Total (dm3)", 92 cex=1.4, cex.axis=1.4, cex.lab=1.6, cex.main=1.7, col="grey70",pch=16) 93 contour(d.fix, h.fix, v.pred.ho, levels=levs, col="blue", lwd=2, labcex=1, add=TRUE) 94 contour(d.fix, h.fix, v.pred.he, levels=levs, col="red", lwd=2, labcex=1, add=TRUE) 95 legend(15, 10, c("Homo","Hetero"), col=c("blue","red"), lwd=2, cex=1.6) 96 From: http://cmq.esalq.usp.br/Philodendros/ - Philodendros Φιλοδενδρος Permanent link: http://cmq.esalq.usp.br/Philodendros/doku.php?id=lcf5876:historico-disciplina:2018:programa:09-modelos-avancados:09-01-modelos-gaussianos Last update: 2020/03/06 10:14