SlideShare uma empresa Scribd logo
+
Bioestatística - Universidade Católica de Brasília
ANOVA e modelos
Prof. Dr. Gabriel da Rocha Fernandes
Universidade Católica de Brasília
gabrielf@ucb.br - fernandes.gabriel@gmail.com
+
Ideias
2
nSeus resultados são quantitativos.
nVocê tem multiplas variáveis que possam explicar seus
resultados.
nObjetivo é identificar a contribuição de diferentes variáveis
para seu resultado final.
nExemplo:
n “For the button, an A/B test of three new word choices—”Learn More,”
“Join Us Now,” and “Sign Up Now”—revealed that “Learn More”
garnered 18.6 percent more signups per visitor than the default of “Sign
Up.” Similarly, a black-and-white photo of the Obama family
outperformed the default turquoise image by 13.1 percent. Using both
the family image and “Learn More,” signups increased by a thundering
40 percent.”
+
Exemplo
nCarregar os dados:
n movies <- read.table("movies.txt",sep="t",header=T,quote="")
n head(movies)
n factor(movies$rating)
nRelacionando o score com rating:
n recebe o valor lógico 1 se o filme for PG e 0 se não
for.
3
+
ANOVA no R
nFunção aov:
n aovObject <- aov(movies$score ~ movies$rating)
n aovObject
n aovObject$coefficients
nSegunda variável:
n aovObject2 <- aov(movies$score ~ movies$rating + movies$genre)
n aovObject2
4
+
Interpretando
nsummary(aovObject2)
nInvertendo a ordem:
n aovObject3 <- aov(movies$score ~ movies$genre + movies$rating)
n summary(aovObject3)
nPrimeiro F-value explica a variação gerada pela primeira
variável sem tomar em conta nenhuma outra variável.
nSegundo F-value explica a variação gerada pela segunda
variável que não foi explicada pela primeira.
nPode adicionar variáveis quantitativas.
5
+
Resultados binários
nMorreu/Sobreviveu
nGanhou/Perdeu
nSucesso/Falha
nBinário é o famoso “é/não é”
nRegressão linear não funciona
nCarregando os dados:
n load("/var/www/fileserver/ravensData.rda")
n head(ravensData)
6
+
Modelo linear disso
nlmRavens <- lm(ravensData$ravenWinNum ~ ravensData
$ravenScore)
nsummary(lmRavens)
nTem chance de 28% de ganhar se não marcar nenhum ponto?
nA cada ponto marcado aumenta 1,5% a chance de ganhar?
nPlotando:
n plot(ravensData$ravenScore,lmRavens
$fitted,pch=19,col="blue",ylab="Prob Win",xlab="Raven Score")
nProbabilidade maior que 1?
7
+
Chances
nBinário
n 0/1
nProbabilidade (0,1)
n
nChances (0, inf)
n
nLog chance (-inf, inf)
8
+
Entendendo as chances
9
+
Regressão logística
nFunção:
n logRegRavens <- glm(ravensData$ravenWinNum ~ ravensData
$ravenScore,family="binomial")
n summary(logRegRavens)
nexp(b1) é o tanto que aumenta a chance do Ravens ganhar ao
marcar um ponto.
nPlotando:
n plot(ravensData$ravenScore,logRegRavens
$fitted,pch=19,col="blue",xlab="Score",ylab="Prob Ravens Win")
10
+
Chances e intervalos de confiança
nChances menores que 1 quer dizer que é mais provável que
percam.
nChances maiores que 1 quer dizer que é mais provável que
ganhem.
nCalculando as chances e intervalo de confiaça:
n exp(logRegRavens$coefficients)
n exp(confint(logRegRavens))
nInterpretando:
n Chance 1 quer dizer que não há diferença entre ganhar e perder (50%/
50%)
n Se o intervalo de confiança engloba o valor “1” quer dizer que não
relação entre os pontos marcados e a chance de ganhar. Existem outros
fatores.
11
+
ANOVA para regressão logística
nUsando Chi-quadrado:
n anova(logRegRavens,test="Chisq")
nChi-quadrado lida com probabilidades.
12
+
Selecionando o modelo
nCarregue os dados:
n movies <- read.table("movies.txt",sep="t",header=T,quote="")
n movies <- movies[,-1]
nSelecionando:
n lm1 <- lm(score ~ .,data=movies)
n aicFormula <- step(lm1)
n aicFormula
nAIC fornece uma estimativa relativa da quantidade de
informação que você perde quando aplica aquele modelo.
13

Mais conteúdo relacionado

PDF
degree
PPTX
El uso de las TIC
PPT
A aurora boreal
PPTX
Mapas mentales ufap
PPT
1º concurso de fotografía www.yeclaofertas.com
PPT
Comprar y vender
PDF
Mar das deslembrancas
degree
El uso de las TIC
A aurora boreal
Mapas mentales ufap
1º concurso de fotografía www.yeclaofertas.com
Comprar y vender
Mar das deslembrancas

Semelhante a Estatística - Aula 4 (20)

PDF
Estatística - Aula 1
PDF
Estatística - Aula 3
PPT
Modelo de regressão linear: aspectos teóricos e computacionais
PDF
Livro de Probabilidade e Estatística - EAD - UFRGS (4)_VERIFICAR.pdf
PDF
Apostila estatistica
PPTX
Análise de Regressão: aspectos teóricos e computacionais
PDF
Minicurso de estatística experimental com o R - III SIC IFNMG
PDF
Análise exploratória e modelação com r parte 3
PDF
Estatística - Aula 5
PDF
Capítulo4 [Read-Only].pdf
PDF
lista regressão 2024 ufmg primeira prova
PPTX
Aula 01 melhoramento – Revisão de Estatística.pptx
PPT
Fundamentos da bioestatística
PDF
Apostila_Estatistica_-_V6_-_Resumida_e_atualizada.pdf
PDF
Modelos gaussianos_heteroscedasticos
PDF
Curso estatistica descritiva no r
PDF
Conceitos básicos de Software R
PDF
1 estatística descritiva, distribuição de frequência v discreta e continua
PDF
Apostila de Bioestatística
PDF
Módulo 1 - Modelos de regressão-6536985555.
Estatística - Aula 1
Estatística - Aula 3
Modelo de regressão linear: aspectos teóricos e computacionais
Livro de Probabilidade e Estatística - EAD - UFRGS (4)_VERIFICAR.pdf
Apostila estatistica
Análise de Regressão: aspectos teóricos e computacionais
Minicurso de estatística experimental com o R - III SIC IFNMG
Análise exploratória e modelação com r parte 3
Estatística - Aula 5
Capítulo4 [Read-Only].pdf
lista regressão 2024 ufmg primeira prova
Aula 01 melhoramento – Revisão de Estatística.pptx
Fundamentos da bioestatística
Apostila_Estatistica_-_V6_-_Resumida_e_atualizada.pdf
Modelos gaussianos_heteroscedasticos
Curso estatistica descritiva no r
Conceitos básicos de Software R
1 estatística descritiva, distribuição de frequência v discreta e continua
Apostila de Bioestatística
Módulo 1 - Modelos de regressão-6536985555.
Anúncio

Estatística - Aula 4

  • 1. + Bioestatística - Universidade Católica de Brasília ANOVA e modelos Prof. Dr. Gabriel da Rocha Fernandes Universidade Católica de Brasília gabrielf@ucb.br - fernandes.gabriel@gmail.com
  • 2. + Ideias 2 nSeus resultados são quantitativos. nVocê tem multiplas variáveis que possam explicar seus resultados. nObjetivo é identificar a contribuição de diferentes variáveis para seu resultado final. nExemplo: n “For the button, an A/B test of three new word choices—”Learn More,” “Join Us Now,” and “Sign Up Now”—revealed that “Learn More” garnered 18.6 percent more signups per visitor than the default of “Sign Up.” Similarly, a black-and-white photo of the Obama family outperformed the default turquoise image by 13.1 percent. Using both the family image and “Learn More,” signups increased by a thundering 40 percent.”
  • 3. + Exemplo nCarregar os dados: n movies <- read.table("movies.txt",sep="t",header=T,quote="") n head(movies) n factor(movies$rating) nRelacionando o score com rating: n recebe o valor lógico 1 se o filme for PG e 0 se não for. 3
  • 4. + ANOVA no R nFunção aov: n aovObject <- aov(movies$score ~ movies$rating) n aovObject n aovObject$coefficients nSegunda variável: n aovObject2 <- aov(movies$score ~ movies$rating + movies$genre) n aovObject2 4
  • 5. + Interpretando nsummary(aovObject2) nInvertendo a ordem: n aovObject3 <- aov(movies$score ~ movies$genre + movies$rating) n summary(aovObject3) nPrimeiro F-value explica a variação gerada pela primeira variável sem tomar em conta nenhuma outra variável. nSegundo F-value explica a variação gerada pela segunda variável que não foi explicada pela primeira. nPode adicionar variáveis quantitativas. 5
  • 6. + Resultados binários nMorreu/Sobreviveu nGanhou/Perdeu nSucesso/Falha nBinário é o famoso “é/não é” nRegressão linear não funciona nCarregando os dados: n load("/var/www/fileserver/ravensData.rda") n head(ravensData) 6
  • 7. + Modelo linear disso nlmRavens <- lm(ravensData$ravenWinNum ~ ravensData $ravenScore) nsummary(lmRavens) nTem chance de 28% de ganhar se não marcar nenhum ponto? nA cada ponto marcado aumenta 1,5% a chance de ganhar? nPlotando: n plot(ravensData$ravenScore,lmRavens $fitted,pch=19,col="blue",ylab="Prob Win",xlab="Raven Score") nProbabilidade maior que 1? 7
  • 10. + Regressão logística nFunção: n logRegRavens <- glm(ravensData$ravenWinNum ~ ravensData $ravenScore,family="binomial") n summary(logRegRavens) nexp(b1) é o tanto que aumenta a chance do Ravens ganhar ao marcar um ponto. nPlotando: n plot(ravensData$ravenScore,logRegRavens $fitted,pch=19,col="blue",xlab="Score",ylab="Prob Ravens Win") 10
  • 11. + Chances e intervalos de confiança nChances menores que 1 quer dizer que é mais provável que percam. nChances maiores que 1 quer dizer que é mais provável que ganhem. nCalculando as chances e intervalo de confiaça: n exp(logRegRavens$coefficients) n exp(confint(logRegRavens)) nInterpretando: n Chance 1 quer dizer que não há diferença entre ganhar e perder (50%/ 50%) n Se o intervalo de confiança engloba o valor “1” quer dizer que não relação entre os pontos marcados e a chance de ganhar. Existem outros fatores. 11
  • 12. + ANOVA para regressão logística nUsando Chi-quadrado: n anova(logRegRavens,test="Chisq") nChi-quadrado lida com probabilidades. 12
  • 13. + Selecionando o modelo nCarregue os dados: n movies <- read.table("movies.txt",sep="t",header=T,quote="") n movies <- movies[,-1] nSelecionando: n lm1 <- lm(score ~ .,data=movies) n aicFormula <- step(lm1) n aicFormula nAIC fornece uma estimativa relativa da quantidade de informação que você perde quando aplica aquele modelo. 13