See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/315735094
Módulo 4 - Regressão no SPSS
Technical Report · September 2016
DOI: 10.13140/RG.2.2.21763.09765
CITATIONS
0
READS
7,271
1 author:
Some of the authors of this publication are also working on these related projects:
RESISTANCE TRAINNING, AUTONOMIC NERVOUS SYSTEM AND CARDIOVADCULAR NERVOUS SYSTEM View project
Frequência Cardíaca de indivíduos diabéticos e exercício resistido View project
Eduardo Federighi Baisi Chagas
Universidade de Marília
48 PUBLICATIONS   11 CITATIONS   
SEE PROFILE
All content following this page was uploaded by Eduardo Federighi Baisi Chagas on 01 April 2017.
The user has requested enhancement of the downloaded file.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
MATERIAL DIDÁTICO
CURSO DE ESTATÍSTICA APLICADA PARA INICIANTES
MÓDULO 4
ESTATÍSTICA ANALÍTICA III
Regressão no SPSS
AUTOR: EDUARDO FEDERIGHI BAISI CHAGAS
MARÍLIA
2016
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
SUMÁRIO
1. Regressão
2. Regressão Linear Simples
3. Regressão Linear Múltipla
4. Regressão Logística Binária
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
1. REGRESSÃO
A correlação pode ser uma ferramenta útil, porém ela não informa sobre o
poder preditivo de uma ou mais variáveis. Por outro lado, a REGRESSÃO permite
ajustar um modelo preditivo, ou seja, construir um modelo matemático para prever os
valores da variável dependente (VD) a partir de uma ou mais variáveis independentes
(VI). O conceito de regressão é baseado na equação genérica:
Saídai = (Modeloi) + Erroi
Na REGRESSÃO o modelo que ajustamos é linear, ou seja, o modelo é
baseado em uma RETA. Desta forma, é necessário ajustar o melhor modelo que
descreve os dados. Porém lembre que o melhor modelo ainda pode não ser suficiente
para prever suficientemente a Saída (VD). Existem vários modelos de ajuste da linha ou
reta de regressão e o mais utilizado é o métodos dos mínimos quadrados.
A Reta é definida por dois aspectos:
a) A inclinação da linha (Slope), normalmente representado por “b1”;
b) O ponto que a linha cruza o eixo vertical (y), conhecido como intercepto
(b0).
Desta forma, o modelo pode ser representado pela equação:
Yi = (b0+bi *Xi) + ei
Onde Yi é a variável de saída e Xi representa a variável previsora. Os
parâmetros b0 e bi são conhecidos como coeficientes de regressão. O termo
resíduo ei representa a diferença entre o valor previsto pela linha e o valor
observado.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
O método dos Mínimos Quadrados analisa a diferença vertical entre a linha e
os dados reais. Algumas diferenças são positivas e outras negativas, e estas diferenças
são chamadas de resíduos. As diferenças elevadas ao quadrado fornecem uma medida
de quão bem uma medida se ajusta aos dados. O método dos Mínimos Quadrados
seleciona a linha que produz a menor soma das diferenças elevadas ao quadrado.
Selecionada a linha de melhor ajuste é necessário avaliar a qualidade desta
linha, ou seja, determinar qual a capacidade da equação produzida pela regressão prever
os dados da VD a partir de dados de uma VI. Para isto, a linha de regressão produzida é
comparada com a forma mais básica de previsão, que é representada pela média.
Imagine no exemplo das figuras abaixo que se pretenda prever os valore de
Consumo Máximo de Oxigênio (VO2max) e partir dos valores de índice de massa
corporal (IMC). Considerando que a amostra tem um valor médio de VO2max de 17
(ml/kg/mim) a previsão mais simples seria dizer que independente do valor de IMC o
sujeito terá um VO2max de 17.
A soma dos quadrados dos desvios é calculada para a média (SSt) e para os
valores para a linha de regressão de melhor ajuste (SSr). A melhor previsão resultante da
utilização da linha de regressão ao invés da média é obtida calculado a diferença entre
SSt e SSr. Essa diferença nos mostra a redução da imprecisão do modelo resultante do
ajuste do modelo da linha de regressão aos dados. Essa melhoria é a soma dos
quadrados do modelo (SSm).
Se o valor de SSm é alto, usar o modelo é bem melhor do que utilizar a média
para prever o valor da variável resultante. No entanto se o SSm é pequeno, então utilizar
o modelo de regressão é apenas um pouco melhor do que usar a média.
Uma medida útil para se obter as somas dos quadrados é a proporção de
melhoria debitada ao nosso modelo. Isso é facilmente calculado dividindo a SSr por SSt.
O valor obtido é denominado R2
que representa a quantidade de variância nas saídas
explicadas pelo modelo SSm relativa a quanta variação foi inicialmente explicada por
SSt..
R2
= SSm / SSt
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
A interpretação do R2
é semelhante a correlação e a raiz quadrada do valor de
R2
produz o valor de correlação de Pearson. Valores de R2
próximos de 1 indicam que o
modelo explica grande percentual das variações de “y” a partir das variações nos
valores de “x”. Por outro lado, valores próximos de ZERO indicam que o modelo
explica pouco do comportamento de “y” a partir dos valores de “x”.
Uma segunda utilização das somas dos quadrados para avaliar o modelo é por
meio do teste F, que tem por base a razão de melhoria devida ao modelo SSm e a
diferença entre o modelo e os dados observados (SSr).
SSt – utiliza as diferenças
entre os dados
observados e a média
dos valores de “y”
SSr – utiliza as diferenças
entre os dados
observados e a linha de
regressão
SSm – utiliza as diferenças
entre o valor médio de Y
e a linha de regressão
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
De fato, em vez de utilizar a soma dos quadrados, tomamos a Média dessas
somas, denominada de Quadrados Médios (MS). O valor de F é calculado pela razão
entre a Média dos Quadrados do Modelo (MSm) e a Média dos Quadrados dos Resíduos
(MSr).
F = MSm / MSr
Se o modelo é bom, a melhoria na previsão do modelo é grande (MSm) em
comparação com MSr produzindo valores de F superior a 1. Quando o modelo é ruim,
com no exemplo do uso da média, os valores de b1 (slope – inclinação) é zero, ou seja,
em modelos ruins o coeficiente de regressão é zero produzindo uma linha de regressão
horizontal.
Assim se uma variável prevê significativamente um valor de saída, então ela
deve ter um valor de b1 (slope – inclinação) significativamente diferente de ZERO. Está
hipótese é verificada utilizando o teste “t”.
2. REGRESSÃO LINEAR SIMPLES
A Regressão Linear Simples é utilizada quando se pretende prever o
comportamento de uma variável dependente (VD) a partir de valores de uma variável
independente (VI). Isto pode ser útil quando a medida da VD diretamente é limitada
devido a necessidade de equipamentos de alto custo.
Na área da saúde o Consumo Máximo de Oxigênio (VO2max) representa uma
importante medida da capacidade Cardiorrespiratória e pode ser utilizado para orientar
programas de exercício físico em diferentes populações.
As medidas diretas do VO2max, entretanto são de alto custo e raramente estão
disponíveis. Por outro lado as medidas de Índice de Massa Corporal (IMC) são
extremamente simples, rápidas e de baixo custo. Supondo que exista uma relação entre
o IMC e a capacidade máxima de consumo de oxigênio, seria possível prever o
VO2max (VD) a partir de valores de IMC (VI).
Lembre que a Regressão Linear Simples exige que as variáveis sejam
Quantitativas e apresentem a distribuição de normalidade. Entretanto a não distribuição
não impede a análise de Regressão, mas diminui as chances de se observar efeito
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
significativo da variável independente prever a variável dependente. Portanto é
recomendado que se observe se as variáveis analisadas não apresentam Outliers. Caso
se observe Outliers é recomendado retirá-los.
Para realizar a análise de Regressão Simples no SPSS clicar em Analyze<
Regression< Linear. Na caixa de dialogo que abrir inserir em Dependent a variável
dependente (Consumo máximo de oxigênio) e em Independent (s) a variável previsora
(índice de massa corporal). Em Method deixar a opção Enter.
Em Statistics selecionar em Regression Coefficients os itens Estimates e
Confidence intervals Level. Também selecionar os itens Model Fit, R square change e
Descritive. Em Plots inserir em “Y” DEPENDENT e em “X” *ZPRED, em seguida
clicar em NEXT e inserir em “Y” *ZREDID e em “X” *ZPRED. As opções SAVE e
OPTIONS não serão utilizadas na Regressão Linear Simples. Agora clicar em OK na
caixa de dialogo principal.
No Output do SPSS é apresentado os valores médios das variáveis inseridas em
Descriptive Statistics. No quadro Correlations é apresenta a correlação de Pearson e os
valores de significância associados ao valor de “p”. Quando foi selecionado o método
ENTER o SPSS indica quais variáveis independentes foram mantidas ou retiradas do
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
modelo, mas como estamos tratando de uma regressão simples temos apenas uma
variável independente não sendo necessário considerar está informação apresentada no
quadro Variables Entered/Removed.
No quadro Model Summary é apresentado o resumo do modelo. Em R é
apresentado o valor da correlação simple, em R square (R2
) é apresentado o valor que a
variável independente explica as variações na variável dependente. Em Ajusted R
Square é apresendo o valor de R2
associados a análise dos resíduos. O erro padrão (Std.
Error of the Estimate) indica a variabilidade dos resíduos. Em Change Statistics é
apresentado a estatística F (F Change), os graus de liberdade (df1 e df2) e o valor de “p”
associado a estatística F (Sig. F Change).
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
No quadro ANOVA é apresentado em Sum of Squares a soma dos quadrados
para o total (SSt), para a regressão (SSm) e para os resíduos (SSr). Para SSm o grau de
liberdade (df) é simplesmente o número de variáveis independentes, para SSr é o
número de observações menos o número de parâmetros sendo estimados (70-2= 68), e
para SSt é o número de observações menos 1. Em Mean Square é apresentado a Média
dos quadrados para o modelo (MSm) e a Média dos quadrados para o resíduo (MSr).
Ainda é apresentada a estatística F e o valor de significância para F (sig).
No quadro Coefficients são apresentados os parâmetros do modelo. Em
Unstandardized Coefficients no item B é apresentado em CONSTANT o valor
correspondente ao Intercepto (b0 ou a). No item B referente a índice de massa corporal é
apresentado o gradiente de inclinação ou Slope (b1 ou b). Na equação X representa o
valor da variável independente.
Yi = (b0+bi *Xi) + ei ou Y=a +b*X ou Y= 28,191+(-0,344*X)
Ainda no quadro Coefficients o valor de “t” nos informa se o valor de B é
diferente de ZERO, ou seja, o valor de Sig fornece a probabilidade exata de que o valor
de “t” acorra se o valor de B é ZERO. Os valores de Sig indicam que tanto a Constante
(Intercepto - b0 ou a), quanto a inclinação ou Slope (b1 ou b) são consideradas
significativos no Modelo.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
No gráfico abaixo é possível observar que embora a linha de regressão
(vermelha) seja estatisticamente diferente da média (preta), os valores observado de
VO2 são muito diferentes dos valores preditos pela equação. Ainda na análise do
resíduos figura 2 é possível observar que os dados diferem de foram considerável dos
resíduos previsto pelo linha de regressão.
Embora os parâmetros da equação de Regressão produzidos sejam
significativos a variável independente IMC explica somente 19,7% das variações da
variável dependente Consumo máximo de oxigênio (VO2max), ou seja, outras variáveis
independentes são necessárias para explicar ou predizer adequadamente os valores de
VO2max. Assim para produzir uma equação de Regressão que tenha capacidade de
predizer adequadamente os valores de VO2max é necessário utilizar uma Regressão
Linear Múltipla.
3. REGRESSÃO LINEAR MÚLTIPLA
A Regressão Múltipla é uma extensão lógica da Regressão Simples, para
situações em que existem vários previsores. Porém a equação agora deverá apresentar
um intercepto (constante b0), um coeficiente de regressão para cada variável previsora
(b1, b2, ...) e diferença entre o modelo e os valores reais (ei).
Y=b0+(b1*x1)+(b2*x2)+....+(bn*xn)+ei
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Como existem vários previsores, o SPSS produz um coeficiente de correlação
múltiplo (R), que representa a correlação entre os valores observados de Y e os valores
de Y previstos pelo modelo de Regressão Múltipla.
Além da correlação (R) o SPSS fornece os dados de R-quadrado (R2
), que
representa o fator de explicação, ou seja, quanto da variação de Y é explicada pelo
modelo.
O SPSS também apresentado o R-quadrado ajustado (R2
ajustado) que fornece
uma noção de quão bem o modelo pode ser generalizado quando comparado ao R2
(R2
-
R2
ajustado). Esta diferença indica o percentual de variância que não seria explicada pelo
modelo se este fosse derivado da população ao invés de uma amostra.
O SPSS fornece diferentes Métodos de Regressão que se referem a entrada dos
dados que podem diferenciar a o modelo final.
- Método Hierárquico: as variáveis previsoras são inseridas no modelo uma a uma por
ordem de importância de acordo com o interesse do pesquisador.
- Método ENTER (entrada forçada): todos os previsores são forçados no modelo ao
mesmo tempo.
- Método Stepwise: a manutenção ou retirada das variáveis no modelo é determinada
por procedimentos matemáticos combinando o Método Forward e Backward.
- Método Forward: a entrada das variáveis previsoras é realizada uma a uma de acordo
com o tamanho da contribuição na previsão do modelo se considerar a contribuição da
ou das variáveis inseridas anteriormente. Está quantificação é feita através de
correlações semi-parciais.
- Método Backward: é realizado o processo inverso do Forward, ou seja, todas as todas
as variáveis previsoras são inseridas no modelo e através de testes “t” é comparado o
valor de previsão com e sem a variável. Caso variável não apresente contribuição
significativa ela é retirada do modelo.
Para avaliar o quão bem o modelo adere as dados observados, devemos
analisar a presença de valores atípicos (outliers) ou de casos influentes. Isto é feito pela
análise das diferenças entre os valores previstos pelo modelo e os valores observados
que são chamados de resíduos.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Diagnóstico de Outliers
Os resíduos normais ou não padronizados são mensurados na mesma
unidade de medida da variável de saída (Y) e são difíceis de serem detectados, a não ser
quando estes são particularmente grandes.
Por outro lado, os resíduos padronizados que são resíduos divididos por uma
estimativa do seu desvio-padrão (escore-z) permitem a identificação mais clara de
valores atípicos. Algumas regras gerais são padronizadas para está interpretação:
- (1) Valores de escore-z > que 3,29 são preocupantes, porque raramente eles ocorrem
ao acaso;
- (2) Se mais de 1% da amostra padronizada apresenta resíduos padronizados com
valores absolutos maiores de 2,58, existem evidências de que o nível de erro dentro do
modelo é inaceitável;
- (3) Se mais de 5% dos casos tem resíduos padronizados com um valor absoluto maior
que 1,96 (pode utilizar 2), também há evidências de que o modelo é frágil.
Uma terceira forma de análise dos resíduos é o resíduo estudentizado, que é o
valor na padronizado dividido por uma estimativa do desvio-padrão entre eles que varia
ponto a ponto. Isto fornece uma estimativa mais precisa da variância do erro para um
caso específico.
Casos influentes
Além de procurar casos atípicos, também é possível buscar casos que
influenciam o modelo, e permite avaliar a estabilidade do modelo.
Uma estatística utilizada para avaliar casos influentes é o valor previsto
ajustado, que compara o valor previsto do modelo com o caso e o valor previsto
ajustado sem o caso. Se a retirada do caso influente produz valores previsto semelhantes
do modelo inicial é indicativo que o modelo é estável. A diferença entre o valor previsto
original e o valor previsto ajustado é conhecido como DFFit. Uma estatística que avalia
o efeito de um único caso no modelo como um todo é a Distância de Cook, onde
valores maiores que 1 indica influência significativa.
Embora existam outras formas de avaliar a influencia de casos no modelo eles
não é uma forma de justificar a remoção de dados para simplesmente produzir um valor
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
de B significativo. Lembre ainda que um valor atípico ou caso influente possa de fato
representar o padrão biológico presente na população e sua retirada leva a um modelo
não real. Além disso, a variável previsora ou o conjunto de variáveis previsoras podem
não ser capazes de prever adequadamente da variável de saída (Y).
GENERALIZAÇÃO DE UM MODELO DE REGRESSÃO
Para generalizar um modelo de regressão devemos estar seguros de que as
suposições (pressupostos) foram satisfeitos, e para testar se o modelo de fato é
generalizável, podemos realizar uma validação cruzada.
Pressupostos
- Tipos de variáveis: todas as variáveis devem ser Quantitativas, e devem ser não
limitada. Isto significa que os dados devem conter toda a amplitude em a variável pode
apresentar. Embora a Regressão Múltipla aceite variáveis categóricas, estas devem ser
inseridas somente se apresentarem contribuição significativa na melhoria das previsões.
- Variância não-nula: os previsores devem apresentar alguma variação, ou seja, não
podem apresentar variância ZERO.
- Multicolinariedade na deve ser perfeita: não deve existir relacionamento linear
perfeito entre dois ou mais previsores, ou seja, não devem apresentar correlações muito
elevadas (>0,80).
- Homocedasticidade: a cada nível das variáveis previsoras, a variância do termo
residual deve ser constante. Isso significa que os resíduos a cada nível dos previsores
devem ter a mesma variância (Homocedasticidade). Quando as variâncias são desiguais
os dados apresentam Heterocedasticidade.
- Erros independentes: para quaisquer duas observações os termos resíduos devem ser
não-correlacionados. Está suposição pode ser testada pelo teste de Durbin-Watson, que
testa a correlação entre erros. Os resultados podem varia de 0 a 4, onde valores de 2
indicam que os resíduos não se correlacionam. Valores acima de 2 indicam correlação
negativa e abaixo de 2 correlação positiva. Valores acima de 3 e menores que 1 indicam
que os resíduos se correlacionam.
- Erros normalmente distribuídos: as diferenças entre o modelo e os dados
observados são frequentemente ZERO ou próximo de ZERO. As variáveis previsoras
não necessitam ter distribuição normal, mas os resíduos sim.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
- Independência: as variáveis previsoras devem representar aspectos diferentes.
- Linearidade: os dados devem apresentar um comportamento linear.
Validação Cruzada do Modelo
Representa a forma de determinar o quão bem o modelo pode prever a saída
(Y) em uma amostra diferente daquela que produziu a equação. Quando o modelo é
capaz de prever a variável de saída em uma amostra diferente daquela que o modelo foi
construído, dizemos que o modelo é generalizável. O método para realizar a análise de
validação cruzada é o R2
ajustado, que representa a perda de poder de previsão. O
SPSS determina o valor do R2
ajustado utilizando a equação de Wherry.
Tamanho da amostra na Regressão
Existem diferentes regras para se determinar o tamanho da amostra em
regressão. A mais simples delas é a de se utilizar de 10 a 15 elementos por variável
previsora inserida no modelo. Deste modo, se temos 3 variáveis previsoras necessitamos
de 30 a 45 elementos amostrais.
Outra regra refere-se ao objetivo da regressão. Se você quer testar o modelo
como um todo, o tamanho mínino da amostra é =50+8*k, onde k representa o número
de previsores. Porém se o objetivo é analisar a contribuição de cada previsor
individualmente o tamanho da amostra é 104+k.
Porém para a estimativa precisa do tamanho da amostra é recomendado o uso
dos gráficos propostos por Miles & Shevin (2001). Estes gráficos relacionam o tamanho
do efeito com o número de previsores. Lembre que quanto menor o efeito que se deseja
detectar maior será o tamanho da amostra.
Considerando um poder de 80%, valor mais comumente utilizado na área da
saúde é possível verificar na figura abaixo o tamanho da amostra para diferentes
tamanhos de efeito e número de previsores.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Para gerar a análise de regressão múltipla no SPSS clicar em Analyze<
Regression< Linear. Na caixa de dialogo que abrir inserir em Dependent a variável de
saída (Y) e em Independent (s) as variáveis previsoras.
No exemplo dado a variável dependente é o Consumo máximo de Oxigênio
(VO2max) e as variáveis independentes previsoras são: índice de massa corporal (IMC),
circunferência de cintura (CC), Idade e Frequência cardíaca de repouso (FCr). No
campo Method selecionar a opção ENTER.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Em Statistics selecionar todos os itens exceto Covariance Matrix. Em Casewise
diagnostics, que lista os valores observados da saída, os valores de saída previstos, a
diferença entre esses valores (os resíduos) e essa diferença padronizada, é possível
selecionar o número de desvios-padrões, sendo recomendado indicar o valor 2.
Em Plots aparece uma lista de variáveis, devendo utilizar principalmente
DEPENDENT (variável dependente), *ZPRED (valores previstos padronizados da
variável dependente com base no modelo) e *ZRESID: resíduos padronizados (erro).
Selecionar as opções Histogram, Normal probality plots e Produce all partila plots.
Inserir *ZPRED em “X” e DEPENDENT em “Y” e clicar em NEXT. Inserir
agora *ZPRED em “X” e *RESID em “Y” e clicar em Continue.
Em SAVE selecionar em Predicted Values as opções Unstandardized (valor
previsto não padronizado), Standardized (valor previsto padronizado) e Ajusted (valor
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
previsto ajustado). Em Residuals clicar em Standardized (resíduo padronizado), Deleted
(resíduo excluído) e Studentized deleted (resíduo estudentizado excluído). Em Distances
clicar em Mahalanobis (distância de Mahalanobis), Cook´s (distância de Cook) e
Leverage values (valor centrado de influência). Em Influence Statistics clicar em
Standardized DfBeta (s) (DfBeta padronizado do previsor) e Standardized DfFit (DfFit
padronizado). A interpretação destes índices será descrita adiante.
Em Options em Use probability é possível selecionar os critério de entrada
(Entry) e de remoção (Removal) de uma variável previsora pelo valor de “p” associado
a estatística F (Multivariada). Clicar em Continue e depois em OK na caixa de dialogo
principal.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
No Output do SPSS no quadro Descriptive Statistics é apresentado os valores
de média e desvio-padrão das variáveis analisadas. No quadro Correlations é
apresentado os valores de correlação de Pearson e os respectivos valores de “p” para as
variáveis inseridas no modelo.
No quadro Correlations é possível observar que as variáveis IMC e CC
apresentam correlação elevada, indicando que uma delas deverá ser retirada do modelo.
No quadro Variables Entered/Removed é apresentado as variáveis que foram
incluídas no modelo e as variáveis que forma removidas.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
No quadro Model Summary o valor de R=0,528 indica que os previsores tem
uma correlação modera com a variável de saída VO2max. O R Square (R2
) indica que o
modelo explica 27,9% das variações em VO2max. Os valores de Adjusted R Square
indica os valores de R2
se o modelo fosse derivado da população (0,279 – 0,235 = 0,044
=4,4%). Em Change Statistics é analisada se a variação entre de R2
são significativas.
Em Durbon-Watson se a hipótese de Independência dos Erros é satisfeita, onde quanto
mais próximo de 2 melhor.
No quadro ANOVA contém a análise de variância que testa se o modelo de
regressão é significativamente melhor para prever a saída de VO2max do que utilizar a
média das variáveis previsora. Como o valor de “p” (Sig) é menor que 0,05 podemo
dizer que o modelo é melhor do que utilizar a média.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
No quando Coefficients é apresentado os parâmetros do modelo. Em
Unstarndardized no item “B” estão apresentados os parâmetros da equação e ao erro
padrão que pode ser observado em repetidas amostras da população. Em Standardized
Coefficients é apresentado os valores de “B” padronizados em unidades de desvios-
padrões o que fornece uma idéia melhor da importância da importância de cada previsor
no modelo. Os valore de t e Sig indicam se o previsor contribui de forma significativa
no modelo, ou seja, se o valor do coeficiente é diferente do valor médio.
Y=41,732 + (-0,128*X1)+ (0,109*X2)+(-0,121*X3)+(0,035*X4)
Ainda no quadro Coefficients são apresentados os valores do Intervalo de
Confiança de 95% para os valores de “B” (95% Confidence Interval for B). Em
Correlation é apresentada a correlação parcial (Partial) entre os previsores controlado a
auto correlação entre os previsores. Em Collinearity Statistics valores de VIF próximos
de 10 indicam a presença de Multicolinearidade e valores próximo de 1 indicam
ausência de Multicolinearidade. Os valores de Tolerance aceitáveis são maiores 0,20.
No quadro Casewise Diagnostics são indicados os casos que representam
Outliers no modelo, apresentado os valores do desvio-padrão residual (Std. Residual),
Valor Observado, Valor Predito pelo modelo (Predited Value) e valor residual
(Redisual).
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
No quadro Residuals Statistics é possível visualizar a estatística descritiva dos
valores previstos e residuais, porém uma informação importante refere-se a distância de
COOK, onde valores acima de 1 indicam influência significativas de casos.
A análise da Regressão com a observação dos gráficos de Histograma dos
resíduos e o Diagrama de Probabilidade Acumulada Observada.
No gráfico de da relação entre a variável dependente e *ZPRED, e no gráfico
entre *ZRESID e *ZPRED, clicar duas vezes sobre o gráfico para abrir o editor.
Selecionar na barra de ferramentas os itens indicados abaixo em vermelho para inserir a
linha correspondente a média (vermelha) e a linha de regressão prevista pelo modelo
(preta). Depois clicar na linha de regressão e em Properties selecionar a opção Mean em
Confidence Interval para traçar a linha de IC95% para a linha de regressão.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Inserindo variáveis categóricas na Regressão Linear
Na análise de regressão é possível a inclusão de variáveis categóricas nas
variáveis previsoras (independente). Porém está deverá estar em escala dicotômica e sua
codificação deverá ser sempre 0 e 1. A categoria “0” deve representar a ausência da
característica de interesse, e a variável “1” a presença.
Quando temos uma variável categórica que possui mais de duas categorias
temos que definir a categoria de interesse e atribuir o código “1”, e para o restante das
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
categorias atribuir o código “0”. Quando isto é feito a variável criada é chamada de
variável Dummy, pois, o código “0” representa mais de uma categoria de resposta se
caracterizando com uma variável fictícia.
No SPSS é possível transformar uma variável categórica com mais de duas
categorias em uma variável Dummy. Considerando a planilha do SPSS Regressão
Logística, a variável estado nutricional (EST_NUT) possui 3 categorias de resposta,
sendo, 0=eutrófico; 1=sobrepeso; 2=obeso. Supondo que o propósito seja criar 3
variáveis Dummy: Eutrófico (0=não eutrófico; 1= eutrófico); Sobrepeso (0=não
sobrepeso; 1= sobrepeso); Obeso (0=não obeso; 1=obeso).
Clicar em Transform<Recode into Different Variables. No item Numeric
Variable -> Output Variable inserir a variável EST_NUT que será transformada. Em
Name nomear a nova variávei Dummy, e em Label descrever a nova variável. Feito isto
clicar em Change. Em seguida clicar em Old and New Values para atribuir os novos
códigos.
Em Old Value inserir em Value o código original da categoria. Em New Value
inserir em Value o novo código e clicar em Add para adicionar. O mesmo deverá ser
feito para as categorias que receberam o código “0”. Após inserir em Add todas as
categorias clicar em Continue e depois em OK.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
O SPSS irá criar uma nova variável chamada de Eutrófico. Caso queira fazer o
mesmo para as outras categorias de resposta deverá realizar o mesmo procedimento para
cada uma delas.
Embora seja possível incluir variáveis categóricas nos previsores da Regressão
Linear, a variável de saída (Y) sempre deverá ser uma variável quantitativa.
Para exemplificar está situação utilize a planilha do SPSS Regressão Logística
e realize uma Regressão Linear Simples incluindo a variável quantitativa IL6 como
variável dependente e a variável Dummy Obesidade vs. Não Obesidade na lista de
variável dependente. Lembre de testar os pressuposto discutidos anteriormente.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Também é possível inserir simultaneamente variáveis quantitativas e
categóricas com variáveis previsoras. Realize a Regressão Linear Múltipla incluir além
da variável Dummy Obesidade as variáveis quantitativas idade, tempo sem menstruação
(TSM) e circunferência de cintura (CC), para testar um modelo de previsão dos valores
de Interleucina-6 (IL6). Lembre que agora temos mais pressupostos para testar.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
4. REGRESSÃO LOGÍSTICA BINÁRIA
Na Regressão Logística a variável de saída (Y) é uma variável categórica
dicotômica que representa a ausência ou presença de um desfecho. As variáveis
previsoras pode ser quantitativas ou qualitativas.
Embora seja parecida com a Regressão Linear, a Regressão Logística não
prevê os valores de Y, mas sim a probabilidade do desfecho de interesse em Y ocorrer.
Na sua forma mais simples a Regressão Logística com um único previsor a
equação pode ser descrita da seguinte forma.
P(Y) = 1/ 1+e – (b0 + b1*X + ɛi )
Onde P é a probabilidade de Y ocorrer, “e” é a base do logaritmo naturnais, e
o restante da equação representa os mesmo parâmetros descritos na Regressão Linear.
Quando a Regressão Logística incluir múltiplos previsores ela é representada da
seguinte forma.
P(Y) = 1/ 1+e – (b0 + b1*X1+ b2*X2+ ....bn*Xn+ ɛi )
A equação de Regressão Logística descrita é expressa por uma Regressão
Linear em termos logarítmicos e dessa forma resolve a problema da violação da
hipótese de linearidade. O valor resultante da equação é uma probabilidade que varia de
0 a 1, onde um valor próximo de 0 significa que a ocorrência de Y é bastante
improvável, e próximo de 1 é bastante provável.
Os parâmetros estimado pela equação são analisados pela Estimação da
Máxima Verossimilhança, que seleciona os coeficientes de regressão.
Da mesma forma, que a regressão linear, a Regressão Logística, utiliza os
valores observados e previsto para avaliar a Aderência do modelo. Para fazer isso é
utilizado a Verossimilhança-log.
A estatística da Verossimilhança-log é análoga à soma dos quadrados dos
resíduos na regressão múltipla, no sentido de que ela é um indicador da quantia de
informação não explicada pelo modelo.
Contudo, é possível calcular uma versão mais adequada da correlação múltipla
na regressão logística por um valor conhecido como estatística-R.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Essa estatística-R é a correlação parcial entre a variável de saída (Y) e cada
uma das variáveis previsoras, e pode variar de -1 a 1. O valor positivo indica que
quando a variável previsora aumenta, também aumenta probabilidade da ocorrência do
evento. Um valor negativo indica que quando a variável previsora aumenta, diminui a
probabilidade do evento ocorre.
Existe controvérsia sobre qual o melhor método para determinar o R2
na
regressão logística. O SPSS fornece duas medidas que podem ser utilizadas, o R2
cs de
Cox & Snell e sua correção no valor de R2
n de Nagelherke.
A estatística de Wald é utilizada para avaliar a contribuição dos previsores no
modelo, informando se o coeficiente “B” de cada previsor é significativamente diferente
de ZERO.
O item de maior relevância na interpretação da Regressão Logística é o valor
de Exp b (Exp(B) na saída do SPSS), que é um indicador da mudança nas
probabilidades resultantes da mudança de uma unidade no previsor. Essa proporção de
mudança na Chance (Odds) é interpretada da seguinte forma: se o valor é maior que
1significa que quando o previsor aumenta as chances da saída ocorrer é maior; se o
valor é menor que 1 indica que quando o previsor aumenta as chances da saída ocorrer
diminuem.
Quanto ao método de Regressão recomendado é o ENTER, embora a opção do
Stepwise esteja disponível.
Lembre que na Regressão Logística os previsores podem ser variáveis
quantitativas ou qualitativas, porém quando for incluir variáveis categóricas é
importante indicar estas para o SPSS caso estas não estejam no formato Dummy para
que seja possível sua dicotomização.
Para exemplificar a aplicação da Regressão Logística no SPSS primeiro vamos
utilizar um exemplo em que as variáveis previsoras são todas quantitativas. No exemplo
o objetivo é analisar um modelo de variáveis quantitativas que consiga prever os
desfecho relacionado a inflamação crônica de baixo grau representado na variável
(IL6_diag), onde 1 representa a presença e 0 a ausência.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Clicar em Analyze<Regression<Binary Logistic. Na caixa de dialogo que
abrir inserir em Dependent a variável que representa o desfecho que se pretende prever,
e em Covariates inserir as variáveis previsoras que se pretende testar. A opção
Categorical será utilizada somente quando houver uma variável categórica com mais de
duas categorias que seja necessário transformar em variável Dummy.
Em SAVE selecionar as opções indicadas no quadro abaixo para gerar
informações relacionadas ao valor predito pelo modelo (Predicted Values), Resíduos
(Residuals) e influência de valores (Incluence). Lembre o SPSS irá produzir novas
variáveis quando estas opções estiverem selecionadas. O uso de cada informação será
descrito juntamente com os resultados mais a frente.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Em Options selecionar as opções marcadas no quadro abaixo, porém se optou
pelo Metódo Stepwise vale apenas considerar a possibilidade de alterar os valores de
entrada (Entry) e remoção (Removal), pois, estes limites podem ser ampliados.
No item Statistics and Plots o diagrama de classificação (classification plots)
produz um histograma dos valores reais e previstos da variável de saída, que serve para
avaliar o ajuste do modelo aos dados observados. Em Casewise listing of residuals é
apresentada uma lista de resíduos por caso e para todos os casos. Em CI for exp(B) é
produzido um intervalo de confiança para a estatística exp(B). A opção Hosmer-
Lemeshow goodness-of-fit fornece uma estimativa de quão bem o modelo se ajusta ao
dados.
Em Display é possível optar em possível optar em apresentar todas as
estatísticas e gráficos a cada estágio, ou somente ao final quando o modelo estiver
determinado.
Selecionado todos os itens de interesse clicar em Continue e retornando na
caixa de dialogo principal clicar em OK. No Output do SPSS inicialmente é apresentado
no quadro Case Processing Summary a lista de elementos incluídos na análise. Em
Dependent Variable Encoding a indicação dos códigos atribuídos as categorias da
variáveis desfecho (Y).
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Os resultados são apresentados em dois blocos de análise. No Bloco “0” em
Interation History é apresentado como um relatório de como a constante se modifica
com a inclusão de previsores no modelo. Em Classification Table é apresentada uma
tabela de contingência que analisa os valores observados e preditos pelo modelo quando
apenas a constante é incluída. Em Overall Percentage é apresentada a porcentagem de
sujeitos que tiveram a previsão do desfecho corretamente pelo modelo, sendo
considerado bom valores acima de 70%.
Ainda no Bloco “0” em Variable in the Equation é apresentado os parâmetros
calculados sem a inclusão dos previsores, ou seja, baseada somente na probabilidade do
desfecho ocorrer, onde B representa a constante da equação (b0), S.E. o erro padrão
associado a constante, a estatística Wald que informa se contribuição da constante é
significativa no modelo, em Sig. o valor de “p” associado a estatística Wald, e em
Exp(B) o variação da chance do desfecho ocorrer.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Finalizando o Bloco “0” o quadro Variables not in the Equation é fornecido a
significância da entrada de cada variável previsora no modelo. Na última linha em
Overall Statistics é apresentada a estatística do Qui-quadrado dos resíduos em Score e
seus respectivo valor de “p” (Sig). Está estatística informa se os coeficientes para as
variáveis que não estão no modelo são significativamente diferente de ZERO, ou seja,
se a adição de uma ou mais destas variáveis no modelo irá afetar o seu poder de
previsão.
Agora no no Bloco 1: Metodo Enter é apresentado os resultados do modelo
com a inclusão dos previsores. Em Iteration History é apresentada os coeficiente de
cada previsor considerando primeiro (Step 1) a inclusão dos previsores sem interação e
depois sucessivamente com a interação de 2 a 5 previsores.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Em Omnibus Tests of Model Coeficients é apresentada o valor de significância
do modelo. Em Modelo Summary o SPSS fornece a aderência total do novo modelo.
Lembre que os valores de -2Log likelihood devem ser menores do que quando somente
a constante foi incluída, pois, isto indica que o novo modelo está prevendo a variável
desfecho com maior precisão, ou seja, quando menor melhor. Recomenda-se olhar para
Nagelkerke R Square que indica a aderência do modelo, ou seja, o quanto o modelo
explica a ocorrência do desfecho. Complementar ao Nagelkerke R Square no quadro
Hosmer and Lemeshow Test é indicado se a aderência ao modelo é significativa.
Em Classification Table no item Overall Percentage 75,7% dos sujeitos com o
desfecho forma previstos corretamente, porém no modelo somente com a constante
foram previsto corretamente 74,3%, o que indica que a inclusão das variáveis previsoras
contribuiu pouco para a melhoria do modelo. Porém 17 dos 18 elementos sem
inflamação receberam incorretamente a previsão de inflamação o que indica fragilidade
do modelo, pois, apesar de detectar corretamente 75%, não demonstrou capacidade de
detectar os sujeitos sem o desfecho.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
No quadro Variable in the Equation são apresentados os parâmetros da equação
e sua estatística para cada previsor e para constante, onde B representa o coeficiente de
cada previsor que modifica a saída resultante da mudança de uma unidade na variável
previsora. É também apresentada a estatística Wald e seu respectivo valor de “p” (Sig)
que informa se o coeficiente “b” para dado previsor é significativamente diferente de
ZERO.
Em Exp(B) é descrita a taxa de mudança na chance que resultada do aumento
de uma unidade do previsor. Em TSM o valor é de 0,938, o que representa um fator de
proteção para o desfecho, ou seja, o aumento em uma unidade no previsor TSM
aumenta a chance do desfecho não ocorrer. Por outro lado, em IMC o valor de 1,146
indica que o aumento de uma unidade no IMC aumento a chance do desfecho ocorrer
em 1,146%. Também é fornecido o Intervalo de Confiança de 95% para Exp(B), e
quando este IC95% incluir o valor 1 é indicativo que este previsor não tem contribuição
significativa no aumento da chance do desfecho ocorrer.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Por último é apresentado um diagrama de classificação que representa um
histograma das probabilidades previstas. Se o modelo adere perfeitamente aos dados, o
histograma deve mostrar todos os casos em o evento ocorreu do lado direito e todos os
casos que o evento não ocorreu do lado esquerdo. Quando as variáveis previsoras são
contínuas os casos ficam espalhados por várias colunas. Como regras prática, quanto
mais casos se concentrarem nos finais do gráfico, melhor. Por outro lado, se existirem
muitos pontos agrupados no centro do diagrama, o modelo prevê tão bem quanto lançar
uma moeda.Ainda, ainda um bom modelo deve assegurar que poucos casos sejam mal
classificados.
Vimos nos resultados que alguns previsores têm B com valor negativo e
Exp(B) menor que 1 indicando que quando estes previsores aumentar a probabilidade
do desfecho ocorrer diminui. Assim podemos realizar a análise novamente retirando
estes previsores. Além disso, também é possível inserir previsores de modo a analisar
sua interação. Para isso após clicar em Analyze<Regression<Binary Logistic, na lista
de variáveis da caixa de dialogo que abrir selecionar duas variáveis e a opção “>a*b>
será ativada para inserir a interação no item Covariates. No Bloco “0” é possível
verificar no quadro Variabeles not in the Equation em Overall Statistics que nenhuma
variável previsor é significativamente diferente de ZERO, ou seja, se a adição de uma
ou mais destas variáveis no modelo não irá afetar o seu poder de previsão.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
No Bloco 1, em Nagelkerke R Square é possível verificar que a aderência de
modelo é baixa, pois o modelo explica somente 6,9% da ocorrência do desfecho, e em
Hosmer and Lemeshow Test o valor de Sig. indica que o R2
(aderência) não é
significativo. No quadro Variable in the Equation a estatística de Wald mostra em Sig.
que nenhuma variável previsora foi significativa e o IC95% para Exp(B) incluem o
valor 1.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Também é possível realizar a Regressão Logística incluindo nos previsores
variáveis qualitativas. Embora o SPSS tenha a opção em Categorical para dicotimizar
uma variável qualitativa com mais de duas categorias de resposta, recomendo que o
próprio pesquisado faça isso atribuindo os códigos de resposta “0” e “1”.
Agora utilizando as variáveis da planilha Regressão Logística vamos testar um
modelo para prever a inflamação crônica de baixo grau, incluindo nos previsores as
variáveis Hipertensão (HAS), Colesterol Total elevado (CT), HDL-colesterol baixo
(HDL-c) e Diabete (DM). Todas as variáveis previsoras estão dicotomizadas em
Ausência (0) e Presença (1).
Agora clicar em Analyze<Regression<Binary Logistic e inserir as novas
variáveis em Covariantes. Lembre de selecionar os itens em SAVE para analisar os
resíduos, porém antes de produzir novas variáveis na sua planilha, é possível rodas a
análise se selecionar esta opção e caso o modelo se mostre promissor fazer está análise
subsequente. Porém no itens options não esqueça de selecionar as opções
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Agora que estamos habituados com o Output podemos analisar diretamente o
quadro Variable not the Equation no Bloco “0”, como também a aderência do modelo
no Bloco 1 (Modelo Summary e Hosmer and Lemeshow Teste).
Na análise do quadro Variable in the Equation do Bloco 1 observamos que
embora nenhuma variável previsora tenha apresentado significância menor que 0,050,
as variáveis HAS e CT apresentaram valores abaixo de 0,100 (10%). Porém o CT indica
que o aumento do CT aumenta as chances do desfecho não ocorrer. Além disto, o HDL-
c apresentou valor de Exp(B) é maior que 1 e podem ter potencial de contribuir com o
modelo apesar do IC95% incluir o valor 1. Após estas considerações podemos rodar a
análise novamente somente com as variáveis HAS e HDL-c, com também com a
interação entre elas.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
Observe que retirada das variável CT e DM alteraram todos os valores
descritos no quadro Variables in the Equation, e isto indica o efeito de um previsor
sobre o outro na construção do modelo de previsão. Além disto, lembre que o tamanho
da amostra e as características destas podem influenciar a capacidade do modelo prever
o desfecho. Outra questão é que uma amostra pode produzir um modelo de boa
aderência e significativo, porém se a amostra utilizada para construir o modelo, não
representar adequadamente a população para qual o modelo foi construído, suas
previsões terão baixo percentual de acerto, por isso testar a reprodutibilidade de
modelos de previsão é necessário antes de recomendar sua utilização.
BIBLIOGRAFIA
1. DAWSON, B.; TRAPP, R.G. Bioestatística básica e clínica. 3 ed.Rio de Janeiro:
McGraw-Hill, 2001.
2. DEMIDENKO, E. Sample size determination for logistic regression revisited.
Statistics in Medicine, John Wiley. v. 26, p. 3385-3397, 2007.
3. DEMIDENKO, E. Sample size and optimal design for logistic regression with
binary interaction. Statistics in Medicine. John Wiley. v. 27, p. 36-46, 2008.
4. FIELD, A. Descobrindo a estatística usando o SPSS. 2 ed. Porto Alegre:
Artmed, 2009, 689p.
5. FONTELLES, M.J.;et al. Metodologia da pesquisa: diretrizes para o cálculo do
tamanho da amostra. Revista Paraense de Medicina. v.24, n.2. 2010
6. GLANTZ, S.A. Princípios de Bioestatística. 7 ed. Porto Alegre: Artmed, 2014,
306p.
7. LINDENAU, J.D.; GUIMARÃES, L.S.P. Calculando o tamanho do efeito no
SPSS. Rev. HCPA, Secção de Bioestatística, v.32, n.3, 2012.
8. LUNET, N.; SEVERO, M.; BARROS, H. Desvio Padrão e Erro Padrão. Notas
Metodológicas. Arquivos de Medicina, 2006.
Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
9. MIOT, Hélio Amante. Tamanho da amostra em estudos clínicos experimentais. J
Vas Bras. 2011; 10 (4); 275-278.
10. NOVIKOV, I.; FUND, N.; FREEDMAN, L. S. A modified approach to
estimating sample size for simple logistic regression with one continuous
covariate. Statistics in Medicine. John Wiley. v. 29, p. 97-107, 2009.
11. RIBAS, J.R.; VIEIRA, P.R.C. Análise multivariada com o uso do SPSS. 1 ed.
Rio de Janeiro: Editora Ciência Moderna, 2011, 272p.
12. VIEIRA, A.C.R.; ALVAREZ, M.M.; MARINS, V.M.R.; SICHIERI, R.;
VEIGA, G.V. Desempenho de pontos de corte do índice de massa corporal de
diferentes referências na predição de gordura corporal em adolescentes. Cad.
Saúde Pública, Rio de Janeiro, v.22, n.8, p.1681-1690, 2006.
13. WHITTEMORE, A. S. Sample size for logistic regression with small response
probability. Journal of the American Statistical Association. American
Statistical Association. v. 76, p. 27-32, 1981.
View publication statsView publication stats

Mais conteúdo relacionado

PDF
Análise de Agrupamentos (Clusters)
PDF
Prática de Regressão no SPSS
PPT
Regressao linear multipla
PPTX
DOC
Educação tecnológica ficha formativa ano letivo 2012-13
PDF
Grelha de avaliação de competências
PPT
19 elaboração da metodologia
Análise de Agrupamentos (Clusters)
Prática de Regressão no SPSS
Regressao linear multipla
Educação tecnológica ficha formativa ano letivo 2012-13
Grelha de avaliação de competências
19 elaboração da metodologia

Mais procurados (20)

PPT
Aula 5 análise dos postos de trabalho
PDF
Autocorrelação espacial - Prática no GEODA
PDF
Aula 3 testes de hipóteses e anova
PDF
Aula 4 modelos de regressão linear
PPT
Engenharia De MéTodos Conceitos
PDF
Modelo de Como preencher a Plataforma Brasil
PPT
Amostragem - estatistica
PDF
Aula 7 análise fatorial
PPTX
PDCA - Treinamento completo
PDF
Fixação de metas: uma prática sem sentido, nociva e ilegítima
PDF
Regressão Linear Múltipla
PDF
Normas da APA
DOCX
Contabilidade de gestao
PDF
Exercicios resolvidos
PDF
Modelo pré-projeto de monografia
PDF
Exercicios amostragem e tamanho amostra
PPTX
Aula 05 Planejamento e Controle de Obras
PPT
Critérios de validade
PDF
Apostila CRONOANÁLISE
PDF
Conceitos Básicos de Estatística II
Aula 5 análise dos postos de trabalho
Autocorrelação espacial - Prática no GEODA
Aula 3 testes de hipóteses e anova
Aula 4 modelos de regressão linear
Engenharia De MéTodos Conceitos
Modelo de Como preencher a Plataforma Brasil
Amostragem - estatistica
Aula 7 análise fatorial
PDCA - Treinamento completo
Fixação de metas: uma prática sem sentido, nociva e ilegítima
Regressão Linear Múltipla
Normas da APA
Contabilidade de gestao
Exercicios resolvidos
Modelo pré-projeto de monografia
Exercicios amostragem e tamanho amostra
Aula 05 Planejamento e Controle de Obras
Critérios de validade
Apostila CRONOANÁLISE
Conceitos Básicos de Estatística II
Anúncio

Semelhante a Módulo4 regressao no spss (20)

PPTX
AMD - Aula n.º 8 - regressão linear simples.pptx
PPTX
Regressao linear
PDF
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
PPT
Cap 2 - MRLS.ppt
PPTX
Regressão Linear Simples
PDF
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
PDF
Regressão Linear I
PPTX
Estatística Aplicada à Administração - Aula 19: Regressão Linear Simples
PPT
Modelo de regressão linear: aspectos teóricos e computacionais
PDF
Introdução à Regressão Linear
PDF
SCX5001_2023 - Regressao Linear Multipla.pdf
PDF
Regressao
PDF
Apostila regressao linear
PDF
Econometria modelos de_regressao_linear
PPT
Correlação e regressão Aula Estatística II.ppt
PPTX
Análise de Regressão: aspectos teóricos e computacionais
PPT
Apresentação contabilometria 6
PDF
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
PDF
Regressão aula
PPT
Analise exploratório de dados
AMD - Aula n.º 8 - regressão linear simples.pptx
Regressao linear
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
Cap 2 - MRLS.ppt
Regressão Linear Simples
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
Regressão Linear I
Estatística Aplicada à Administração - Aula 19: Regressão Linear Simples
Modelo de regressão linear: aspectos teóricos e computacionais
Introdução à Regressão Linear
SCX5001_2023 - Regressao Linear Multipla.pdf
Regressao
Apostila regressao linear
Econometria modelos de_regressao_linear
Correlação e regressão Aula Estatística II.ppt
Análise de Regressão: aspectos teóricos e computacionais
Apresentação contabilometria 6
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Regressão aula
Analise exploratório de dados
Anúncio

Último (20)

PPTX
125519 - Aula 2 - Riqueza e diversidade povos indígenas na América Portuguesa...
PPTX
1. A Cultura do Palco - muitos palcos, um espetáculo.pptx
PPTX
Treinamento de Espaço Confinado_Trabalhadores e Vigias NR 33.pptx
PPT
YY2015MM3DD6HH12MM42SS3-Organiza__o do Estado ILP.ppt
PDF
APOSTILA PARA FORMAÇÃO E RECICLAGEM DE VIGILANTES.pdf
PPTX
entorseestadodechoque. Aula de primeiros socorros
PDF
DECISÃO (2).pdf Derrota histórica do Sintero expõe racha interno e fragilidad...
PDF
ENTREVISTA-PROCESSO-SELETIVO-idc8j5.pdf 1
PPTX
PERÍODO SIMPLES - TERMOS ESSENCIAIS DA ORAÇÃO - Valdeci.pptx
PDF
Historia da Gastronomia Mundial por Daianna Marques dos Santos
PPTX
AULA METodologia MODIFIC PART 1 MSC.pptx
PDF
Pecados desdenhados por muita gente (islamismo)
PPT
AS VANGUARDAS EUROPEIAS NA LITERATURA E N
PPT
Elementos constituintes do esquema argumentativo (tese, argumento, tema, pont...
PDF
01-slide-especialidade-mensageira-de-deus.pdf
PDF
EXPRESSÕES IDIOMÁTICAS - LÍNGUA PORTUGUESA
PDF
Reino Monera - Biologiaensinomediofun.pdf
PDF
HORÁRIO GERAL SIGAA 2025_PRÉVIA_SIGAA-1.pdf
PDF
Atividades sobre o livro Letras de Carvão
PPTX
SEGURANÇA, MEIO AMBIENTE E SAÚDE Aula 1.pptx
125519 - Aula 2 - Riqueza e diversidade povos indígenas na América Portuguesa...
1. A Cultura do Palco - muitos palcos, um espetáculo.pptx
Treinamento de Espaço Confinado_Trabalhadores e Vigias NR 33.pptx
YY2015MM3DD6HH12MM42SS3-Organiza__o do Estado ILP.ppt
APOSTILA PARA FORMAÇÃO E RECICLAGEM DE VIGILANTES.pdf
entorseestadodechoque. Aula de primeiros socorros
DECISÃO (2).pdf Derrota histórica do Sintero expõe racha interno e fragilidad...
ENTREVISTA-PROCESSO-SELETIVO-idc8j5.pdf 1
PERÍODO SIMPLES - TERMOS ESSENCIAIS DA ORAÇÃO - Valdeci.pptx
Historia da Gastronomia Mundial por Daianna Marques dos Santos
AULA METodologia MODIFIC PART 1 MSC.pptx
Pecados desdenhados por muita gente (islamismo)
AS VANGUARDAS EUROPEIAS NA LITERATURA E N
Elementos constituintes do esquema argumentativo (tese, argumento, tema, pont...
01-slide-especialidade-mensageira-de-deus.pdf
EXPRESSÕES IDIOMÁTICAS - LÍNGUA PORTUGUESA
Reino Monera - Biologiaensinomediofun.pdf
HORÁRIO GERAL SIGAA 2025_PRÉVIA_SIGAA-1.pdf
Atividades sobre o livro Letras de Carvão
SEGURANÇA, MEIO AMBIENTE E SAÚDE Aula 1.pptx

Módulo4 regressao no spss

  • 1. See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/315735094 Módulo 4 - Regressão no SPSS Technical Report · September 2016 DOI: 10.13140/RG.2.2.21763.09765 CITATIONS 0 READS 7,271 1 author: Some of the authors of this publication are also working on these related projects: RESISTANCE TRAINNING, AUTONOMIC NERVOUS SYSTEM AND CARDIOVADCULAR NERVOUS SYSTEM View project Frequência Cardíaca de indivíduos diabéticos e exercício resistido View project Eduardo Federighi Baisi Chagas Universidade de Marília 48 PUBLICATIONS   11 CITATIONS    SEE PROFILE All content following this page was uploaded by Eduardo Federighi Baisi Chagas on 01 April 2017. The user has requested enhancement of the downloaded file.
  • 2. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III MATERIAL DIDÁTICO CURSO DE ESTATÍSTICA APLICADA PARA INICIANTES MÓDULO 4 ESTATÍSTICA ANALÍTICA III Regressão no SPSS AUTOR: EDUARDO FEDERIGHI BAISI CHAGAS MARÍLIA 2016
  • 3. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III SUMÁRIO 1. Regressão 2. Regressão Linear Simples 3. Regressão Linear Múltipla 4. Regressão Logística Binária
  • 4. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III 1. REGRESSÃO A correlação pode ser uma ferramenta útil, porém ela não informa sobre o poder preditivo de uma ou mais variáveis. Por outro lado, a REGRESSÃO permite ajustar um modelo preditivo, ou seja, construir um modelo matemático para prever os valores da variável dependente (VD) a partir de uma ou mais variáveis independentes (VI). O conceito de regressão é baseado na equação genérica: Saídai = (Modeloi) + Erroi Na REGRESSÃO o modelo que ajustamos é linear, ou seja, o modelo é baseado em uma RETA. Desta forma, é necessário ajustar o melhor modelo que descreve os dados. Porém lembre que o melhor modelo ainda pode não ser suficiente para prever suficientemente a Saída (VD). Existem vários modelos de ajuste da linha ou reta de regressão e o mais utilizado é o métodos dos mínimos quadrados. A Reta é definida por dois aspectos: a) A inclinação da linha (Slope), normalmente representado por “b1”; b) O ponto que a linha cruza o eixo vertical (y), conhecido como intercepto (b0). Desta forma, o modelo pode ser representado pela equação: Yi = (b0+bi *Xi) + ei Onde Yi é a variável de saída e Xi representa a variável previsora. Os parâmetros b0 e bi são conhecidos como coeficientes de regressão. O termo resíduo ei representa a diferença entre o valor previsto pela linha e o valor observado.
  • 5. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III O método dos Mínimos Quadrados analisa a diferença vertical entre a linha e os dados reais. Algumas diferenças são positivas e outras negativas, e estas diferenças são chamadas de resíduos. As diferenças elevadas ao quadrado fornecem uma medida de quão bem uma medida se ajusta aos dados. O método dos Mínimos Quadrados seleciona a linha que produz a menor soma das diferenças elevadas ao quadrado. Selecionada a linha de melhor ajuste é necessário avaliar a qualidade desta linha, ou seja, determinar qual a capacidade da equação produzida pela regressão prever os dados da VD a partir de dados de uma VI. Para isto, a linha de regressão produzida é comparada com a forma mais básica de previsão, que é representada pela média. Imagine no exemplo das figuras abaixo que se pretenda prever os valore de Consumo Máximo de Oxigênio (VO2max) e partir dos valores de índice de massa corporal (IMC). Considerando que a amostra tem um valor médio de VO2max de 17 (ml/kg/mim) a previsão mais simples seria dizer que independente do valor de IMC o sujeito terá um VO2max de 17. A soma dos quadrados dos desvios é calculada para a média (SSt) e para os valores para a linha de regressão de melhor ajuste (SSr). A melhor previsão resultante da utilização da linha de regressão ao invés da média é obtida calculado a diferença entre SSt e SSr. Essa diferença nos mostra a redução da imprecisão do modelo resultante do ajuste do modelo da linha de regressão aos dados. Essa melhoria é a soma dos quadrados do modelo (SSm). Se o valor de SSm é alto, usar o modelo é bem melhor do que utilizar a média para prever o valor da variável resultante. No entanto se o SSm é pequeno, então utilizar o modelo de regressão é apenas um pouco melhor do que usar a média. Uma medida útil para se obter as somas dos quadrados é a proporção de melhoria debitada ao nosso modelo. Isso é facilmente calculado dividindo a SSr por SSt. O valor obtido é denominado R2 que representa a quantidade de variância nas saídas explicadas pelo modelo SSm relativa a quanta variação foi inicialmente explicada por SSt.. R2 = SSm / SSt
  • 6. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III A interpretação do R2 é semelhante a correlação e a raiz quadrada do valor de R2 produz o valor de correlação de Pearson. Valores de R2 próximos de 1 indicam que o modelo explica grande percentual das variações de “y” a partir das variações nos valores de “x”. Por outro lado, valores próximos de ZERO indicam que o modelo explica pouco do comportamento de “y” a partir dos valores de “x”. Uma segunda utilização das somas dos quadrados para avaliar o modelo é por meio do teste F, que tem por base a razão de melhoria devida ao modelo SSm e a diferença entre o modelo e os dados observados (SSr). SSt – utiliza as diferenças entre os dados observados e a média dos valores de “y” SSr – utiliza as diferenças entre os dados observados e a linha de regressão SSm – utiliza as diferenças entre o valor médio de Y e a linha de regressão
  • 7. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III De fato, em vez de utilizar a soma dos quadrados, tomamos a Média dessas somas, denominada de Quadrados Médios (MS). O valor de F é calculado pela razão entre a Média dos Quadrados do Modelo (MSm) e a Média dos Quadrados dos Resíduos (MSr). F = MSm / MSr Se o modelo é bom, a melhoria na previsão do modelo é grande (MSm) em comparação com MSr produzindo valores de F superior a 1. Quando o modelo é ruim, com no exemplo do uso da média, os valores de b1 (slope – inclinação) é zero, ou seja, em modelos ruins o coeficiente de regressão é zero produzindo uma linha de regressão horizontal. Assim se uma variável prevê significativamente um valor de saída, então ela deve ter um valor de b1 (slope – inclinação) significativamente diferente de ZERO. Está hipótese é verificada utilizando o teste “t”. 2. REGRESSÃO LINEAR SIMPLES A Regressão Linear Simples é utilizada quando se pretende prever o comportamento de uma variável dependente (VD) a partir de valores de uma variável independente (VI). Isto pode ser útil quando a medida da VD diretamente é limitada devido a necessidade de equipamentos de alto custo. Na área da saúde o Consumo Máximo de Oxigênio (VO2max) representa uma importante medida da capacidade Cardiorrespiratória e pode ser utilizado para orientar programas de exercício físico em diferentes populações. As medidas diretas do VO2max, entretanto são de alto custo e raramente estão disponíveis. Por outro lado as medidas de Índice de Massa Corporal (IMC) são extremamente simples, rápidas e de baixo custo. Supondo que exista uma relação entre o IMC e a capacidade máxima de consumo de oxigênio, seria possível prever o VO2max (VD) a partir de valores de IMC (VI). Lembre que a Regressão Linear Simples exige que as variáveis sejam Quantitativas e apresentem a distribuição de normalidade. Entretanto a não distribuição não impede a análise de Regressão, mas diminui as chances de se observar efeito
  • 8. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III significativo da variável independente prever a variável dependente. Portanto é recomendado que se observe se as variáveis analisadas não apresentam Outliers. Caso se observe Outliers é recomendado retirá-los. Para realizar a análise de Regressão Simples no SPSS clicar em Analyze< Regression< Linear. Na caixa de dialogo que abrir inserir em Dependent a variável dependente (Consumo máximo de oxigênio) e em Independent (s) a variável previsora (índice de massa corporal). Em Method deixar a opção Enter. Em Statistics selecionar em Regression Coefficients os itens Estimates e Confidence intervals Level. Também selecionar os itens Model Fit, R square change e Descritive. Em Plots inserir em “Y” DEPENDENT e em “X” *ZPRED, em seguida clicar em NEXT e inserir em “Y” *ZREDID e em “X” *ZPRED. As opções SAVE e OPTIONS não serão utilizadas na Regressão Linear Simples. Agora clicar em OK na caixa de dialogo principal. No Output do SPSS é apresentado os valores médios das variáveis inseridas em Descriptive Statistics. No quadro Correlations é apresenta a correlação de Pearson e os valores de significância associados ao valor de “p”. Quando foi selecionado o método ENTER o SPSS indica quais variáveis independentes foram mantidas ou retiradas do
  • 9. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III modelo, mas como estamos tratando de uma regressão simples temos apenas uma variável independente não sendo necessário considerar está informação apresentada no quadro Variables Entered/Removed. No quadro Model Summary é apresentado o resumo do modelo. Em R é apresentado o valor da correlação simple, em R square (R2 ) é apresentado o valor que a variável independente explica as variações na variável dependente. Em Ajusted R Square é apresendo o valor de R2 associados a análise dos resíduos. O erro padrão (Std. Error of the Estimate) indica a variabilidade dos resíduos. Em Change Statistics é apresentado a estatística F (F Change), os graus de liberdade (df1 e df2) e o valor de “p” associado a estatística F (Sig. F Change).
  • 10. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III No quadro ANOVA é apresentado em Sum of Squares a soma dos quadrados para o total (SSt), para a regressão (SSm) e para os resíduos (SSr). Para SSm o grau de liberdade (df) é simplesmente o número de variáveis independentes, para SSr é o número de observações menos o número de parâmetros sendo estimados (70-2= 68), e para SSt é o número de observações menos 1. Em Mean Square é apresentado a Média dos quadrados para o modelo (MSm) e a Média dos quadrados para o resíduo (MSr). Ainda é apresentada a estatística F e o valor de significância para F (sig). No quadro Coefficients são apresentados os parâmetros do modelo. Em Unstandardized Coefficients no item B é apresentado em CONSTANT o valor correspondente ao Intercepto (b0 ou a). No item B referente a índice de massa corporal é apresentado o gradiente de inclinação ou Slope (b1 ou b). Na equação X representa o valor da variável independente. Yi = (b0+bi *Xi) + ei ou Y=a +b*X ou Y= 28,191+(-0,344*X) Ainda no quadro Coefficients o valor de “t” nos informa se o valor de B é diferente de ZERO, ou seja, o valor de Sig fornece a probabilidade exata de que o valor de “t” acorra se o valor de B é ZERO. Os valores de Sig indicam que tanto a Constante (Intercepto - b0 ou a), quanto a inclinação ou Slope (b1 ou b) são consideradas significativos no Modelo.
  • 11. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III No gráfico abaixo é possível observar que embora a linha de regressão (vermelha) seja estatisticamente diferente da média (preta), os valores observado de VO2 são muito diferentes dos valores preditos pela equação. Ainda na análise do resíduos figura 2 é possível observar que os dados diferem de foram considerável dos resíduos previsto pelo linha de regressão. Embora os parâmetros da equação de Regressão produzidos sejam significativos a variável independente IMC explica somente 19,7% das variações da variável dependente Consumo máximo de oxigênio (VO2max), ou seja, outras variáveis independentes são necessárias para explicar ou predizer adequadamente os valores de VO2max. Assim para produzir uma equação de Regressão que tenha capacidade de predizer adequadamente os valores de VO2max é necessário utilizar uma Regressão Linear Múltipla. 3. REGRESSÃO LINEAR MÚLTIPLA A Regressão Múltipla é uma extensão lógica da Regressão Simples, para situações em que existem vários previsores. Porém a equação agora deverá apresentar um intercepto (constante b0), um coeficiente de regressão para cada variável previsora (b1, b2, ...) e diferença entre o modelo e os valores reais (ei). Y=b0+(b1*x1)+(b2*x2)+....+(bn*xn)+ei
  • 12. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Como existem vários previsores, o SPSS produz um coeficiente de correlação múltiplo (R), que representa a correlação entre os valores observados de Y e os valores de Y previstos pelo modelo de Regressão Múltipla. Além da correlação (R) o SPSS fornece os dados de R-quadrado (R2 ), que representa o fator de explicação, ou seja, quanto da variação de Y é explicada pelo modelo. O SPSS também apresentado o R-quadrado ajustado (R2 ajustado) que fornece uma noção de quão bem o modelo pode ser generalizado quando comparado ao R2 (R2 - R2 ajustado). Esta diferença indica o percentual de variância que não seria explicada pelo modelo se este fosse derivado da população ao invés de uma amostra. O SPSS fornece diferentes Métodos de Regressão que se referem a entrada dos dados que podem diferenciar a o modelo final. - Método Hierárquico: as variáveis previsoras são inseridas no modelo uma a uma por ordem de importância de acordo com o interesse do pesquisador. - Método ENTER (entrada forçada): todos os previsores são forçados no modelo ao mesmo tempo. - Método Stepwise: a manutenção ou retirada das variáveis no modelo é determinada por procedimentos matemáticos combinando o Método Forward e Backward. - Método Forward: a entrada das variáveis previsoras é realizada uma a uma de acordo com o tamanho da contribuição na previsão do modelo se considerar a contribuição da ou das variáveis inseridas anteriormente. Está quantificação é feita através de correlações semi-parciais. - Método Backward: é realizado o processo inverso do Forward, ou seja, todas as todas as variáveis previsoras são inseridas no modelo e através de testes “t” é comparado o valor de previsão com e sem a variável. Caso variável não apresente contribuição significativa ela é retirada do modelo. Para avaliar o quão bem o modelo adere as dados observados, devemos analisar a presença de valores atípicos (outliers) ou de casos influentes. Isto é feito pela análise das diferenças entre os valores previstos pelo modelo e os valores observados que são chamados de resíduos.
  • 13. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Diagnóstico de Outliers Os resíduos normais ou não padronizados são mensurados na mesma unidade de medida da variável de saída (Y) e são difíceis de serem detectados, a não ser quando estes são particularmente grandes. Por outro lado, os resíduos padronizados que são resíduos divididos por uma estimativa do seu desvio-padrão (escore-z) permitem a identificação mais clara de valores atípicos. Algumas regras gerais são padronizadas para está interpretação: - (1) Valores de escore-z > que 3,29 são preocupantes, porque raramente eles ocorrem ao acaso; - (2) Se mais de 1% da amostra padronizada apresenta resíduos padronizados com valores absolutos maiores de 2,58, existem evidências de que o nível de erro dentro do modelo é inaceitável; - (3) Se mais de 5% dos casos tem resíduos padronizados com um valor absoluto maior que 1,96 (pode utilizar 2), também há evidências de que o modelo é frágil. Uma terceira forma de análise dos resíduos é o resíduo estudentizado, que é o valor na padronizado dividido por uma estimativa do desvio-padrão entre eles que varia ponto a ponto. Isto fornece uma estimativa mais precisa da variância do erro para um caso específico. Casos influentes Além de procurar casos atípicos, também é possível buscar casos que influenciam o modelo, e permite avaliar a estabilidade do modelo. Uma estatística utilizada para avaliar casos influentes é o valor previsto ajustado, que compara o valor previsto do modelo com o caso e o valor previsto ajustado sem o caso. Se a retirada do caso influente produz valores previsto semelhantes do modelo inicial é indicativo que o modelo é estável. A diferença entre o valor previsto original e o valor previsto ajustado é conhecido como DFFit. Uma estatística que avalia o efeito de um único caso no modelo como um todo é a Distância de Cook, onde valores maiores que 1 indica influência significativa. Embora existam outras formas de avaliar a influencia de casos no modelo eles não é uma forma de justificar a remoção de dados para simplesmente produzir um valor
  • 14. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III de B significativo. Lembre ainda que um valor atípico ou caso influente possa de fato representar o padrão biológico presente na população e sua retirada leva a um modelo não real. Além disso, a variável previsora ou o conjunto de variáveis previsoras podem não ser capazes de prever adequadamente da variável de saída (Y). GENERALIZAÇÃO DE UM MODELO DE REGRESSÃO Para generalizar um modelo de regressão devemos estar seguros de que as suposições (pressupostos) foram satisfeitos, e para testar se o modelo de fato é generalizável, podemos realizar uma validação cruzada. Pressupostos - Tipos de variáveis: todas as variáveis devem ser Quantitativas, e devem ser não limitada. Isto significa que os dados devem conter toda a amplitude em a variável pode apresentar. Embora a Regressão Múltipla aceite variáveis categóricas, estas devem ser inseridas somente se apresentarem contribuição significativa na melhoria das previsões. - Variância não-nula: os previsores devem apresentar alguma variação, ou seja, não podem apresentar variância ZERO. - Multicolinariedade na deve ser perfeita: não deve existir relacionamento linear perfeito entre dois ou mais previsores, ou seja, não devem apresentar correlações muito elevadas (>0,80). - Homocedasticidade: a cada nível das variáveis previsoras, a variância do termo residual deve ser constante. Isso significa que os resíduos a cada nível dos previsores devem ter a mesma variância (Homocedasticidade). Quando as variâncias são desiguais os dados apresentam Heterocedasticidade. - Erros independentes: para quaisquer duas observações os termos resíduos devem ser não-correlacionados. Está suposição pode ser testada pelo teste de Durbin-Watson, que testa a correlação entre erros. Os resultados podem varia de 0 a 4, onde valores de 2 indicam que os resíduos não se correlacionam. Valores acima de 2 indicam correlação negativa e abaixo de 2 correlação positiva. Valores acima de 3 e menores que 1 indicam que os resíduos se correlacionam. - Erros normalmente distribuídos: as diferenças entre o modelo e os dados observados são frequentemente ZERO ou próximo de ZERO. As variáveis previsoras não necessitam ter distribuição normal, mas os resíduos sim.
  • 15. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III - Independência: as variáveis previsoras devem representar aspectos diferentes. - Linearidade: os dados devem apresentar um comportamento linear. Validação Cruzada do Modelo Representa a forma de determinar o quão bem o modelo pode prever a saída (Y) em uma amostra diferente daquela que produziu a equação. Quando o modelo é capaz de prever a variável de saída em uma amostra diferente daquela que o modelo foi construído, dizemos que o modelo é generalizável. O método para realizar a análise de validação cruzada é o R2 ajustado, que representa a perda de poder de previsão. O SPSS determina o valor do R2 ajustado utilizando a equação de Wherry. Tamanho da amostra na Regressão Existem diferentes regras para se determinar o tamanho da amostra em regressão. A mais simples delas é a de se utilizar de 10 a 15 elementos por variável previsora inserida no modelo. Deste modo, se temos 3 variáveis previsoras necessitamos de 30 a 45 elementos amostrais. Outra regra refere-se ao objetivo da regressão. Se você quer testar o modelo como um todo, o tamanho mínino da amostra é =50+8*k, onde k representa o número de previsores. Porém se o objetivo é analisar a contribuição de cada previsor individualmente o tamanho da amostra é 104+k. Porém para a estimativa precisa do tamanho da amostra é recomendado o uso dos gráficos propostos por Miles & Shevin (2001). Estes gráficos relacionam o tamanho do efeito com o número de previsores. Lembre que quanto menor o efeito que se deseja detectar maior será o tamanho da amostra. Considerando um poder de 80%, valor mais comumente utilizado na área da saúde é possível verificar na figura abaixo o tamanho da amostra para diferentes tamanhos de efeito e número de previsores.
  • 16. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Para gerar a análise de regressão múltipla no SPSS clicar em Analyze< Regression< Linear. Na caixa de dialogo que abrir inserir em Dependent a variável de saída (Y) e em Independent (s) as variáveis previsoras. No exemplo dado a variável dependente é o Consumo máximo de Oxigênio (VO2max) e as variáveis independentes previsoras são: índice de massa corporal (IMC), circunferência de cintura (CC), Idade e Frequência cardíaca de repouso (FCr). No campo Method selecionar a opção ENTER.
  • 17. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Em Statistics selecionar todos os itens exceto Covariance Matrix. Em Casewise diagnostics, que lista os valores observados da saída, os valores de saída previstos, a diferença entre esses valores (os resíduos) e essa diferença padronizada, é possível selecionar o número de desvios-padrões, sendo recomendado indicar o valor 2. Em Plots aparece uma lista de variáveis, devendo utilizar principalmente DEPENDENT (variável dependente), *ZPRED (valores previstos padronizados da variável dependente com base no modelo) e *ZRESID: resíduos padronizados (erro). Selecionar as opções Histogram, Normal probality plots e Produce all partila plots. Inserir *ZPRED em “X” e DEPENDENT em “Y” e clicar em NEXT. Inserir agora *ZPRED em “X” e *RESID em “Y” e clicar em Continue. Em SAVE selecionar em Predicted Values as opções Unstandardized (valor previsto não padronizado), Standardized (valor previsto padronizado) e Ajusted (valor
  • 18. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III previsto ajustado). Em Residuals clicar em Standardized (resíduo padronizado), Deleted (resíduo excluído) e Studentized deleted (resíduo estudentizado excluído). Em Distances clicar em Mahalanobis (distância de Mahalanobis), Cook´s (distância de Cook) e Leverage values (valor centrado de influência). Em Influence Statistics clicar em Standardized DfBeta (s) (DfBeta padronizado do previsor) e Standardized DfFit (DfFit padronizado). A interpretação destes índices será descrita adiante. Em Options em Use probability é possível selecionar os critério de entrada (Entry) e de remoção (Removal) de uma variável previsora pelo valor de “p” associado a estatística F (Multivariada). Clicar em Continue e depois em OK na caixa de dialogo principal.
  • 19. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III No Output do SPSS no quadro Descriptive Statistics é apresentado os valores de média e desvio-padrão das variáveis analisadas. No quadro Correlations é apresentado os valores de correlação de Pearson e os respectivos valores de “p” para as variáveis inseridas no modelo. No quadro Correlations é possível observar que as variáveis IMC e CC apresentam correlação elevada, indicando que uma delas deverá ser retirada do modelo. No quadro Variables Entered/Removed é apresentado as variáveis que foram incluídas no modelo e as variáveis que forma removidas.
  • 20. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III No quadro Model Summary o valor de R=0,528 indica que os previsores tem uma correlação modera com a variável de saída VO2max. O R Square (R2 ) indica que o modelo explica 27,9% das variações em VO2max. Os valores de Adjusted R Square indica os valores de R2 se o modelo fosse derivado da população (0,279 – 0,235 = 0,044 =4,4%). Em Change Statistics é analisada se a variação entre de R2 são significativas. Em Durbon-Watson se a hipótese de Independência dos Erros é satisfeita, onde quanto mais próximo de 2 melhor. No quadro ANOVA contém a análise de variância que testa se o modelo de regressão é significativamente melhor para prever a saída de VO2max do que utilizar a média das variáveis previsora. Como o valor de “p” (Sig) é menor que 0,05 podemo dizer que o modelo é melhor do que utilizar a média.
  • 21. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III No quando Coefficients é apresentado os parâmetros do modelo. Em Unstarndardized no item “B” estão apresentados os parâmetros da equação e ao erro padrão que pode ser observado em repetidas amostras da população. Em Standardized Coefficients é apresentado os valores de “B” padronizados em unidades de desvios- padrões o que fornece uma idéia melhor da importância da importância de cada previsor no modelo. Os valore de t e Sig indicam se o previsor contribui de forma significativa no modelo, ou seja, se o valor do coeficiente é diferente do valor médio. Y=41,732 + (-0,128*X1)+ (0,109*X2)+(-0,121*X3)+(0,035*X4) Ainda no quadro Coefficients são apresentados os valores do Intervalo de Confiança de 95% para os valores de “B” (95% Confidence Interval for B). Em Correlation é apresentada a correlação parcial (Partial) entre os previsores controlado a auto correlação entre os previsores. Em Collinearity Statistics valores de VIF próximos de 10 indicam a presença de Multicolinearidade e valores próximo de 1 indicam ausência de Multicolinearidade. Os valores de Tolerance aceitáveis são maiores 0,20. No quadro Casewise Diagnostics são indicados os casos que representam Outliers no modelo, apresentado os valores do desvio-padrão residual (Std. Residual), Valor Observado, Valor Predito pelo modelo (Predited Value) e valor residual (Redisual).
  • 22. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III No quadro Residuals Statistics é possível visualizar a estatística descritiva dos valores previstos e residuais, porém uma informação importante refere-se a distância de COOK, onde valores acima de 1 indicam influência significativas de casos. A análise da Regressão com a observação dos gráficos de Histograma dos resíduos e o Diagrama de Probabilidade Acumulada Observada. No gráfico de da relação entre a variável dependente e *ZPRED, e no gráfico entre *ZRESID e *ZPRED, clicar duas vezes sobre o gráfico para abrir o editor. Selecionar na barra de ferramentas os itens indicados abaixo em vermelho para inserir a linha correspondente a média (vermelha) e a linha de regressão prevista pelo modelo (preta). Depois clicar na linha de regressão e em Properties selecionar a opção Mean em Confidence Interval para traçar a linha de IC95% para a linha de regressão.
  • 23. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Inserindo variáveis categóricas na Regressão Linear Na análise de regressão é possível a inclusão de variáveis categóricas nas variáveis previsoras (independente). Porém está deverá estar em escala dicotômica e sua codificação deverá ser sempre 0 e 1. A categoria “0” deve representar a ausência da característica de interesse, e a variável “1” a presença. Quando temos uma variável categórica que possui mais de duas categorias temos que definir a categoria de interesse e atribuir o código “1”, e para o restante das
  • 24. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III categorias atribuir o código “0”. Quando isto é feito a variável criada é chamada de variável Dummy, pois, o código “0” representa mais de uma categoria de resposta se caracterizando com uma variável fictícia. No SPSS é possível transformar uma variável categórica com mais de duas categorias em uma variável Dummy. Considerando a planilha do SPSS Regressão Logística, a variável estado nutricional (EST_NUT) possui 3 categorias de resposta, sendo, 0=eutrófico; 1=sobrepeso; 2=obeso. Supondo que o propósito seja criar 3 variáveis Dummy: Eutrófico (0=não eutrófico; 1= eutrófico); Sobrepeso (0=não sobrepeso; 1= sobrepeso); Obeso (0=não obeso; 1=obeso). Clicar em Transform<Recode into Different Variables. No item Numeric Variable -> Output Variable inserir a variável EST_NUT que será transformada. Em Name nomear a nova variávei Dummy, e em Label descrever a nova variável. Feito isto clicar em Change. Em seguida clicar em Old and New Values para atribuir os novos códigos. Em Old Value inserir em Value o código original da categoria. Em New Value inserir em Value o novo código e clicar em Add para adicionar. O mesmo deverá ser feito para as categorias que receberam o código “0”. Após inserir em Add todas as categorias clicar em Continue e depois em OK.
  • 25. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III O SPSS irá criar uma nova variável chamada de Eutrófico. Caso queira fazer o mesmo para as outras categorias de resposta deverá realizar o mesmo procedimento para cada uma delas. Embora seja possível incluir variáveis categóricas nos previsores da Regressão Linear, a variável de saída (Y) sempre deverá ser uma variável quantitativa. Para exemplificar está situação utilize a planilha do SPSS Regressão Logística e realize uma Regressão Linear Simples incluindo a variável quantitativa IL6 como variável dependente e a variável Dummy Obesidade vs. Não Obesidade na lista de variável dependente. Lembre de testar os pressuposto discutidos anteriormente.
  • 26. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III
  • 27. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Também é possível inserir simultaneamente variáveis quantitativas e categóricas com variáveis previsoras. Realize a Regressão Linear Múltipla incluir além da variável Dummy Obesidade as variáveis quantitativas idade, tempo sem menstruação (TSM) e circunferência de cintura (CC), para testar um modelo de previsão dos valores de Interleucina-6 (IL6). Lembre que agora temos mais pressupostos para testar.
  • 28. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III 4. REGRESSÃO LOGÍSTICA BINÁRIA Na Regressão Logística a variável de saída (Y) é uma variável categórica dicotômica que representa a ausência ou presença de um desfecho. As variáveis previsoras pode ser quantitativas ou qualitativas. Embora seja parecida com a Regressão Linear, a Regressão Logística não prevê os valores de Y, mas sim a probabilidade do desfecho de interesse em Y ocorrer. Na sua forma mais simples a Regressão Logística com um único previsor a equação pode ser descrita da seguinte forma. P(Y) = 1/ 1+e – (b0 + b1*X + ɛi ) Onde P é a probabilidade de Y ocorrer, “e” é a base do logaritmo naturnais, e o restante da equação representa os mesmo parâmetros descritos na Regressão Linear. Quando a Regressão Logística incluir múltiplos previsores ela é representada da seguinte forma. P(Y) = 1/ 1+e – (b0 + b1*X1+ b2*X2+ ....bn*Xn+ ɛi ) A equação de Regressão Logística descrita é expressa por uma Regressão Linear em termos logarítmicos e dessa forma resolve a problema da violação da hipótese de linearidade. O valor resultante da equação é uma probabilidade que varia de 0 a 1, onde um valor próximo de 0 significa que a ocorrência de Y é bastante improvável, e próximo de 1 é bastante provável. Os parâmetros estimado pela equação são analisados pela Estimação da Máxima Verossimilhança, que seleciona os coeficientes de regressão. Da mesma forma, que a regressão linear, a Regressão Logística, utiliza os valores observados e previsto para avaliar a Aderência do modelo. Para fazer isso é utilizado a Verossimilhança-log. A estatística da Verossimilhança-log é análoga à soma dos quadrados dos resíduos na regressão múltipla, no sentido de que ela é um indicador da quantia de informação não explicada pelo modelo. Contudo, é possível calcular uma versão mais adequada da correlação múltipla na regressão logística por um valor conhecido como estatística-R.
  • 29. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Essa estatística-R é a correlação parcial entre a variável de saída (Y) e cada uma das variáveis previsoras, e pode variar de -1 a 1. O valor positivo indica que quando a variável previsora aumenta, também aumenta probabilidade da ocorrência do evento. Um valor negativo indica que quando a variável previsora aumenta, diminui a probabilidade do evento ocorre. Existe controvérsia sobre qual o melhor método para determinar o R2 na regressão logística. O SPSS fornece duas medidas que podem ser utilizadas, o R2 cs de Cox & Snell e sua correção no valor de R2 n de Nagelherke. A estatística de Wald é utilizada para avaliar a contribuição dos previsores no modelo, informando se o coeficiente “B” de cada previsor é significativamente diferente de ZERO. O item de maior relevância na interpretação da Regressão Logística é o valor de Exp b (Exp(B) na saída do SPSS), que é um indicador da mudança nas probabilidades resultantes da mudança de uma unidade no previsor. Essa proporção de mudança na Chance (Odds) é interpretada da seguinte forma: se o valor é maior que 1significa que quando o previsor aumenta as chances da saída ocorrer é maior; se o valor é menor que 1 indica que quando o previsor aumenta as chances da saída ocorrer diminuem. Quanto ao método de Regressão recomendado é o ENTER, embora a opção do Stepwise esteja disponível. Lembre que na Regressão Logística os previsores podem ser variáveis quantitativas ou qualitativas, porém quando for incluir variáveis categóricas é importante indicar estas para o SPSS caso estas não estejam no formato Dummy para que seja possível sua dicotomização. Para exemplificar a aplicação da Regressão Logística no SPSS primeiro vamos utilizar um exemplo em que as variáveis previsoras são todas quantitativas. No exemplo o objetivo é analisar um modelo de variáveis quantitativas que consiga prever os desfecho relacionado a inflamação crônica de baixo grau representado na variável (IL6_diag), onde 1 representa a presença e 0 a ausência.
  • 30. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Clicar em Analyze<Regression<Binary Logistic. Na caixa de dialogo que abrir inserir em Dependent a variável que representa o desfecho que se pretende prever, e em Covariates inserir as variáveis previsoras que se pretende testar. A opção Categorical será utilizada somente quando houver uma variável categórica com mais de duas categorias que seja necessário transformar em variável Dummy. Em SAVE selecionar as opções indicadas no quadro abaixo para gerar informações relacionadas ao valor predito pelo modelo (Predicted Values), Resíduos (Residuals) e influência de valores (Incluence). Lembre o SPSS irá produzir novas variáveis quando estas opções estiverem selecionadas. O uso de cada informação será descrito juntamente com os resultados mais a frente.
  • 31. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Em Options selecionar as opções marcadas no quadro abaixo, porém se optou pelo Metódo Stepwise vale apenas considerar a possibilidade de alterar os valores de entrada (Entry) e remoção (Removal), pois, estes limites podem ser ampliados. No item Statistics and Plots o diagrama de classificação (classification plots) produz um histograma dos valores reais e previstos da variável de saída, que serve para avaliar o ajuste do modelo aos dados observados. Em Casewise listing of residuals é apresentada uma lista de resíduos por caso e para todos os casos. Em CI for exp(B) é produzido um intervalo de confiança para a estatística exp(B). A opção Hosmer- Lemeshow goodness-of-fit fornece uma estimativa de quão bem o modelo se ajusta ao dados. Em Display é possível optar em possível optar em apresentar todas as estatísticas e gráficos a cada estágio, ou somente ao final quando o modelo estiver determinado. Selecionado todos os itens de interesse clicar em Continue e retornando na caixa de dialogo principal clicar em OK. No Output do SPSS inicialmente é apresentado no quadro Case Processing Summary a lista de elementos incluídos na análise. Em Dependent Variable Encoding a indicação dos códigos atribuídos as categorias da variáveis desfecho (Y).
  • 32. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Os resultados são apresentados em dois blocos de análise. No Bloco “0” em Interation History é apresentado como um relatório de como a constante se modifica com a inclusão de previsores no modelo. Em Classification Table é apresentada uma tabela de contingência que analisa os valores observados e preditos pelo modelo quando apenas a constante é incluída. Em Overall Percentage é apresentada a porcentagem de sujeitos que tiveram a previsão do desfecho corretamente pelo modelo, sendo considerado bom valores acima de 70%. Ainda no Bloco “0” em Variable in the Equation é apresentado os parâmetros calculados sem a inclusão dos previsores, ou seja, baseada somente na probabilidade do desfecho ocorrer, onde B representa a constante da equação (b0), S.E. o erro padrão associado a constante, a estatística Wald que informa se contribuição da constante é significativa no modelo, em Sig. o valor de “p” associado a estatística Wald, e em Exp(B) o variação da chance do desfecho ocorrer.
  • 33. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Finalizando o Bloco “0” o quadro Variables not in the Equation é fornecido a significância da entrada de cada variável previsora no modelo. Na última linha em Overall Statistics é apresentada a estatística do Qui-quadrado dos resíduos em Score e seus respectivo valor de “p” (Sig). Está estatística informa se os coeficientes para as variáveis que não estão no modelo são significativamente diferente de ZERO, ou seja, se a adição de uma ou mais destas variáveis no modelo irá afetar o seu poder de previsão. Agora no no Bloco 1: Metodo Enter é apresentado os resultados do modelo com a inclusão dos previsores. Em Iteration History é apresentada os coeficiente de cada previsor considerando primeiro (Step 1) a inclusão dos previsores sem interação e depois sucessivamente com a interação de 2 a 5 previsores.
  • 34. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Em Omnibus Tests of Model Coeficients é apresentada o valor de significância do modelo. Em Modelo Summary o SPSS fornece a aderência total do novo modelo. Lembre que os valores de -2Log likelihood devem ser menores do que quando somente a constante foi incluída, pois, isto indica que o novo modelo está prevendo a variável desfecho com maior precisão, ou seja, quando menor melhor. Recomenda-se olhar para Nagelkerke R Square que indica a aderência do modelo, ou seja, o quanto o modelo explica a ocorrência do desfecho. Complementar ao Nagelkerke R Square no quadro Hosmer and Lemeshow Test é indicado se a aderência ao modelo é significativa. Em Classification Table no item Overall Percentage 75,7% dos sujeitos com o desfecho forma previstos corretamente, porém no modelo somente com a constante foram previsto corretamente 74,3%, o que indica que a inclusão das variáveis previsoras contribuiu pouco para a melhoria do modelo. Porém 17 dos 18 elementos sem inflamação receberam incorretamente a previsão de inflamação o que indica fragilidade do modelo, pois, apesar de detectar corretamente 75%, não demonstrou capacidade de detectar os sujeitos sem o desfecho.
  • 35. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III No quadro Variable in the Equation são apresentados os parâmetros da equação e sua estatística para cada previsor e para constante, onde B representa o coeficiente de cada previsor que modifica a saída resultante da mudança de uma unidade na variável previsora. É também apresentada a estatística Wald e seu respectivo valor de “p” (Sig) que informa se o coeficiente “b” para dado previsor é significativamente diferente de ZERO. Em Exp(B) é descrita a taxa de mudança na chance que resultada do aumento de uma unidade do previsor. Em TSM o valor é de 0,938, o que representa um fator de proteção para o desfecho, ou seja, o aumento em uma unidade no previsor TSM aumenta a chance do desfecho não ocorrer. Por outro lado, em IMC o valor de 1,146 indica que o aumento de uma unidade no IMC aumento a chance do desfecho ocorrer em 1,146%. Também é fornecido o Intervalo de Confiança de 95% para Exp(B), e quando este IC95% incluir o valor 1 é indicativo que este previsor não tem contribuição significativa no aumento da chance do desfecho ocorrer.
  • 36. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Por último é apresentado um diagrama de classificação que representa um histograma das probabilidades previstas. Se o modelo adere perfeitamente aos dados, o histograma deve mostrar todos os casos em o evento ocorreu do lado direito e todos os casos que o evento não ocorreu do lado esquerdo. Quando as variáveis previsoras são contínuas os casos ficam espalhados por várias colunas. Como regras prática, quanto mais casos se concentrarem nos finais do gráfico, melhor. Por outro lado, se existirem muitos pontos agrupados no centro do diagrama, o modelo prevê tão bem quanto lançar uma moeda.Ainda, ainda um bom modelo deve assegurar que poucos casos sejam mal classificados. Vimos nos resultados que alguns previsores têm B com valor negativo e Exp(B) menor que 1 indicando que quando estes previsores aumentar a probabilidade do desfecho ocorrer diminui. Assim podemos realizar a análise novamente retirando estes previsores. Além disso, também é possível inserir previsores de modo a analisar sua interação. Para isso após clicar em Analyze<Regression<Binary Logistic, na lista de variáveis da caixa de dialogo que abrir selecionar duas variáveis e a opção “>a*b> será ativada para inserir a interação no item Covariates. No Bloco “0” é possível verificar no quadro Variabeles not in the Equation em Overall Statistics que nenhuma variável previsor é significativamente diferente de ZERO, ou seja, se a adição de uma ou mais destas variáveis no modelo não irá afetar o seu poder de previsão.
  • 37. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III No Bloco 1, em Nagelkerke R Square é possível verificar que a aderência de modelo é baixa, pois o modelo explica somente 6,9% da ocorrência do desfecho, e em Hosmer and Lemeshow Test o valor de Sig. indica que o R2 (aderência) não é significativo. No quadro Variable in the Equation a estatística de Wald mostra em Sig. que nenhuma variável previsora foi significativa e o IC95% para Exp(B) incluem o valor 1.
  • 38. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Também é possível realizar a Regressão Logística incluindo nos previsores variáveis qualitativas. Embora o SPSS tenha a opção em Categorical para dicotimizar uma variável qualitativa com mais de duas categorias de resposta, recomendo que o próprio pesquisado faça isso atribuindo os códigos de resposta “0” e “1”. Agora utilizando as variáveis da planilha Regressão Logística vamos testar um modelo para prever a inflamação crônica de baixo grau, incluindo nos previsores as variáveis Hipertensão (HAS), Colesterol Total elevado (CT), HDL-colesterol baixo (HDL-c) e Diabete (DM). Todas as variáveis previsoras estão dicotomizadas em Ausência (0) e Presença (1). Agora clicar em Analyze<Regression<Binary Logistic e inserir as novas variáveis em Covariantes. Lembre de selecionar os itens em SAVE para analisar os resíduos, porém antes de produzir novas variáveis na sua planilha, é possível rodas a análise se selecionar esta opção e caso o modelo se mostre promissor fazer está análise subsequente. Porém no itens options não esqueça de selecionar as opções
  • 39. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Agora que estamos habituados com o Output podemos analisar diretamente o quadro Variable not the Equation no Bloco “0”, como também a aderência do modelo no Bloco 1 (Modelo Summary e Hosmer and Lemeshow Teste). Na análise do quadro Variable in the Equation do Bloco 1 observamos que embora nenhuma variável previsora tenha apresentado significância menor que 0,050, as variáveis HAS e CT apresentaram valores abaixo de 0,100 (10%). Porém o CT indica que o aumento do CT aumenta as chances do desfecho não ocorrer. Além disto, o HDL- c apresentou valor de Exp(B) é maior que 1 e podem ter potencial de contribuir com o modelo apesar do IC95% incluir o valor 1. Após estas considerações podemos rodar a análise novamente somente com as variáveis HAS e HDL-c, com também com a interação entre elas.
  • 40. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III Observe que retirada das variável CT e DM alteraram todos os valores descritos no quadro Variables in the Equation, e isto indica o efeito de um previsor sobre o outro na construção do modelo de previsão. Além disto, lembre que o tamanho da amostra e as características destas podem influenciar a capacidade do modelo prever o desfecho. Outra questão é que uma amostra pode produzir um modelo de boa aderência e significativo, porém se a amostra utilizada para construir o modelo, não representar adequadamente a população para qual o modelo foi construído, suas previsões terão baixo percentual de acerto, por isso testar a reprodutibilidade de modelos de previsão é necessário antes de recomendar sua utilização. BIBLIOGRAFIA 1. DAWSON, B.; TRAPP, R.G. Bioestatística básica e clínica. 3 ed.Rio de Janeiro: McGraw-Hill, 2001. 2. DEMIDENKO, E. Sample size determination for logistic regression revisited. Statistics in Medicine, John Wiley. v. 26, p. 3385-3397, 2007. 3. DEMIDENKO, E. Sample size and optimal design for logistic regression with binary interaction. Statistics in Medicine. John Wiley. v. 27, p. 36-46, 2008. 4. FIELD, A. Descobrindo a estatística usando o SPSS. 2 ed. Porto Alegre: Artmed, 2009, 689p. 5. FONTELLES, M.J.;et al. Metodologia da pesquisa: diretrizes para o cálculo do tamanho da amostra. Revista Paraense de Medicina. v.24, n.2. 2010 6. GLANTZ, S.A. Princípios de Bioestatística. 7 ed. Porto Alegre: Artmed, 2014, 306p. 7. LINDENAU, J.D.; GUIMARÃES, L.S.P. Calculando o tamanho do efeito no SPSS. Rev. HCPA, Secção de Bioestatística, v.32, n.3, 2012. 8. LUNET, N.; SEVERO, M.; BARROS, H. Desvio Padrão e Erro Padrão. Notas Metodológicas. Arquivos de Medicina, 2006.
  • 41. Estatística Aplicada para Iniciantes – Módulo 4 – Estatística Analítica III 9. MIOT, Hélio Amante. Tamanho da amostra em estudos clínicos experimentais. J Vas Bras. 2011; 10 (4); 275-278. 10. NOVIKOV, I.; FUND, N.; FREEDMAN, L. S. A modified approach to estimating sample size for simple logistic regression with one continuous covariate. Statistics in Medicine. John Wiley. v. 29, p. 97-107, 2009. 11. RIBAS, J.R.; VIEIRA, P.R.C. Análise multivariada com o uso do SPSS. 1 ed. Rio de Janeiro: Editora Ciência Moderna, 2011, 272p. 12. VIEIRA, A.C.R.; ALVAREZ, M.M.; MARINS, V.M.R.; SICHIERI, R.; VEIGA, G.V. Desempenho de pontos de corte do índice de massa corporal de diferentes referências na predição de gordura corporal em adolescentes. Cad. Saúde Pública, Rio de Janeiro, v.22, n.8, p.1681-1690, 2006. 13. WHITTEMORE, A. S. Sample size for logistic regression with small response probability. Journal of the American Statistical Association. American Statistical Association. v. 76, p. 27-32, 1981. View publication statsView publication stats