SlideShare una empresa de Scribd logo
12
Lo más leído
13
Lo más leído
30
Lo más leído
SEMANA 7- 8
ANÁLISIS DE REGRESIÓN MÚLTIPLE
Universidad Nacional de
Cajamarca
Docente:
MsC. Cabrera Pinedo Irvin Eduardo
OBJETIVOS
Formular modelos de regresión lineal simple y múltiple. Usando variables
dentro del contexto de su especialidad.
Identificar los supuestos del modelo de regresión lineal simple y múltiple
Aplicar criterios para seleccionar y validar el mejor modelo de regresión
lineal múltiple
Realizar estimaciones adecuadas de la variable de interés del campo de su
especialidad en base a resultados obtenidos del análisis de regresión
2020-II
Análisis de Regresión Lineal
Múltiple
Generalidades
INTRODUCCIÓN
⦁ En el análisis multivariado de datos, se analizan dos o más
variables en conjunto.
⦁ Existen diversas técnicas que permiten analizar datos
multivariados con distintos fines como asociativos, explicativos,
predictivos, etc.
⦁ Cuando el objetivo es explicar la dependencia de una variable
cuantitativa Y a partir de otras variables independientes (X1,
X2, …,Xk), entonces la técnica a utilizar es el análisis de
regresión lineal múltiple.
LA REGRESIÓN LINEAL MÚLTIPLE
⦁ Tiene como objetivo predecir o estimar una variable
dependiente (Y) mediante más de una variable independiente a
través de un modelo matemático.
⦁ El incluir un mayor número de variables independientes en el
modelo supondría mayor precisión para la predicción de la
variable dependiente.
⦁ El modelo poblacional de la regresión lineal múltiple es el
siguiente:
⦁ Siendo la ecuación de regresión poblacional:
+ 1 X1,i + 2 X2,i + 3 X3,i
Yi = 0 + ......+ k Xk ,i + i
Y / X ,X ,...X
1 2 k
+ 1 X1,i + 2 X2,i + 3 X3,i
= 0 + ......+ k Xk ,i
LA REGRESIÓN LINEAL MÚLTIPLE
ESTIMACIÓN
Modelo de regresión estimado
Ecuación de regresión estimada
Con una muestra
de n
observaciones
multivariadas
i =1, 2,..., n
i =1, 2,..., n
Yi = b0 + b1X1,i + b2 X2,i + b3 X3,i +......+ bk Xk ,i + ei
Y
ˆ = b + b X
i 0 1 1,i
+ b2 X2,i + b3 X3,i +......+ bk X k,i
La estimación puntual se realiza utilizando la ecuación de regresión estimada
Sistema de Ecuaciones Normales en
su forma matricial:
Luego,de acuerdo a los procedimientos establecidos se invierte la matriz (𝑋’𝑋) para
hallar el vector 𝑏.
donde:
LA REGRESIÓN LINEAL MÚLTIPLE
SUPUESTOS
1) Las variables independientes de X son fijas (no aleatoria)
2) La variable dependienteY es aleatoria
3) Para cada combinación de los valores de X existe una
distribución normal multivariante para la variableY:
forma:
Esta expresión indica que no existe dependencia o
correlación entre las observaciones y tampoco existe
relación de los valores de ɛi con los valores de
(Homocedasticidad)
5) No debe existir correlación o combinación lineal entre las
variables indepedientes de X (no debe haber efecto de
Multicolinealidad).
Y ~ N ( ,2
)
i Y|Xi
4) El error tiene distribución normal con media 0 y varianza
constante  2
el cual se puede expresar de la siguiente
i ~ N (0, )
2
COEFICIENTE DE DETERMINACIÓN
MÚLTIPLE
⦁ Mide el porcentaje de la variabilidad de la respuesta que es
explicado por las variables predictoras. Su valor va de 0 a 1 y
se calcula mediante la siguiente expresión:
r2
=
SC (Regresión)
SC (Total)
APLICACIÓN II (Ejemplo 1)
⦁ Se desea estudiar el efecto de la temperatura ambiente
promedio diario en °F (X1), y la cantidad de aislante utilizado
en un desván medido en pulgadas de grosor (X2) sobre el
consumo mensual de petróleo, en galones, para calefacción de
casas (Y). Para el efecto se ha tomado una muestra aleatoria
de 15 casas cuyos datos medidos se reportan en las cuatro
primeras columnas de la tabla.
Los datos se muestran a continuación:
APLICACIÓN II (Ejemplo 1)
Muestra Y X1 X2
1 275.3 40 3
2 363.8 27 3
3 264.3 40 10
4 40.8 73 6
5 94.3 64 6
6 230.9 34 6
7 366.7 9 6
8 300.6 8 10
9 237.8 23 10
10 121.4 63 3
11 31.4 65 10
12 203.5 41 6
13 441.1 21 3
14 323 38 3
15 52.47 58 10
APLICACIÓN II (Ejemplo 1)
a) Analice la matriz de correlaciones
Correlación: Y
, X1, x2
Según la matriz de correlaciones, observamos que existe una alta
correlación negativa entre Y e 𝑋1 (-0.872) y una correlación
moderada negativa entre Y e 𝑋2 (-0.398), es casi cero entre 𝑋1 y
𝑋2 y es como debe de ser
, no debe existir asociación entre las
variables independientes.
Y X1
X1 -0.872
x2 -0.398 0.009
APLICACIÓN II (Ejemplo 1)
b) Presente la ecuación de regresión lineal múltiple estimada
Coef.
Predictor Coef de EE T P
Constante 550.33 33.36 16.50 0.000
X1 -5.4449 0.5317 -10.24 0.000
x2 -17.040 3.705 -4.60 0.001
Y = 550.325 – 5.445X 1 – 17.04 X2
c) Interprete b1 y b2
b1 =-5,445, Cuando la temperatura ambiente promedio estimada diaria se
incremente en 1 °F
, el consumo mensual promedio de petróleo para
calefacción disminuirá en 5.445 galones, manteniendo constante la cantidad de
aislamiento en el desván (b2).
APLICACIÓN II (Ejemplo 1)
b2 =-17.04, Cuando la cantidad de aislamiento en el desván se incremente en
1 pulgada de grosor, el consumo mensual promedio estimado de petróleo
para calefacción disminuirá en 17.04 galones, manteniendo constante la
temperatura ambiente promedio diario (b1).
APLICACIÓN II (Ejemplo 1)
d)Calcule el consumo promedio mensual estimado de petróleo para
calefacción cuando la temperaturaambiente es de 50 °F y se usa un
aislamiento en el desván de 10 pulgadas de grosor.
Si 𝑋1= 50 y 𝑋2= 10,entonces:
Y = 550.325 – 5.445(50) – 17.04 (10)=107.675 galones
e)Calcule e interprete el coeficiente de determinación
Del reporte de Minitab,𝑅2 = 0.91358.
Esto se interpreta como el 91.36% de la variabilidad del consumo mensual de
petróleo,es explicado por las variables 𝑋1 y 𝑋2 ,por el modelo y solo el
8.64% se debe alerror propio del muestreo y aotras variables que no han
sido consideradas en el modelo.
EL ANÁLISIS DE VARIANZA
El cálculo de las sumas de cuadrados se realiza mediante
operaciones matriciales. Para el desarrollo del curso se usarán
reportes Minitab 19 que facilitan su cálculo.
Fuentes
de
variación
Gl SC CM Fc
Regresión k=p-1 SC(Reg)
Error n-k-1 SC(Error)
Total n - 1 SC(Total)
PRUEBAS DE HIPÓTESIS
Prueba Global
P1) H0 : 1 = 2 = ... = k = 0
H1 : Al menos un j es distinto de cero
P2) α=0.05
P3) El estadístico de prueba
P4)
Si  F(1−,k,n−k−1) se rechaza H0
P5) Conclusión
CM (Reg)
CME
F(k,n−k−1)
Fcalc =
Fcalc
PRUEBAS DE HIPÓTESIS
Prueba de EfectosAdicionales
P1)
P2) α=0.05
P3) El estadístico de prueba
Donde bjes el coeficiente de regresión estimado jy Sbj es su error estándar
. Estos
valores se obtienen de un reporte de Minitab
P4) Criterio de decisión:
Si tcj < t(α/2,n-k-1) ó tcj > t(α/2,n-k-1) se rechaza H0
P5) Conclusión
H0 : 1 = 0
H1 : 1  0
H0 : 2 = 0
H1 : 2  0
H0 : k = 0
H1 : k  0
….
~ t(n−k−1)
cj
bj
=
bj
t
s
SELECCIÓN DE VARIABLES
2020-II
Paso 1:Realizar el análisis de varianza
Si resulta no significativo,entonces ninguna variable aporta al modelo.
Paso 2:Realizar el análisis de efectos adicionales
De ser significativo elANVA, evaluar la influencia de cada variable en el modelo
Paso 3:Construir nuevo modelo eliminando la variable no significativa.
Nota: Si hay más de una variable no significativa en el paso anterior
, eliminar la que
tiene menor tc en valor absoluto o la que tiene mayor p-valor
Paso 4:Volver al paso 1 hasta que todas las variables sean significativas
APLICACIÓN II (Ejemplo 1)
f) Realice elAnálisis deVariancia.(Use α=0.05)
P1)
P2) α=0.05
P3) El estadístico de prueba
𝐻0: 𝛽1 = 𝛽2 = 0
𝐻1: Existe al menos una 𝛽𝑖 diferente a cero
𝑐𝑎𝑙
𝐶𝑀𝐸
𝐶𝑀𝑅𝑒𝑔
𝐹 = ∼ 𝐹 𝑝−1,𝑛−𝑝
107364.458
𝐹𝑐𝑎𝑙𝑐 =
1692.6013
= 63.43; 𝐹 2,12𝑔𝑙,0.05 = 3.88
Análisis de varianza
Fuente GL SC MC F P
Regresión 2 214729 107364 63.43 0.000
Error residual 12 20311 1693
Total 14 235040
APLICACIÓN II (Ejemplo 1)
P4) Si 𝐹𝑐 > 𝐹𝑡 se rechaza H0
P5) Conclusión
Como 𝐹𝑐> 𝐹𝑡 entonces,se rechaza la Ho y se acepta la H1.
Con un nivel de significación del 5%, se puede afirmar que al menos una de las
variables temperatura o aislamiento se relacionan con el consumo de
petróleo.
APLICACIÓN II (Ejemplo 1)
g) Evalúe el efecto lineal adicional de las variables Xi
Coef.
Predictor Coef de EE T P
Constante 550.33 33.36 16.50 0.000
X1 -5.4449 0.5317 -10.24 0.000
x2 -17.040 3.705 -4.60 0.001
P1) 𝐻0: 𝛽1 = 0 𝐻0: 𝛽2 = 0
𝐻1: 𝛽1 ≠ 0 𝐻1: 𝛽2 ≠ 0
P2) α=0.05
P3) El estadístico de prueba
𝑐𝑗
𝑆𝑏
𝑏𝑗
𝑡 = ∼ 𝑡 12
−5.4449
𝑡 =
0.5317316
= −10.24
−17.04
𝑡 =
3.704712
= −4.5995
APLICACIÓN II (Ejemplo 1)
P4) Criterio de decisión
Si −2.179 ≤ 𝑡𝑐𝑗
≤ 2.179 no se rechaza H0
Si se rechaza H0
P5) Conclusión (Se hace por cada hipótesis)
Para 𝑋1:
Con un nivel de significación del 5% se rechaza 𝐻𝑜.Por lo tanto la variable
temperatura (𝑋1) si influye en el modelo de regresión.
Para 𝑋2:
Con un nivel de significación del 5% se rechaza 𝐻𝑜.Por lo tanto la variable
cantidad de aislamiento (𝑋2) si influye en el modelo de regresión.
𝑡 12,0.975 = 2.179
𝑡𝑐𝑗 < 2.179 ó 𝑡𝑐𝑗 > 2.179
APLICACIÓN II (Ejemplo 1)
i) Seleccione el mejor conjunto de variables.
P1) ANVA
P1)
P2)
P3)
P4) Como 𝐹𝑐 > 𝐹𝑡,entonces,se rechaza la 𝐻0 y se acepta la 𝐻1.
𝐻0: 𝛽1 = 𝛽2 = 0
𝐻1: Existe al menos una 𝛽𝑖 diferente a cero
𝛼 = 0.05
𝐶𝑀𝑅𝑒𝑔
𝐶𝑀𝐸
𝐹𝑐𝑎𝑙𝑐 = ∼ 𝐹 2,12
𝐹 2,12𝑔𝑙,0.95
107364.458
𝐹𝑐𝑎𝑙𝑐 =
1692.6013
= 63.43; = 3.88
APLICACIÓN II
P2) Análisis de efectos adicionales
P1)
P2)
P3)
P4) En ambos casos se rechaza 𝐻𝑜. Por lo tanto las dos variables forman parte del modelo
y proceso de selección termina,por lo tanto,el modelo estimado es:
Y = 550.325 – 5.445X1 – 17.04 X2
𝐻0: 𝛽1 = 0
𝐻1: 𝛽1 ≠ 0
𝐻0: 𝛽2 = 0
𝐻1: 𝛽2 ≠ 0
𝛼 = 0.05
𝑆𝑏1
𝑏1
𝑡 = ∼ 𝑡𝐺𝐿(𝐸𝐸) 𝑡 =
−5.4449
0.5317316
= −10.24
−17.04
𝑡 =
3.704712
= −4.5995 𝑡 12,0.975 = 2.179
ESTIMACIÓN Y PREDICCIÓN POR INTERVALO
INTERVALO DE CONFIANZA
Para un valor medio:
Donde:
INTERVALO DE PREDICCIÓN
Para un valor individual:
Donde:
0 0
2 2
  
Sŷ
1− ;n−k−1 1− ;n−k −1


Sŷ  y•X  ŷ0 + t
 ŷ0 −t


 0 
     
0 0
2 2
 
Sŷ −y Sŷ −y
1− ;n−k−1 1− ;n−k−1
   
 
 ŷ0 −t
 y0  ŷ0 + t 
 0 0 
 
0
2 ' -1
Syˆ 0
= S X (X´X) X0
ŷ0 −y0
S = S2
(1+ X'
(X´X)-1
X )
0 0
Valores pronosticados para nuevas observaciones
Nueva
Obs Ajuste
1 203.8
Ajuste
SE IC de 95%
12.4 (176.7, 230.9)
PI de 95%
(110.1, 297.4)
Valores de predictores para nuevas observaciones
Nueva
Obs X1 x2
1 48.0 5.00
Reporte Minitab de ayuda
APLICACIÓN II
j) Estime al 95% de confianza el consumo mensual medio de petróleo
cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el
desván es 5.
La estimación puntual es: Y = 550.325 – 5.445(48) – 17.04(5) = 203.8
Intervalo
IC :(176.7,230.9)
k) Estime al 95% de confianza el consumo mensual individual de petróleo
cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el
desván es 5.
La estimación puntual es: Y = 550.325 – 5.445(48) – 17.04(5) = 203.8.
Intervalo:
IP:(110.1,297.4)
EJERCICIO PROPUESTO
El gerente de una empresa inmobiliaria realiza un estudio de precios en una
muestra de 21 viviendas que posee la urbanización “El Sol”, donde existe un
solo centro comercial.Se consideran en el análisis las siguientes variables:
Y:Precio de la vivienda (en miles de dólares)
X1:Área construida de la vivienda (en metros cuadrados)
X2:Distancia al centro comercial (en metros) y
X3:Antigüedad de la vivienda (en años)
Análisis de regresión:Precio vs.Area,Distancia,Antigüedad
Predictor Coef SECoef T
Constante 75.73 16.77 4.52
Área 0.2849 0.0332 8.58
Distancia 0.0092 0.0134 0.69
Antigüedad -3.377 1.4942 -2.26
EJERCICIO PROPUESTO
a) Estime la ecuación de regresión lineal múltiple e interprete el coeficiente
estimado para la variable antigüedad
b) Determine si el modelo es significativo.Use α = 0.05
a) Calcule e interprete el coeficiente de determinación.
b) Determine el mejor modelo.Use α = 0.05
c) Estime el precio de la vivienda, con una área construida de 90 metros
cuadrados, que tiene una distancia al centro comercial de 50 metros y con
una antigüedad de 5 años.
Fuente GL SC CM Fc
Regresión 17526
Error 3912
Total

Más contenido relacionado

PPTX
Regresion lineal
PDF
P4 16 regresion_lineal_multiple
DOCX
Prueba de hipótesis y intervalos de confianza
PPTX
Medidas de dispersion en power point
DOCX
Prueba de independencia
PDF
Numeros pseudoaleatorios
PDF
Relación entre pruebas de hipótesis e intervalos de confianza
PDF
Estimacion puntual y por intervalos
Regresion lineal
P4 16 regresion_lineal_multiple
Prueba de hipótesis y intervalos de confianza
Medidas de dispersion en power point
Prueba de independencia
Numeros pseudoaleatorios
Relación entre pruebas de hipótesis e intervalos de confianza
Estimacion puntual y por intervalos

La actualidad más candente (20)

PPTX
Medidas de Dispersión
DOCX
esquema numerico - comu3.docx
PDF
Capitulo5 estimacion por_intervalo_es_de_confianza (2)
PPT
Estimación e intervalos de confianza
PDF
Multiple linear regression
DOCX
REGRESIÓN LINEAL SIMPLE
PDF
Comparaciones multiples
PPTX
Estimacion puntual
PPT
Normal distribution
PDF
Error en el polinomio de interpolación
PDF
5.2 estimacion puntual y por intervalos
PPTX
Intervalos de confianza
PPTX
Diferenciación numérica Metodos Numericos
PPT
Contraste de hipotesis1 tema de clase
PPTX
Prueba de hipotesis
PPTX
Medidas de dispersion
PDF
Primer Examen Parcial Investigación de Operaciones
PPSX
Metodo romberg
PPT
1.4. medidas de dispersion
DOCX
R. DE ESTADISTICA DE LA UNIDAD IV DE FELIX C.
Medidas de Dispersión
esquema numerico - comu3.docx
Capitulo5 estimacion por_intervalo_es_de_confianza (2)
Estimación e intervalos de confianza
Multiple linear regression
REGRESIÓN LINEAL SIMPLE
Comparaciones multiples
Estimacion puntual
Normal distribution
Error en el polinomio de interpolación
5.2 estimacion puntual y por intervalos
Intervalos de confianza
Diferenciación numérica Metodos Numericos
Contraste de hipotesis1 tema de clase
Prueba de hipotesis
Medidas de dispersion
Primer Examen Parcial Investigación de Operaciones
Metodo romberg
1.4. medidas de dispersion
R. DE ESTADISTICA DE LA UNIDAD IV DE FELIX C.
Publicidad

Similar a Analisis de regresion multiple (20)

PDF
Clase 6 Análisis de regresión.pdf
PDF
Curso de-econometria-basica
PPT
Regresion Multiple2
PPT
Regresión
PPT
Regresión y Correlación Lineal
PPTX
Ajustes de curvas ff
PDF
regresion lineal de la universidad tecnologica del peru
PDF
Texto paralelo correlación
DOCX
Selecccion de-variable-y-construccion-del-modelo
PDF
347347136-Regresion-Lineal-Multiple.pdf.
PPT
Teoria Analisis de Varianza.ppt.........
PPT
Cap2. modelo regresión multiple-v2-2011
PPTX
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
PPT
UTPL-ESTADÍSTICA II-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
PPTX
Sustentacion tesis 1.0
PPTX
PRONOSTICOS CON REGRESION LINEAL MULTIPLE.pptx
PDF
Regresion aplicada a la ingenieria
PDF
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
PPT
Diseño de experiencias
PPTX
redaccion_argumentacion_ppt_tema_ocho.pptx
Clase 6 Análisis de regresión.pdf
Curso de-econometria-basica
Regresion Multiple2
Regresión
Regresión y Correlación Lineal
Ajustes de curvas ff
regresion lineal de la universidad tecnologica del peru
Texto paralelo correlación
Selecccion de-variable-y-construccion-del-modelo
347347136-Regresion-Lineal-Multiple.pdf.
Teoria Analisis de Varianza.ppt.........
Cap2. modelo regresión multiple-v2-2011
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
UTPL-ESTADÍSTICA II-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
Sustentacion tesis 1.0
PRONOSTICOS CON REGRESION LINEAL MULTIPLE.pptx
Regresion aplicada a la ingenieria
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
Diseño de experiencias
redaccion_argumentacion_ppt_tema_ocho.pptx
Publicidad

Último (20)

PDF
Presentacion Gestion de Recursos DIA 1.pdf
PPTX
DOROTHEA E OREM EXPO.pptx de una teoridta importante
PDF
2425_s9_1_Bitacora_para_la_reflexion.pdf
PPTX
DESAFÍOS DEMOGRÁFICOS Y ENVEJECIMIENTO.pptx
PPTX
CRITERIOS DE UN SERVICIO DE INTENSIVO presen.pptx
PPTX
EPCE_EXCEL 365 CURSO DE ENTRENAMIENTO.pptx
PDF
INFORME ESPECIAL BICENTENARIO DE BOLIVIA.pdf
PPTX
Abdomen HosAESREBBweubeehkrhkqhrkhehrjktil.pptx
PDF
PRESENTACION DE LA ASIGNATURA materiales no convencionales.pdf
PDF
Registro de Limpieza y Desinfección.pdf1
PPTX
fisioterapia 6 semestre - ---- serealizo
PDF
Presentación_rendición_de_cuentas_2020_26-FEB-2021.pdf
PPTX
GOOGLE SHEETS IMPORTANCIA Y CARACTERISITICAS
PPTX
Introducción al analisis de datos con Power bi
PDF
dhjhfjhjcnjhghhhdfhuhhchchuuhuhduhduddyhdu
PPT
TRATA Y TRÁFICO DE PERSONAS defensoría del pueblo
PPTX
TICS EN HONDURAS, PAIS DE CENTROAMERICA.pptx
PDF
Manual de presentacion de la aplicacion Plugbot
PPTX
Curriculo-de-Matematica-Un-Enfoque-por-Competencias.pptx
PDF
REPORTE DE INCIDENCIA DELICTIVA IRAPUATO 1ER SEMESTRE 2025
Presentacion Gestion de Recursos DIA 1.pdf
DOROTHEA E OREM EXPO.pptx de una teoridta importante
2425_s9_1_Bitacora_para_la_reflexion.pdf
DESAFÍOS DEMOGRÁFICOS Y ENVEJECIMIENTO.pptx
CRITERIOS DE UN SERVICIO DE INTENSIVO presen.pptx
EPCE_EXCEL 365 CURSO DE ENTRENAMIENTO.pptx
INFORME ESPECIAL BICENTENARIO DE BOLIVIA.pdf
Abdomen HosAESREBBweubeehkrhkqhrkhehrjktil.pptx
PRESENTACION DE LA ASIGNATURA materiales no convencionales.pdf
Registro de Limpieza y Desinfección.pdf1
fisioterapia 6 semestre - ---- serealizo
Presentación_rendición_de_cuentas_2020_26-FEB-2021.pdf
GOOGLE SHEETS IMPORTANCIA Y CARACTERISITICAS
Introducción al analisis de datos con Power bi
dhjhfjhjcnjhghhhdfhuhhchchuuhuhduhduddyhdu
TRATA Y TRÁFICO DE PERSONAS defensoría del pueblo
TICS EN HONDURAS, PAIS DE CENTROAMERICA.pptx
Manual de presentacion de la aplicacion Plugbot
Curriculo-de-Matematica-Un-Enfoque-por-Competencias.pptx
REPORTE DE INCIDENCIA DELICTIVA IRAPUATO 1ER SEMESTRE 2025

Analisis de regresion multiple

  • 1. SEMANA 7- 8 ANÁLISIS DE REGRESIÓN MÚLTIPLE Universidad Nacional de Cajamarca Docente: MsC. Cabrera Pinedo Irvin Eduardo
  • 2. OBJETIVOS Formular modelos de regresión lineal simple y múltiple. Usando variables dentro del contexto de su especialidad. Identificar los supuestos del modelo de regresión lineal simple y múltiple Aplicar criterios para seleccionar y validar el mejor modelo de regresión lineal múltiple Realizar estimaciones adecuadas de la variable de interés del campo de su especialidad en base a resultados obtenidos del análisis de regresión 2020-II
  • 3. Análisis de Regresión Lineal Múltiple Generalidades
  • 4. INTRODUCCIÓN ⦁ En el análisis multivariado de datos, se analizan dos o más variables en conjunto. ⦁ Existen diversas técnicas que permiten analizar datos multivariados con distintos fines como asociativos, explicativos, predictivos, etc. ⦁ Cuando el objetivo es explicar la dependencia de una variable cuantitativa Y a partir de otras variables independientes (X1, X2, …,Xk), entonces la técnica a utilizar es el análisis de regresión lineal múltiple.
  • 5. LA REGRESIÓN LINEAL MÚLTIPLE ⦁ Tiene como objetivo predecir o estimar una variable dependiente (Y) mediante más de una variable independiente a través de un modelo matemático. ⦁ El incluir un mayor número de variables independientes en el modelo supondría mayor precisión para la predicción de la variable dependiente. ⦁ El modelo poblacional de la regresión lineal múltiple es el siguiente: ⦁ Siendo la ecuación de regresión poblacional: + 1 X1,i + 2 X2,i + 3 X3,i Yi = 0 + ......+ k Xk ,i + i Y / X ,X ,...X 1 2 k + 1 X1,i + 2 X2,i + 3 X3,i = 0 + ......+ k Xk ,i
  • 6. LA REGRESIÓN LINEAL MÚLTIPLE ESTIMACIÓN Modelo de regresión estimado Ecuación de regresión estimada Con una muestra de n observaciones multivariadas i =1, 2,..., n i =1, 2,..., n Yi = b0 + b1X1,i + b2 X2,i + b3 X3,i +......+ bk Xk ,i + ei Y ˆ = b + b X i 0 1 1,i + b2 X2,i + b3 X3,i +......+ bk X k,i La estimación puntual se realiza utilizando la ecuación de regresión estimada
  • 7. Sistema de Ecuaciones Normales en su forma matricial: Luego,de acuerdo a los procedimientos establecidos se invierte la matriz (𝑋’𝑋) para hallar el vector 𝑏. donde:
  • 8. LA REGRESIÓN LINEAL MÚLTIPLE SUPUESTOS 1) Las variables independientes de X son fijas (no aleatoria) 2) La variable dependienteY es aleatoria 3) Para cada combinación de los valores de X existe una distribución normal multivariante para la variableY: forma: Esta expresión indica que no existe dependencia o correlación entre las observaciones y tampoco existe relación de los valores de ɛi con los valores de (Homocedasticidad) 5) No debe existir correlación o combinación lineal entre las variables indepedientes de X (no debe haber efecto de Multicolinealidad). Y ~ N ( ,2 ) i Y|Xi 4) El error tiene distribución normal con media 0 y varianza constante  2 el cual se puede expresar de la siguiente i ~ N (0, ) 2
  • 9. COEFICIENTE DE DETERMINACIÓN MÚLTIPLE ⦁ Mide el porcentaje de la variabilidad de la respuesta que es explicado por las variables predictoras. Su valor va de 0 a 1 y se calcula mediante la siguiente expresión: r2 = SC (Regresión) SC (Total)
  • 10. APLICACIÓN II (Ejemplo 1) ⦁ Se desea estudiar el efecto de la temperatura ambiente promedio diario en °F (X1), y la cantidad de aislante utilizado en un desván medido en pulgadas de grosor (X2) sobre el consumo mensual de petróleo, en galones, para calefacción de casas (Y). Para el efecto se ha tomado una muestra aleatoria de 15 casas cuyos datos medidos se reportan en las cuatro primeras columnas de la tabla. Los datos se muestran a continuación:
  • 11. APLICACIÓN II (Ejemplo 1) Muestra Y X1 X2 1 275.3 40 3 2 363.8 27 3 3 264.3 40 10 4 40.8 73 6 5 94.3 64 6 6 230.9 34 6 7 366.7 9 6 8 300.6 8 10 9 237.8 23 10 10 121.4 63 3 11 31.4 65 10 12 203.5 41 6 13 441.1 21 3 14 323 38 3 15 52.47 58 10
  • 12. APLICACIÓN II (Ejemplo 1) a) Analice la matriz de correlaciones Correlación: Y , X1, x2 Según la matriz de correlaciones, observamos que existe una alta correlación negativa entre Y e 𝑋1 (-0.872) y una correlación moderada negativa entre Y e 𝑋2 (-0.398), es casi cero entre 𝑋1 y 𝑋2 y es como debe de ser , no debe existir asociación entre las variables independientes. Y X1 X1 -0.872 x2 -0.398 0.009
  • 13. APLICACIÓN II (Ejemplo 1) b) Presente la ecuación de regresión lineal múltiple estimada Coef. Predictor Coef de EE T P Constante 550.33 33.36 16.50 0.000 X1 -5.4449 0.5317 -10.24 0.000 x2 -17.040 3.705 -4.60 0.001 Y = 550.325 – 5.445X 1 – 17.04 X2 c) Interprete b1 y b2 b1 =-5,445, Cuando la temperatura ambiente promedio estimada diaria se incremente en 1 °F , el consumo mensual promedio de petróleo para calefacción disminuirá en 5.445 galones, manteniendo constante la cantidad de aislamiento en el desván (b2).
  • 14. APLICACIÓN II (Ejemplo 1) b2 =-17.04, Cuando la cantidad de aislamiento en el desván se incremente en 1 pulgada de grosor, el consumo mensual promedio estimado de petróleo para calefacción disminuirá en 17.04 galones, manteniendo constante la temperatura ambiente promedio diario (b1).
  • 15. APLICACIÓN II (Ejemplo 1) d)Calcule el consumo promedio mensual estimado de petróleo para calefacción cuando la temperaturaambiente es de 50 °F y se usa un aislamiento en el desván de 10 pulgadas de grosor. Si 𝑋1= 50 y 𝑋2= 10,entonces: Y = 550.325 – 5.445(50) – 17.04 (10)=107.675 galones e)Calcule e interprete el coeficiente de determinación Del reporte de Minitab,𝑅2 = 0.91358. Esto se interpreta como el 91.36% de la variabilidad del consumo mensual de petróleo,es explicado por las variables 𝑋1 y 𝑋2 ,por el modelo y solo el 8.64% se debe alerror propio del muestreo y aotras variables que no han sido consideradas en el modelo.
  • 16. EL ANÁLISIS DE VARIANZA El cálculo de las sumas de cuadrados se realiza mediante operaciones matriciales. Para el desarrollo del curso se usarán reportes Minitab 19 que facilitan su cálculo. Fuentes de variación Gl SC CM Fc Regresión k=p-1 SC(Reg) Error n-k-1 SC(Error) Total n - 1 SC(Total)
  • 17. PRUEBAS DE HIPÓTESIS Prueba Global P1) H0 : 1 = 2 = ... = k = 0 H1 : Al menos un j es distinto de cero P2) α=0.05 P3) El estadístico de prueba P4) Si  F(1−,k,n−k−1) se rechaza H0 P5) Conclusión CM (Reg) CME F(k,n−k−1) Fcalc = Fcalc
  • 18. PRUEBAS DE HIPÓTESIS Prueba de EfectosAdicionales P1) P2) α=0.05 P3) El estadístico de prueba Donde bjes el coeficiente de regresión estimado jy Sbj es su error estándar . Estos valores se obtienen de un reporte de Minitab P4) Criterio de decisión: Si tcj < t(α/2,n-k-1) ó tcj > t(α/2,n-k-1) se rechaza H0 P5) Conclusión H0 : 1 = 0 H1 : 1  0 H0 : 2 = 0 H1 : 2  0 H0 : k = 0 H1 : k  0 …. ~ t(n−k−1) cj bj = bj t s
  • 19. SELECCIÓN DE VARIABLES 2020-II Paso 1:Realizar el análisis de varianza Si resulta no significativo,entonces ninguna variable aporta al modelo. Paso 2:Realizar el análisis de efectos adicionales De ser significativo elANVA, evaluar la influencia de cada variable en el modelo Paso 3:Construir nuevo modelo eliminando la variable no significativa. Nota: Si hay más de una variable no significativa en el paso anterior , eliminar la que tiene menor tc en valor absoluto o la que tiene mayor p-valor Paso 4:Volver al paso 1 hasta que todas las variables sean significativas
  • 20. APLICACIÓN II (Ejemplo 1) f) Realice elAnálisis deVariancia.(Use α=0.05) P1) P2) α=0.05 P3) El estadístico de prueba 𝐻0: 𝛽1 = 𝛽2 = 0 𝐻1: Existe al menos una 𝛽𝑖 diferente a cero 𝑐𝑎𝑙 𝐶𝑀𝐸 𝐶𝑀𝑅𝑒𝑔 𝐹 = ∼ 𝐹 𝑝−1,𝑛−𝑝 107364.458 𝐹𝑐𝑎𝑙𝑐 = 1692.6013 = 63.43; 𝐹 2,12𝑔𝑙,0.05 = 3.88 Análisis de varianza Fuente GL SC MC F P Regresión 2 214729 107364 63.43 0.000 Error residual 12 20311 1693 Total 14 235040
  • 21. APLICACIÓN II (Ejemplo 1) P4) Si 𝐹𝑐 > 𝐹𝑡 se rechaza H0 P5) Conclusión Como 𝐹𝑐> 𝐹𝑡 entonces,se rechaza la Ho y se acepta la H1. Con un nivel de significación del 5%, se puede afirmar que al menos una de las variables temperatura o aislamiento se relacionan con el consumo de petróleo.
  • 22. APLICACIÓN II (Ejemplo 1) g) Evalúe el efecto lineal adicional de las variables Xi Coef. Predictor Coef de EE T P Constante 550.33 33.36 16.50 0.000 X1 -5.4449 0.5317 -10.24 0.000 x2 -17.040 3.705 -4.60 0.001 P1) 𝐻0: 𝛽1 = 0 𝐻0: 𝛽2 = 0 𝐻1: 𝛽1 ≠ 0 𝐻1: 𝛽2 ≠ 0 P2) α=0.05 P3) El estadístico de prueba 𝑐𝑗 𝑆𝑏 𝑏𝑗 𝑡 = ∼ 𝑡 12 −5.4449 𝑡 = 0.5317316 = −10.24 −17.04 𝑡 = 3.704712 = −4.5995
  • 23. APLICACIÓN II (Ejemplo 1) P4) Criterio de decisión Si −2.179 ≤ 𝑡𝑐𝑗 ≤ 2.179 no se rechaza H0 Si se rechaza H0 P5) Conclusión (Se hace por cada hipótesis) Para 𝑋1: Con un nivel de significación del 5% se rechaza 𝐻𝑜.Por lo tanto la variable temperatura (𝑋1) si influye en el modelo de regresión. Para 𝑋2: Con un nivel de significación del 5% se rechaza 𝐻𝑜.Por lo tanto la variable cantidad de aislamiento (𝑋2) si influye en el modelo de regresión. 𝑡 12,0.975 = 2.179 𝑡𝑐𝑗 < 2.179 ó 𝑡𝑐𝑗 > 2.179
  • 24. APLICACIÓN II (Ejemplo 1) i) Seleccione el mejor conjunto de variables. P1) ANVA P1) P2) P3) P4) Como 𝐹𝑐 > 𝐹𝑡,entonces,se rechaza la 𝐻0 y se acepta la 𝐻1. 𝐻0: 𝛽1 = 𝛽2 = 0 𝐻1: Existe al menos una 𝛽𝑖 diferente a cero 𝛼 = 0.05 𝐶𝑀𝑅𝑒𝑔 𝐶𝑀𝐸 𝐹𝑐𝑎𝑙𝑐 = ∼ 𝐹 2,12 𝐹 2,12𝑔𝑙,0.95 107364.458 𝐹𝑐𝑎𝑙𝑐 = 1692.6013 = 63.43; = 3.88
  • 25. APLICACIÓN II P2) Análisis de efectos adicionales P1) P2) P3) P4) En ambos casos se rechaza 𝐻𝑜. Por lo tanto las dos variables forman parte del modelo y proceso de selección termina,por lo tanto,el modelo estimado es: Y = 550.325 – 5.445X1 – 17.04 X2 𝐻0: 𝛽1 = 0 𝐻1: 𝛽1 ≠ 0 𝐻0: 𝛽2 = 0 𝐻1: 𝛽2 ≠ 0 𝛼 = 0.05 𝑆𝑏1 𝑏1 𝑡 = ∼ 𝑡𝐺𝐿(𝐸𝐸) 𝑡 = −5.4449 0.5317316 = −10.24 −17.04 𝑡 = 3.704712 = −4.5995 𝑡 12,0.975 = 2.179
  • 26. ESTIMACIÓN Y PREDICCIÓN POR INTERVALO INTERVALO DE CONFIANZA Para un valor medio: Donde: INTERVALO DE PREDICCIÓN Para un valor individual: Donde: 0 0 2 2    Sŷ 1− ;n−k−1 1− ;n−k −1   Sŷ  y•X  ŷ0 + t  ŷ0 −t    0        0 0 2 2   Sŷ −y Sŷ −y 1− ;n−k−1 1− ;n−k−1        ŷ0 −t  y0  ŷ0 + t   0 0    0 2 ' -1 Syˆ 0 = S X (X´X) X0 ŷ0 −y0 S = S2 (1+ X' (X´X)-1 X ) 0 0
  • 27. Valores pronosticados para nuevas observaciones Nueva Obs Ajuste 1 203.8 Ajuste SE IC de 95% 12.4 (176.7, 230.9) PI de 95% (110.1, 297.4) Valores de predictores para nuevas observaciones Nueva Obs X1 x2 1 48.0 5.00 Reporte Minitab de ayuda
  • 28. APLICACIÓN II j) Estime al 95% de confianza el consumo mensual medio de petróleo cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el desván es 5. La estimación puntual es: Y = 550.325 – 5.445(48) – 17.04(5) = 203.8 Intervalo IC :(176.7,230.9) k) Estime al 95% de confianza el consumo mensual individual de petróleo cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el desván es 5. La estimación puntual es: Y = 550.325 – 5.445(48) – 17.04(5) = 203.8. Intervalo: IP:(110.1,297.4)
  • 29. EJERCICIO PROPUESTO El gerente de una empresa inmobiliaria realiza un estudio de precios en una muestra de 21 viviendas que posee la urbanización “El Sol”, donde existe un solo centro comercial.Se consideran en el análisis las siguientes variables: Y:Precio de la vivienda (en miles de dólares) X1:Área construida de la vivienda (en metros cuadrados) X2:Distancia al centro comercial (en metros) y X3:Antigüedad de la vivienda (en años) Análisis de regresión:Precio vs.Area,Distancia,Antigüedad Predictor Coef SECoef T Constante 75.73 16.77 4.52 Área 0.2849 0.0332 8.58 Distancia 0.0092 0.0134 0.69 Antigüedad -3.377 1.4942 -2.26
  • 30. EJERCICIO PROPUESTO a) Estime la ecuación de regresión lineal múltiple e interprete el coeficiente estimado para la variable antigüedad b) Determine si el modelo es significativo.Use α = 0.05 a) Calcule e interprete el coeficiente de determinación. b) Determine el mejor modelo.Use α = 0.05 c) Estime el precio de la vivienda, con una área construida de 90 metros cuadrados, que tiene una distancia al centro comercial de 50 metros y con una antigüedad de 5 años. Fuente GL SC CM Fc Regresión 17526 Error 3912 Total