SlideShare a Scribd company logo
REGRESIA LINIARĂ MULTIPLĂ
C4.
1. Regresia prin origine

2. Prezentarea modelului liniar multiplu
3. Estimarea parametrilor modelului liniar
multiplu

4. Testarea parametrilor modelului liniar multiplu

1
Regresia prin origine (I)


Situaţii în care am putea construi un model de
regresie prin origine:




În urma testării parametrilor modelului,
parametrul β0 are o valoare nesemnificativă
statistic, iar parametrul β1 este semnificativ
statistic;
Există suport teoretic care să impună estimarea
unui model care trece prin origine – lipsa
influenţei variabilei independente conduce la o
medie zero pentru variabila dependentă (analiza
de cost, legătura dintre lungimea şi greutatea
frunzelor unui copac).

2
Regresia prin origine (II)
Pentru un eşantion de 100 de sturioni, se studiază legătura
dintre numărul de ouă depuse şi lungimea peştelui.

3
Regresia prin origine (III)




În cazul modelului de regresie Y  1 X  
aplicarea metodei celor mai mici pătrate se
simplifică.
Problema de minim care trebuie rezolvată este de
forma:

4
Regresia prin origine (IV)
ˆ
Estimatorul  1 este nedeplasat
Avem n-1 grade de libertate
Probleme ale utilizării în practică:



Suma erorilor nu mai este zero;
R2 poate fi negativ sau poate avea o valoare foarte mare, prin
urmare interpretarea acestuia nu mai are sens. Se utilizează
o variantă a lui R2, şi anume:

Aceste probleme dispar dacă modelul de regresie liniară
are variabilele standardizate. În acest caz, panta dreptei
de regresie are aceeaşi valoare cu coeficientul de
corelaţie Pearson.
5
Modelul liniar multiplu (I)
Forma generală a modelului liniar multiplu este dată
prin relaţia:

Y  M Y / X 1 ,... X i ,...., X p      0  1 X 1   2 X 2  ...   p X p  
unde:
 Y - variabila dependentă;
 X1, X2,…,Xi,…,Xp - variabile independente (predictori);
 ε - variabilă reziduu de modelare (variabila aleatoare);
 βi - parametrii modelului de regresie
 k - numărul de parametri din model, k=p+1.
Exemplu: Pentru un eşantion de 50 de mărci de cereale, se
poate studia legătura dintre ratingul acordat de consumatori
unei mărci de cereale şi factorii de influenţă (nr. de calorii, de
grame de grăsimi, de zahăr, de fibre, etc.)
6
Modelul liniar multiplu (II)

Cei k parametri ai modelului liniar multiplu au următoarea
semnificaţie:
β0 – valoarea medie a variabilei dependente Y, în condiţiile
în care influenţa variabilelor independente ar fi nulă;

Y
i 
, i  1, p - variaţia absolută a variabilei
X i
dependente la o variaţie absolută cu o unitate a variabilei
independente Xi, în condiţiile în care influenţa celorlalte
variabile independente este menţinută constantă. Arată
influenţa parţială a fiecărei variabile independente asupra
variabilei dependente.
7
Modelul liniar multiplu (3)
Ipotezele modelului clasic de regresie (IIN):
-

variabilele independente sunt nestochastice

-

normalitatea erorilor :  i ~ N (0,  2 )

-

2
2
homoscedasticitate: V (  i )  M (  i )  

-

necorelarea erorilor: cov(  i , j )  0

lipsa corelaţiei dintre variabilele independente şi
variabila eroare
- lipsa coliniarităţii sau a unei legături liniare între
variabilele independente
-

8
Estimarea parametrilor modelului multiplu liniar (I)
Se consideră modelul de regresie liniară multiplă cu două
variabile independente:

yi   0   1 x1i   2 x 2 i   i
La nivelul unui eşantion, modelul devine:
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
yi  0  1 x1i   2 x2i   i
sau yi  yi   i
Rezultă
ˆ ˆ
ˆ
ˆ
ˆ
 i  yi  yi  yi  0  1x1i  2 x2i
Estimarea parametrilor modelului prin metoda celor mai
mici pătrate presupune respectarea condiţiei:
n
2
ˆ
ˆ
ˆ
ˆ2
  i  min im, adică  ( yi  0  1 x1i   2 x2i )  min im
i 1

i

9
Estimarea parametrilor modelului multiplu liniar (II)

Pentru satisfacerea condiţiei MCMMP trebuie ca
derivatele parţiale de ordin I în raport cu coeficienţii
modelului să se anuleze. Astfel se va obţine un sistem de
2+1=3 ecuaţii cu 3 necunoscute.
n
ˆ  β x  β x  y
ˆ n
ˆ n
nβ0
1
1i
2
2i
i
i 1

i 1

i 1

n
n
ˆ  x  β  x2  β  x x   y x
ˆ n
ˆ n
β0
1i
1
1i
2
1i 2i
i 1i
i 1

i 1

i 1

i 1

n
n
ˆ  x  β  x x β  x 2   y x
ˆ n
ˆ n
β0
2i
1
1i 2i
2
2i
i 2i
i 1

i 1

i 1

i 1

10
Estimarea parametrilor modelului multiplu liniar (III)

Estimarea punctuală a parametrilor modelului
La nivelul unui eşantion de date, sistemul de ecuaţii
devine:
n
n
n
nb0  b1  x1i  b2  x2i   yi
i 1

i 1

i 1

n

n

n

n

i 1

i 1

i 1

i 1

n

n

n

i 1

i 1

i 1

b0  x1i  b1  x  b2  x1i x2i   yi x1i
2
1i

n

b0  x2i  b1  x1i x2i b2  x   yi x2i
2
2i

i 1

Prin rezolvarea sistemului, se obţin relaţiile pentru
estimaţiile parametrilor modelului de regresie.
Exemplu: Rating = 61.1 - 3.07 Grăsimi - 2.21 Zahăr

11
Estimarea parametrilor modelului multiplu liniar (IV)
Estimarea parametrilor prin interval de
încredere
Intervalele de încredere sunt de forma:
ˆ
β [β  t
σ ]
i

i

α/2, n  k

ˆ
βi

La nivelul unui eşantion de date se obţine un
interval de forma:



i  bi  t / 2,nk sˆ , bi  t / 2,nk sˆ
i

i



12
Testarea individuală parametrilor modelului liniar
multiplu (I)
Testarea parametrilor modelului multiplu liniar se
face la fel ca în cazul modelului simplu liniar:
1. Formularea ipotezelor i=0,p:

H0: i  0
H1:  i  0
2. Alegerea pragului de semnificaţie α
De regulă, se asumă un risc α = 0,05.
ˆ
βi
3. Alegerea statisticii test t 
σβ
ˆ

i

13
Testarea parametrilor modelului liniar multiplu (II)
4. Valoarea teoretică a statisticii test
Pentru pragul de semnificaţie ales şi v=n-k grade de
libertate, se citeşte valoarea teoretică din tabela Student:
tα/2;n-k
5. Valoarea calculată a statisticii test
La nivelul eşantionului se determină valoarea calculată a
bi
testului:

t calc 

s
ˆ

i
6. Regula de decizie
Dacă t
se respinge H0
calc  t / 2

Dacă
5%.

t calc  t / 2

se acceptă H0, pentru risc asumat de
14
Testarea parametrilor modelului liniar multiplu (III)
În SPSS, decizia se ia pe baza semnificaţiei testului
(Sig.):
- dacă Sig t   , se respinge H0
-dacă Sig t   , se acceptă H0, pentru un nivel de
încredere de 95%.
7. Compararea celor două valori ale statisticii test
şi luarea deciziei
8. Interpretarea rezultatului testării
15
Testarea modelului de regresie/ testarea
simultană a parametrilor modelului (I)
Testarea modelului de regresie se realizează cu ajutorul
testului F, după următorul demers:
1. Formularea ipotezelor
H0: β0=β1=…=βp=0 (modelul nu este semnificativ)
H1: nu toţi coeficienţii sunt simultan zero
2. Alegerea pragului de semnificaţie α
3. Alegerea statisticii test
ˆ
ˆ
VE n  k
2 n  k
F



ˆ n  1 1  2 k  1
ˆ
VR

~F(k-1, n-k)

4. Valoarea teoretică a statisticii test: F

α, k-1, n-k

ESS n  k
R2
nk



5. Valoarea calculată a testului: F 
RSS n  1 1  R 2 k  1
16
Testarea modelului de regresie (II)
6. Regula de decizie
Dacă Fcalc  Fk 1,n  k se respinge H0
Dacă
5%.

Fcalc  Fk 1,n  k se acceptă H0, pentru risc asumat de

În SPSS, decizia se ia pe baza semnificaţiei testului (Sig.):
Sig F   , se respinge H0
-dacă
--dacă Sig F  
, se acceptă H0, pentru un nivel de
încredere de 95%.
7. Compararea celor două valori ale statisticii test şi
luarea deciziei
17
EXEMPLU

Pentru un eşantion de mărci de cereale, se
studiază legătura dintre ratingul acordat de
consumatori unei mărci de cereale şi nr. de grame
de grăsimi, de zahăr şi de fibre.

18
Model Sum m ary
Model
1

R
R Square
,789 a
,622

Adjusted
R Square
,612

Std. Error of
the Estimate
8,75456

a. Predictors: (Constant), sugars , f at
b
ANOV A

Model
1

Regression
Residual
Total

Sum of
Squares
9325,268
5671,533
14996,800

df
2
74
76

Mean Square
4662,634
76,642

F
60,836

Sig.
,000 a

t
31,284
-2,958
-9,428

Sig.
,000
,004
,000

a. Predictors: (Constant), sugars , f at
b. Dependent Variable: rating
a
Coe fficients

Model
1

(Cons tant)
f at
sugars

Unstandardiz ed
Coef f icients
B
Std. Error
61,089
1,953
-3,066
1,036
-2,213
,235

a. Dependent Variable: rating

Standardized
Coef f icients
Beta
-,220
-,700

19
M odel Sum m ary
Model
1

R
,930 a

A djusted
R Square
,859

R Square
,865

Std. Error of
the Estimate
5,35086

a. Predictors: (Constant), f at, f iber, sugars
b
ANOV A

Model
1

Regression
Residual
Total

Sum of
Squares
12503,728
1946,958
14450,686

df
3
68
71

Mean Square
4167,909
28,632

F
145,570

Sig.
,000 a

a. Predictors: (Constant), f at, f iber, sugars
b. Dependent Variable: rating
a
Coe fficients

Model
1

(Cons tant)
f iber
sugars
f at

Unstandardiz ed
Coef f icients
B
Std. Error
53,673
1,389
2,938
,261
-1,992
,150
-3,347
,656

a. Dependent Variable: rating

Standardized
Coef f icients
Beta
,507
-,622
-,238

t
38,637
11,265
-13,238
-5,103

Sig.
,000
,000
,000
,000

20

More Related Content

PPTX
2013 econometrie c05_c06_2013
PPT
Curs11 econometrie ipoteze_dv
PDF
49855810 capitolul-2-regresia-liniara-pp1-33-slide-ej
PPT
Curs10 econometrie ipoteze dv 2013
PPT
Curs 3
DOCX
Proiect econometrie
PPT
Econometrie c5 2013
PPT
Curs7 econometrie regr_neliniara 2013
2013 econometrie c05_c06_2013
Curs11 econometrie ipoteze_dv
49855810 capitolul-2-regresia-liniara-pp1-33-slide-ej
Curs10 econometrie ipoteze dv 2013
Curs 3
Proiect econometrie
Econometrie c5 2013
Curs7 econometrie regr_neliniara 2013

What's hot (20)

PPT
Regresie
PPT
Curs 2. econometrie (2)
PPT
Econometrie c6 2013
PPT
C4 regr lin multipla
PPTX
Regresia
PPT
Curs12 ipoteze dv (1)
PPT
Curs 01 econometrie - introducere
PDF
44657669 econometrie-aplicata-in-finante
PDF
Statistica
PPT
Elemente de statistica matematica și probabilitatea
PPT
Curs regresie statistica economica
PPTX
Elemente de statistica
PPT
PPTX
Functii derivabile legatura_intre_continuitate_si_derivabilitate_derivate_lat...
PPTX
Functii derivabile
DOC
Algebra si analiza de 11
PPT
Variabile şi expresii logice
ODP
Curs05 (mate 2013-2014)
PPT
Tablouri bidimensionale
DOC
Functii, tablouri si pointeri in c si c++
Regresie
Curs 2. econometrie (2)
Econometrie c6 2013
C4 regr lin multipla
Regresia
Curs12 ipoteze dv (1)
Curs 01 econometrie - introducere
44657669 econometrie-aplicata-in-finante
Statistica
Elemente de statistica matematica și probabilitatea
Curs regresie statistica economica
Elemente de statistica
Functii derivabile legatura_intre_continuitate_si_derivabilitate_derivate_lat...
Functii derivabile
Algebra si analiza de 11
Variabile şi expresii logice
Curs05 (mate 2013-2014)
Tablouri bidimensionale
Functii, tablouri si pointeri in c si c++
Ad

2013 econometrie c04_2013

  • 1. REGRESIA LINIARĂ MULTIPLĂ C4. 1. Regresia prin origine 2. Prezentarea modelului liniar multiplu 3. Estimarea parametrilor modelului liniar multiplu 4. Testarea parametrilor modelului liniar multiplu 1
  • 2. Regresia prin origine (I)  Situaţii în care am putea construi un model de regresie prin origine:   În urma testării parametrilor modelului, parametrul β0 are o valoare nesemnificativă statistic, iar parametrul β1 este semnificativ statistic; Există suport teoretic care să impună estimarea unui model care trece prin origine – lipsa influenţei variabilei independente conduce la o medie zero pentru variabila dependentă (analiza de cost, legătura dintre lungimea şi greutatea frunzelor unui copac). 2
  • 3. Regresia prin origine (II) Pentru un eşantion de 100 de sturioni, se studiază legătura dintre numărul de ouă depuse şi lungimea peştelui. 3
  • 4. Regresia prin origine (III)   În cazul modelului de regresie Y  1 X   aplicarea metodei celor mai mici pătrate se simplifică. Problema de minim care trebuie rezolvată este de forma: 4
  • 5. Regresia prin origine (IV) ˆ Estimatorul  1 este nedeplasat Avem n-1 grade de libertate Probleme ale utilizării în practică:   Suma erorilor nu mai este zero; R2 poate fi negativ sau poate avea o valoare foarte mare, prin urmare interpretarea acestuia nu mai are sens. Se utilizează o variantă a lui R2, şi anume: Aceste probleme dispar dacă modelul de regresie liniară are variabilele standardizate. În acest caz, panta dreptei de regresie are aceeaşi valoare cu coeficientul de corelaţie Pearson. 5
  • 6. Modelul liniar multiplu (I) Forma generală a modelului liniar multiplu este dată prin relaţia: Y  M Y / X 1 ,... X i ,...., X p      0  1 X 1   2 X 2  ...   p X p   unde:  Y - variabila dependentă;  X1, X2,…,Xi,…,Xp - variabile independente (predictori);  ε - variabilă reziduu de modelare (variabila aleatoare);  βi - parametrii modelului de regresie  k - numărul de parametri din model, k=p+1. Exemplu: Pentru un eşantion de 50 de mărci de cereale, se poate studia legătura dintre ratingul acordat de consumatori unei mărci de cereale şi factorii de influenţă (nr. de calorii, de grame de grăsimi, de zahăr, de fibre, etc.) 6
  • 7. Modelul liniar multiplu (II) Cei k parametri ai modelului liniar multiplu au următoarea semnificaţie: β0 – valoarea medie a variabilei dependente Y, în condiţiile în care influenţa variabilelor independente ar fi nulă; Y i  , i  1, p - variaţia absolută a variabilei X i dependente la o variaţie absolută cu o unitate a variabilei independente Xi, în condiţiile în care influenţa celorlalte variabile independente este menţinută constantă. Arată influenţa parţială a fiecărei variabile independente asupra variabilei dependente. 7
  • 8. Modelul liniar multiplu (3) Ipotezele modelului clasic de regresie (IIN): - variabilele independente sunt nestochastice - normalitatea erorilor :  i ~ N (0,  2 ) - 2 2 homoscedasticitate: V (  i )  M (  i )   - necorelarea erorilor: cov(  i , j )  0 lipsa corelaţiei dintre variabilele independente şi variabila eroare - lipsa coliniarităţii sau a unei legături liniare între variabilele independente - 8
  • 9. Estimarea parametrilor modelului multiplu liniar (I) Se consideră modelul de regresie liniară multiplă cu două variabile independente: yi   0   1 x1i   2 x 2 i   i La nivelul unui eşantion, modelul devine: ˆ ˆ ˆ ˆ ˆ ˆ yi  0  1 x1i   2 x2i   i sau yi  yi   i Rezultă ˆ ˆ ˆ ˆ ˆ  i  yi  yi  yi  0  1x1i  2 x2i Estimarea parametrilor modelului prin metoda celor mai mici pătrate presupune respectarea condiţiei: n 2 ˆ ˆ ˆ ˆ2   i  min im, adică  ( yi  0  1 x1i   2 x2i )  min im i 1 i 9
  • 10. Estimarea parametrilor modelului multiplu liniar (II) Pentru satisfacerea condiţiei MCMMP trebuie ca derivatele parţiale de ordin I în raport cu coeficienţii modelului să se anuleze. Astfel se va obţine un sistem de 2+1=3 ecuaţii cu 3 necunoscute. n ˆ  β x  β x  y ˆ n ˆ n nβ0 1 1i 2 2i i i 1 i 1 i 1 n n ˆ  x  β  x2  β  x x   y x ˆ n ˆ n β0 1i 1 1i 2 1i 2i i 1i i 1 i 1 i 1 i 1 n n ˆ  x  β  x x β  x 2   y x ˆ n ˆ n β0 2i 1 1i 2i 2 2i i 2i i 1 i 1 i 1 i 1 10
  • 11. Estimarea parametrilor modelului multiplu liniar (III) Estimarea punctuală a parametrilor modelului La nivelul unui eşantion de date, sistemul de ecuaţii devine: n n n nb0  b1  x1i  b2  x2i   yi i 1 i 1 i 1 n n n n i 1 i 1 i 1 i 1 n n n i 1 i 1 i 1 b0  x1i  b1  x  b2  x1i x2i   yi x1i 2 1i n b0  x2i  b1  x1i x2i b2  x   yi x2i 2 2i i 1 Prin rezolvarea sistemului, se obţin relaţiile pentru estimaţiile parametrilor modelului de regresie. Exemplu: Rating = 61.1 - 3.07 Grăsimi - 2.21 Zahăr 11
  • 12. Estimarea parametrilor modelului multiplu liniar (IV) Estimarea parametrilor prin interval de încredere Intervalele de încredere sunt de forma: ˆ β [β  t σ ] i i α/2, n  k ˆ βi La nivelul unui eşantion de date se obţine un interval de forma:  i  bi  t / 2,nk sˆ , bi  t / 2,nk sˆ i i  12
  • 13. Testarea individuală parametrilor modelului liniar multiplu (I) Testarea parametrilor modelului multiplu liniar se face la fel ca în cazul modelului simplu liniar: 1. Formularea ipotezelor i=0,p: H0: i  0 H1:  i  0 2. Alegerea pragului de semnificaţie α De regulă, se asumă un risc α = 0,05. ˆ βi 3. Alegerea statisticii test t  σβ ˆ i 13
  • 14. Testarea parametrilor modelului liniar multiplu (II) 4. Valoarea teoretică a statisticii test Pentru pragul de semnificaţie ales şi v=n-k grade de libertate, se citeşte valoarea teoretică din tabela Student: tα/2;n-k 5. Valoarea calculată a statisticii test La nivelul eşantionului se determină valoarea calculată a bi testului: t calc  s ˆ i 6. Regula de decizie Dacă t se respinge H0 calc  t / 2 Dacă 5%. t calc  t / 2 se acceptă H0, pentru risc asumat de 14
  • 15. Testarea parametrilor modelului liniar multiplu (III) În SPSS, decizia se ia pe baza semnificaţiei testului (Sig.): - dacă Sig t   , se respinge H0 -dacă Sig t   , se acceptă H0, pentru un nivel de încredere de 95%. 7. Compararea celor două valori ale statisticii test şi luarea deciziei 8. Interpretarea rezultatului testării 15
  • 16. Testarea modelului de regresie/ testarea simultană a parametrilor modelului (I) Testarea modelului de regresie se realizează cu ajutorul testului F, după următorul demers: 1. Formularea ipotezelor H0: β0=β1=…=βp=0 (modelul nu este semnificativ) H1: nu toţi coeficienţii sunt simultan zero 2. Alegerea pragului de semnificaţie α 3. Alegerea statisticii test ˆ ˆ VE n  k 2 n  k F    ˆ n  1 1  2 k  1 ˆ VR ~F(k-1, n-k) 4. Valoarea teoretică a statisticii test: F α, k-1, n-k ESS n  k R2 nk    5. Valoarea calculată a testului: F  RSS n  1 1  R 2 k  1 16
  • 17. Testarea modelului de regresie (II) 6. Regula de decizie Dacă Fcalc  Fk 1,n  k se respinge H0 Dacă 5%. Fcalc  Fk 1,n  k se acceptă H0, pentru risc asumat de În SPSS, decizia se ia pe baza semnificaţiei testului (Sig.): Sig F   , se respinge H0 -dacă --dacă Sig F   , se acceptă H0, pentru un nivel de încredere de 95%. 7. Compararea celor două valori ale statisticii test şi luarea deciziei 17
  • 18. EXEMPLU Pentru un eşantion de mărci de cereale, se studiază legătura dintre ratingul acordat de consumatori unei mărci de cereale şi nr. de grame de grăsimi, de zahăr şi de fibre. 18
  • 19. Model Sum m ary Model 1 R R Square ,789 a ,622 Adjusted R Square ,612 Std. Error of the Estimate 8,75456 a. Predictors: (Constant), sugars , f at b ANOV A Model 1 Regression Residual Total Sum of Squares 9325,268 5671,533 14996,800 df 2 74 76 Mean Square 4662,634 76,642 F 60,836 Sig. ,000 a t 31,284 -2,958 -9,428 Sig. ,000 ,004 ,000 a. Predictors: (Constant), sugars , f at b. Dependent Variable: rating a Coe fficients Model 1 (Cons tant) f at sugars Unstandardiz ed Coef f icients B Std. Error 61,089 1,953 -3,066 1,036 -2,213 ,235 a. Dependent Variable: rating Standardized Coef f icients Beta -,220 -,700 19
  • 20. M odel Sum m ary Model 1 R ,930 a A djusted R Square ,859 R Square ,865 Std. Error of the Estimate 5,35086 a. Predictors: (Constant), f at, f iber, sugars b ANOV A Model 1 Regression Residual Total Sum of Squares 12503,728 1946,958 14450,686 df 3 68 71 Mean Square 4167,909 28,632 F 145,570 Sig. ,000 a a. Predictors: (Constant), f at, f iber, sugars b. Dependent Variable: rating a Coe fficients Model 1 (Cons tant) f iber sugars f at Unstandardiz ed Coef f icients B Std. Error 53,673 1,389 2,938 ,261 -1,992 ,150 -3,347 ,656 a. Dependent Variable: rating Standardized Coef f icients Beta ,507 -,622 -,238 t 38,637 11,265 -13,238 -5,103 Sig. ,000 ,000 ,000 ,000 20