4.2. Investigarea legăturii între ponderea salariaților încadrați la nivelul salariului minim în numărul total de salariati si salariul mediu brut.
In acest scop s-a construit graficul 4.1 de tip scatter in care pe axa verticala avem ponderea iar pe axa orizontală, salariul mediu brut.
Pe grafic observam ca pe masura ce creste salariul mediu brut, scade ponderea. Avem o legatura de tip invers. Vom verifica daca aceste doua variabile sunt corelate si daca se poate construi un model de regresie.
Pe grafic mai observam ca activitatea S pare mai indepartata de celelalte activitati, ceea ce sugereaza un posibil outlier.
4.2.1. Analiza corelatiei dintre ponderea salariatilor incadrati la nivelul salariului minim in numarul total de salariati si salariul mediu brut.
Construim modelul de regresie. Modelul teoretic are forma: y = + * + ε (4.1)
unde: este variabila independentă (salariul mediu brut)
y este variabila dependenta (ponderea) iar ε este eroarea modelului.
Modelul estimat are forma:
= + * (4.2)
unde coeficientii si se determina prin metoda celor mai mici patrate.
Rezultatele analizei de regresie sunt prezentate in continuare.
S-a utilizat metoda „Z-scores” de eliminare a outlierilor. Aceasta metoda presupune mai intâi standardizarea variabilei. Apoi, daca variabila standardizata este mai mica decat -2.5 sau mai mare decat 2.5, observatia din tabela STATA se considera outlier. Variabila standardizată (notata x_std) se calculeza astfel: x_std = (x - mean_x) / sd_x , unde mean_x este media aritmetica a variabilei x iar sd_x este deviatia standard.
In urma efectuării calculelor a reiesit ca activitatea „S: Alte activitati de servicii” este outlier al variabilei dependente (ponderea) dar nu este outlier al salariului mediu brut.
Corelatia dintre variabila dependenta (pondere) si variabile factoriala (salmediu brut) are valoarea de -0.6561 cu sig = 0.0023. Deducem ca legatura este inversa si deoarece coeficientul liniar de corelatie este mai apropiat de -1 decat de 0, că legatura este destul de puternica
In continuare prezentam validarea modelului liniar cu observatia „S: Alte activitati de servicii” inclusa (nu s-a eliminat outlier-ul).
Validarea modelului in ansamblul sau. F(1, 17) = 12.78 iar p-value = 0.0023. Deoarece valoarea lui p-value = 0.0023 < pragul de semnificatie α = 0.05, deducem ca modelul este valid.
Coeficientul de determinare R2 = 0.4291 iar R2 ajustat =0.3955.
Validarea coeficientului de regresie al variabilei independente (salariu mediu brut). Testul t Student este egal cu -3.57 iar p-value = 0.002. Deoarece p-value este mai mic decat pragul de semnificatie considerat a fi 0.05, deducem ca b1 difera semnificativ de zero.
Am obtinut modelul de regresie:
= + * = 15.14447 – 0.0039145 * (4.3)
cu eroarea standard = 0.0010951 pentru coeficientul b1 .
Interpretare: la creșterea cu o unitate a lui , y scade cu 0.0039145.
Mentionam ca valorile lui si sunt dependente de unitățile de măsură ale variabilelor. Coeficientul poate parea mic (-0.0039145) dar plaja lui de variatie este între 0 si 100, în timp ce salariul mediu brut ia valori peste 1000 de lei.
Validarea restului regresiei.
Normalitatea restului regresiei. Testul statistic ”Shapiro-Wilk W “ pentru verificarea normalițății are p-value = Prob > z = 0.1846 > α = 0.05. Deducem ca restul regresiei urmeaza repartitia normala.
Verificarea ipotezei ca restul regresiei are media zero. Se ulilizeaza testul statistic t Student.
Testul t se calculeaza dupa formula:
t = , (8.3)
unde t urmeaza distributia Student cu ѵ = n – 1 grade de libertate.
Testul t = 2.4 x t critic = 1.734
Deoarece testul t < t critic, acceptăm ipoteza nulă care ne spune ca media restului regresiei este zero (la pragul de semnificatie de 5%, nu diferă semnificativ de zero).
Studierea homoscedasticitatii restului regresiei. Vom compara rezultatele a trei teste.
p-value testului Breusch-Pagan / Cook-Weiberg = 0.0435 si este apropiat de valoarea α = 0.05.
p-value testului White = 0.0893 > α = 0.05. Acceptăm ipoteza nulă că restul regresiei este homoscedastic, respingem ipoteza alternativa că restul regresiei este heteroscedastic.
In concluzie, prin două teste am aratat ca restul regresiei este homoscedastic
”Cameron & Trivedi’s decomposition of IM-test” testează inclusiv asimetria si boltirea restului regresiei. Se observa ca p-value > α = 0.0597 > α = 0.05 de unde deducem ca restul este homoscedastic.
In concluzie, prin doua teste am aratat ca restul regresiei este homoscedastic iar al treilea test ne arata o solutie aprope homoscedastica. In concluzie, restul regresiei este homoscedastic.
Daca eliminam outlier-ul „S: Alte activitati de servicii”, toate testele enumerate anterior se imbunatățesc, inclusiv testul Breusch-Pagan / Cook-Weiberg care are o valoare mai mare decat 0.05.
Constatam ca observatia outlier „S: Alte activitati de servicii”, nu a avut un impact destul de puternic pentru a invalida testarea restului regresiei si am decis sa o pastram in modelul de regresie.
Testul ovtest a carui ipoteza nula este „Modelul nu are variabile omise” are p-value = Prob > F = 0.0648. Acceptam ipoteza nula, modelul nu are variabile omise. Deducem ca modelul nostru liniar este adecvat.
În concluzie, am costruit un model liniar valid care a putut fi interpretat simplu.
Dostları ilə paylaş: |