de Sharad Vijalapuram

Cum se citește un tabel de regresie

Cum se citeste un tabel de regresie
Fotografie de Isaac Smith pe Unsplash

Ce este regresia?

Regresia este unul dintre cele mai importante și frecvent utilizate procese de analiză a datelor. Pur și simplu, este o metodă statistică care explică puterea relației dintre o variabilă dependentă și una sau mai multe variabile independente.

O variabilă dependentă ar putea fi o variabilă sau un câmp pe care încercați să îl preziceți sau să îl înțelegeți. O variabilă independentă ar putea fi câmpurile sau punctele de date despre care credeți că ar putea avea un impact asupra variabilei dependente.

Procedând astfel, răspunde la câteva întrebări importante –

  • Ce variabile contează?
  • În ce măsură contează aceste variabile?
  • Cât de încrezători suntem în legătură cu aceste variabile?

Să luăm un exemplu …

Pentru a explica mai bine numerele din tabelul de regresie, m-am gândit că ar fi util să folosim un eșantion de date și să parcurgem numerele și importanța lor.

ad-banner

Folosesc un mic set de date care conține GRE (un test pe care studenții îl iau pentru a fi luat în considerare pentru admitere în școlile de grad din SUA) scoruri de 500 de studenți și șansa lor de admitere într-o universitate.

pentru că chance of admittance depinde de GRE score, chance of admittance este variabila dependentă și GRE score este variabila independentă.

Cum se citeste un tabel de regresie
Scatterplot de scoruri GRE și șansa de admitere

Linia de regresie

Desenarea unei linii drepte care descrie cel mai bine relația dintre scorurile GRE ale elevilor și șansele lor de admitere ne oferă linie de regresie liniară. Acest lucru este cunoscut sub numele de linie de tendință în diverse instrumente BI. Ideea de bază din spatele trasării acestei linii este de a minimiza distanța dintre punctele de date la o anumită coordonată x și coordonata y prin care trece linia de regresie.

1611768011 531 Cum se citeste un tabel de regresie
Scatterplot cu o linie de regresie.

Linia de regresie ne face mai ușor să reprezentăm relația. Se bazează pe o ecuație matematică care asociază coeficientul x și interceptarea y.

Interceptare Y. este punctul în care linia intersectează axa y la x = 0. Este, de asemenea, valoarea pe care modelul ar lua-o sau o prezice când x este 0.

Coeficienți oferă impactul sau greutatea unei variabile față de întregul model. Cu alte cuvinte, oferă cantitatea de modificare a variabilei dependente pentru o modificare a unității în variabila independentă.

Calculul ecuației liniei de regresie

Pentru a afla interceptarea y a modelului, extindem linia de regresie suficient de departe până când intersectează axa y la x = 0. Aceasta este intercepția noastră y și este în jur de -2,5. Este posibil ca numărul să nu aibă sens pentru setul de date la care lucrăm, dar intenția este să arătăm doar calculul interceptării y.

1611768011 701 Cum se citeste un tabel de regresie
Calculul interceptării y

Coeficientul pentru acest model va fi doar panta liniei de regresie și poate fi calculat prin obținerea modificării admitenței peste modificarea scorurilor GRE.

1611768011 600 Cum se citeste un tabel de regresie
Calculul pantei

În exemplul de mai sus, coeficientul ar fi doar

m = (y2-y1) / (x2-x1)

Și în acest caz, ar fi aproape de 0,01.

Formula y = m * x + b ne ajută să calculăm ecuația matematică a liniei noastre de regresie. Înlocuind valorile pentru interceptarea y și panta pe care le-am obținut din extinderea liniei de regresie, putem formula ecuația –

y = 0,01x – 2,48

-2.48 este o valoare de interceptare y mai precisă pe care am obținut-o din tabelul de regresie așa cum se arată mai târziu în acest post.

Această ecuație ne permite să prognozăm și să prezicem șansa de admitere a unui student atunci când se cunoaște scorul său GRE.

Acum, că avem elementele de bază, să trecem la citirea și interpretarea unui tabel de regresie.

Citirea unui tabel de regresie

Tabelul de regresie poate fi aproximativ împărțit în trei componente

  • Analiza varianței (ANOVA): oferă analiza varianței în model, așa cum sugerează și numele.
  • statistici de regresie: furnizați informații numerice despre variație și cât de bine explică modelul variația pentru datele / observațiile date.
  • ieșire reziduală: furnizează valoarea prezisă de model și diferența dintre valoarea observată efectivă a variabilei dependente și valoarea prezisă de modelul de regresie pentru fiecare punct de date.

Analiza varianței (ANOVA)

1611768011 205 Cum se citeste un tabel de regresie
Masa ANOVA

Gradele de libertate (df)

Regresie df este numărul de variabile independente din modelul nostru de regresie. Deoarece luăm în considerare doar scorurile GRE în acest exemplu, este 1.

Df rezidual este numărul total de observații (rânduri) din setul de date scăzut de numărul de variabile estimate. În acest exemplu, atât coeficientul scorului GRE, cât și constanta sunt estimate.

Df rezidual = 500 – 2 = 498

Df total – este suma regresiei și a gradelor reziduale de libertate, care este egală cu mărimea setului de date minus 1.

Suma pătratelor (SS)

1611768011 880 Cum se citeste un tabel de regresie
Linie de regresie cu media setului de date în roșu.

Regresie SS este variația totală a variabilei dependente care este explicată de modelul de regresie. Este suma pătratului diferenței dintre valoarea prezisă și media valorii tuturor punctelor de date.

∑ (ŷ – ӯ) ²

Din tabelul ANOVA, SS-ul de regresie este de 6,5 și SS-ul total este de 9,9, ceea ce înseamnă că modelul de regresie explică aproximativ 6,5 / 9,9 (în jur de 65%) din întreaga variabilitate din setul de date.

SS rezidual – este variația totală a variabilei dependente care este lăsată inexplicabilă de modelul de regresie. Se mai numește Eroare Suma de pătrate și este suma pătratului diferenței dintre valorile reale și cele prevăzute pentru toate punctele de date.

∑ (y – ŷ) ²

Din tabelul ANOVA, SS rezidual este de aproximativ 3,4. În general, cu cât eroarea este mai mică, cu atât modelul de regresie explică mai bine variația setului de date, așa că, de obicei, am dori să minimizăm această eroare.

SS total – este suma ambelor, regresie și SS reziduale sau cu cât ar varia șansa de admitere dacă scorurile GRE sunt NU luat in considerare.

Erori pătrate medii (MS) – sunt media sumei pătratelor sau a sumei pătratelor împărțite la gradele de libertate pentru ambele, regresie și reziduuri.

Regresie MS = ∑ (ŷ – ӯ) ² / Reg. df

MS rezidual = ∑ (y – ŷ) ² / Res. df

F – este folosit pentru a testa ipoteza că panta variabilei independente este zero. Matematic, poate fi calculat și ca

F = MS de regresie / MS reziduală

Acest lucru este altfel calculat comparând statistica F cu o distribuție F cu regresie df în grade numărător și df rezidual în grade numitor.

Semnificație F – nu este altceva decât valoarea p pentru ipoteza nulă conform căreia coeficientul variabilei independente este zero și, ca și în cazul oricărei valori p, o valoare p scăzută indică faptul că există o relație semnificativă între variabilele dependente și independente.

1611768011 102 Cum se citeste un tabel de regresie

Eroare standard – furnizează deviația standard estimată a distribuției coeficienților. Este cantitatea cu care coeficientul variază în diferite cazuri. Un coeficient mult mai mare decât eroarea sa standard implică o probabilitate ca coeficientul să nu fie 0.

t-Stat – este statistica t sau valoarea t a testului și valoarea sa este egală cu coeficientul împărțit la eroarea standard.

t-Stat = Coeficienți / Eroare standard

Din nou, cu cât este mai mare coeficientul față de eroarea standard, cu atât t-Stat este mai mare și este mai mare probabilitatea ca coeficientul să fie departe de 0.

valoarea p – Statistica t este comparată cu distribuția t pentru a determina valoarea p. De obicei, luăm în considerare doar valoarea p a variabilei independente care oferă probabilitatea de a obține un eșantion cât mai aproape de cea utilizată pentru a obține ecuația de regresie și verificăm dacă panta liniei de regresie este de fapt zero sau coeficientul este apropiat de coeficientul obținut.

O valoare p sub 0,05 indică încredere de 95% că panta liniei de regresie nu este zero și, prin urmare, există o relație liniară semnificativă între variabilele dependente și independente.

O valoare p mai mare de 0,05 indică faptul că panta liniei de regresie poate fi zero și că nu există dovezi suficiente la nivelul de încredere de 95% că există o relație liniară semnificativă între variabilele dependente și independente.

Deoarece valoarea p a scorului GRE variabilă independentă este foarte apropiată de 0, putem fi extrem de încrezători că există o relație liniară semnificativă între scorurile GRE și șansa de admitere.

95% inferior și superior – Deoarece folosim în principal un eșantion de date pentru a estima linia de regresie și coeficienții acesteia, aceștia sunt în mare parte o aproximare a coeficienților adevărați și, la rândul lor, linia de regresie adevărată. Limitele inferioare și superioare de 95% dau cel de-al 95-lea interval de încredere al limitelor inferioare și superioare pentru fiecare coeficient.

Deoarece intervalul de încredere de 95% pentru scorurile GRE este de 0,009 și 0,01, limitele nu conțin zero și, deci, putem fi încrezători în 95% că există o relație liniară semnificativă între scorurile GRE și șansa de admitere.

Vă rugăm să rețineți că un nivel de încredere de 95% este utilizat pe scară largă, dar este posibil un alt nivel decât 95% și poate fi stabilit în timpul analizei de regresie.

Statistici de regresie

1611768012 107 Cum se citeste un tabel de regresie
Tabel cu statistici de regresie

R² (pătrat R) – reprezintă puterea unui model. Acesta arată cantitatea de variație a variabilei dependente explicată de variabila independentă și se află întotdeauna între valorile 0 și 1. Pe măsură ce R² crește, mai multe variații ale datelor sunt explicate de model și modelul devine mai bun la predicție. Un R² scăzut ar indica că modelul nu se potrivește bine cu datele și că o variabilă independentă nu explică bine variația variabilei dependente.

R² = Suma de pătrate de regresie / Suma totală de pătrate

Cu toate acestea, R pătrat nu poti determinați dacă estimările și predicțiile coeficientului sunt părtinitoare, motiv pentru care trebuie să evaluați parcele reziduale, care sunt discutate mai târziu în acest articol.

R-pătrat, de asemenea, nu indică dacă un model de regresie este adecvat. Puteți avea o valoare redusă la pătrat R pentru un model bun sau o valoare ridicată la pătrat R pentru un model care nu se potrivește cu datele.

R², în acest caz, este de 65%, ceea ce implică faptul că scorurile GRE pot explica 65% din variația șansei de admitere.

R² ajustat – este R² înmulțit cu un factor de ajustare. Acesta este utilizat în timp ce se compară diferite modele de regresie cu diferite variabile independente. Acest număr este la îndemână în timp ce decideți variabilele independente potrivite în modele de regresie multiple.

Multiple R – este rădăcina pătrată pozitivă a lui R²

Eroare standard – este diferit de eroarea standard a coeficienților. Aceasta este deviația standard estimată a erorii ecuației de regresie și este o măsură bună a acurateței liniei de regresie. Este rădăcina pătrată a erorilor pătrate medii reziduale.

Std. Eroare = √ (Res.MS)

Ieșire reziduală

Reziduurile reprezintă diferența dintre valoarea reală și valoarea prezisă a modelului de regresie, iar ieșirea reziduală este valoarea prezisă a variabilei dependente de modelul de regresie și reziduul pentru fiecare punct de date.

Și, după cum sugerează și numele, un grafic rezidual este un grafic dispers între variabila reziduală și variabilă independentă, care în acest caz este scorul GRE al fiecărui student.

Un complot rezidual este important în detectarea unor lucruri de genul heteroscedasticitate, neliniaritate, și valori aberante. Procesul de detectare a acestora nu este discutat ca parte a acestui articol, ci faptul că graficul rezidual pentru exemplul nostru are date împrăștiate aleatoriu ne ajută să stabilim faptul că relația dintre variabilele din acest model este liniară.

1611768012 615 Cum se citeste un tabel de regresie
Parcela reziduală

Intenție

Intenția acestui articol nu este de a construi un model de regresie de lucru, ci de a oferi o prezentare generală a tuturor variabilelor de regresie și a importanței acestora, atunci când este necesar, cu un eșantion set de date într-un tabel de regresie.

Deși acest articol oferă o explicație cu o singură regresie liniară variabilă, ca exemplu, vă rugăm să fiți conștienți de faptul că unele dintre aceste variabile ar putea avea mai multă importanță în cazurile de variabilitate multiplă sau alte situații.

Referințe