de Björn Hartmann

Aflați ce model de regresie liniară se potrivește cel mai bine pentru datele dvs.

Inspirat de o întrebare după a mea articolul anterior, Vreau să abordez o problemă care apare adesea după ce ați încercat diferite modele liniare: trebuie să alegeți ce model doriți să utilizați. Mai precis, Khalifa Ardi Sidqi a întrebat:

„Cum să stabilesc ce model se potrivește cel mai bine datelor mele? Mă uit doar la pătratul R, SSE etc.?

Deoarece interpretarea acestui model (pătratic, rădăcină etc.) va fi foarte diferită, nu va fi o problemă? ”

La a doua parte a întrebării se poate răspunde cu ușurință. Mai întâi, găsiți un model care se potrivește cel mai bine datelor dvs. și apoi interpretați rezultatele acestuia. Este bine dacă aveți idei cum ar putea fi explicate datele dvs. Cu toate acestea, interpretați cel mai bun model, numai.

Restul acestui articol va aborda prima parte a întrebării sale. Vă rugăm să rețineți că voi împărtăși abordarea mea cu privire la modul pentru a selecta un model. Există mai multe moduri, iar alții ar putea să o facă diferit. Dar voi descrie modul în care funcționează cel mai bine pentru mine.

În plus, această abordare se aplică doar modelelor univariate. Modelele univariate au o singură variabilă de intrare. Planific un articol suplimentar, în care vă voi arăta cum să evaluați modelele multivariate cu mai multe variabile de intrare. Pentru astăzi, însă, să ne concentrăm pe elementele de bază și pe modelele univariate.

Pentru a exersa și a obține o senzație pentru acest lucru, am scris o mică ShinyApp. Folosiți-l și jucați-vă cu diferite seturi de date și modele. Observați modul în care parametrii se schimbă și deveniți mai încrezători în evaluarea modelelor liniare simple. În cele din urmă, puteți utiliza, de asemenea, aplicația ca cadru pentru datele dvs. Doar copiați-l din Github.

Aflati cum sa selectati cea mai performanta regresie liniara pentru
Faceți clic pe imagine pentru o versiune interactivă

Utilizați R2 ajustat pentru modele univariate

Dacă utilizați o singură variabilă de intrare, adjusted R2 valoarea vă oferă o bună indicație a performanței modelului dvs. Acesta ilustrează câtă variație este explicată de modelul dvs.

Spre deosebire de simplu R2, adjusted R2 ia în considerare numărul factorilor de intrare. Penalizează prea mulți factori de intrare și favorizează modele parsoniale.

În captura de ecran de mai sus, puteți vedea două modele cu o valoare de 71,3% și 84,32%. Aparent, al doilea model este mai bun decât primul. Cu toate acestea, modelele cu valori scăzute pot fi utile pentru că adjusted R2 este sensibil la cantitatea de zgomot din datele dvs. Ca atare, comparați doar acest indicator al modelelor pentru la fel set de date decât compararea acestuia între diferite seturi de date.

De obicei, este puțin nevoie de SSE

Înainte de a citi mai departe, să ne asigurăm că vorbim despre același SSE. Pe Wikipedia, SSE se referă la suma erorilor pătrate. În unele manuale statisticecu toate acestea, SSE se poate referi la suma explicată a pătratelor (exact opusul). Deci, deocamdată, să presupunem că SSE se referă la suma erorilor pătrate.

Prin urmare, adjusted R2 este aproximativ 1 – SSE / SST. Cu SST referindu-se la suma totală de pătrate.

Nu vreau să mă adânc în matematica din spatele acestui lucru. Ceea ce vreau să vă arăt este că adjusted R2 este calculat cu SSE. Asa de SSE de obicei nu vă oferă informații suplimentare.

În plus, adjusted R2 este normalizat astfel încât să fie întotdeauna între zero și unu. Deci, este mai ușor pentru dvs. și pentru alții să interpretați un model necunoscut cu un adjusted R2 de 75% mai degrabă decât un SSE de 394 – chiar dacă ambele cifre ar putea explica același model.

Aruncați o privire asupra reziduurilor sau termenilor de eroare!

Ceea ce este adesea ignorat sunt termenii de eroare sau așa-numitele reziduuri. De multe ori îți spun mai mult decât ceea ce ai putea crede.

Reziduurile reprezintă diferența dintre valorile estimate și valorile reale.

Avantajul lor este că vă pot arăta atât amploarea, cât și direcția erorilor dvs. Să aruncăm o privire la un exemplu:

Aflati cum sa selectati cea mai performanta regresie liniara pentru
Nu vrem ca reziduurile să varieze astfel în jurul valorii de zero

Aici, am încercat să prezic un set de date polinomial cu o funcție liniară. Analiza reziduurilor arată că există zone în care modelul are o părtinire ascendentă sau descendentă.

Pentru 50 < x < 100, reziduurile sunt peste zero. Deci, în acest domeniu, valorile reale au fost mai mari decât valorile prezise – modelul nostru are o tendință descendentă.

Pentru100 < x &lt; 150, cu toate acestea, reziduurile sunt sub zero. Astfel, valorile reale au fost mai mici decât valorile prezise – modelul are o tendință ascendentă.

Este întotdeauna bine să știți dacă modelul dvs. sugerează valori prea mari sau prea mici. Dar, de obicei, nu doriți să aveți modele de acest gen.

Reziduurile ar trebui să fie zero în medie (așa cum se indică prin medie) și ar trebui să fie distribuite în mod egal. Prezicerea aceluiași set de date cu o funcție polinomială de 3 degrees sugerează o potrivire mult mai bună:

1611192966 398 Aflati cum sa selectati cea mai performanta regresie liniara pentru
Aici reziduurile sunt distribuite în mod egal în jurul valorii de zero. Sugerând o potrivire mult mai bună

În plus, puteți observa dacă variația erorilor dvs. crește. În statistici, acest lucru se numește Heteroscedasticitate. Puteți rezolva acest lucru cu ușurință erori standard robuste. În caz contrar, testele ipotezelor dvs. sunt probabil greșite.

Histograma reziduurilor

În cele din urmă, histograma rezumă amploarea termenilor dvs. de eroare. Oferă informații despre lățimea de bandă a erorilor și indică cât de des au apărut erorile.

1611192967 121 Aflati cum sa selectati cea mai performanta regresie liniara pentru
1611192967 385 Aflati cum sa selectati cea mai performanta regresie liniara pentru
Histograma din dreapta indică o lățime de bandă mai mică a erorilor decât cea din stânga. Deci, se pare că se potrivește mai bine.

Capturile de ecran de mai sus prezintă două modele pentru același set de date. În stânga histogramă, erorile apar într-un interval de -338 și 520.

În dreapta histogramă, apar erori în interior -293 și 401. Deci valorile aberante sunt mult mai mici. Mai mult, majoritatea erorilor din modelul histogramei din dreapta sunt mai aproape de zero. Deci aș favoriza modelul potrivit.

rezumat

Atunci când alegeți un model liniar, acești factori trebuie luați în considerare:

  • Comparați doar modele liniare pentru același set de date.
  • Găsiți un model cu un R2 ajustat
  • Asigurați-vă că acest model are reziduuri distribuite în mod egal în jurul valorii de zero
  • Asigurați-vă că erorile acestui model se află într-o lățime de bandă mică
1611192967 203 Aflati cum sa selectati cea mai performanta regresie liniara pentru
Faceți clic pe imagine pentru a deschide aplicația
1611192967 757 Aflati cum sa selectati cea mai performanta regresie liniara pentru

Dacă aveți întrebări, scrieți un comentariu mai jos sau Contacteaza-ma. Apreciez feedback-ul dvs.