S-ar putea să vă amintiți această mantră simplă din clasa dvs. de statistici:

„Corelația nu implică cauzalitatea”.

Deci poate crezi că știi ce înseamnă această frază.

De exemplu, dacă ați studiat foarte mult în statistici, ați obținut o notă bună și apoi ați intrat în facultate, trebuie să însemne că ați intrat în facultate pentru că ați urmat cursul de Statistică.

În timp ce acea notă, împreună cu abilitățile pe care le-ați învățat, v-au ajutat probabil, nu puteți ignora ceilalți factori în joc – și probabil că nu puteți susține că nota Statisticilor a fost cauza acceptării dvs. la facultate.

De ce corelatia nu implica cauzarea Semnificatia acestei ziceri
Sursa imaginii: XKCD

Mai întâi, de ce greșim corelația cu cauzalitatea?

Este ușor să ne gândim că doar pentru că două lucruri par legate, că unul trebuie să fie cauza celuilalt. Dar aceasta poate fi o presupunere prostească și uneori periculoasă.

De exemplu, să presupunem că încercați să vă dați seama de ceea ce îi face pe oameni mai puțin morocănoși. Efectuați un studiu care constată că, atunci când oamenii dorm cel puțin x ore de somn pe noapte, sunt mai puțin morocănoși.

Dar ai luat în calcul toți factorii aici? Poate că și ei au început să lucreze mai mult ca o consecință a faptului că au fost bine odihniți și asta le-a modificat starea de spirit.

Nu toate exemplele sunt atât de benigne – iar unele sunt de-a dreptul absurd.

Pentru a ilustra cât de înșelător poate fi să presupunem că corelația implică cauzalitate, aruncați o privire la următorul grafic din Tyler Vigen’s Corelații false:

1611609427 488 De ce corelatia nu implica cauzarea Semnificatia acestei ziceri
Deci, dacă jucați mai multe jocuri video … veți obține un doctorat în CS ??

Deși se întâmplă să existe o corelație puternică între acești doi factori, mă îndoiesc că ați putea argumenta în mod eficient că unul l-a cauzat pe celălalt. Poate că aceasta va fi o provocare pentru oameni să încerce să demonstreze.

Iată o altă bijuterie din Colecția lui Tyler:

1611609427 43 De ce corelatia nu implica cauzarea Semnificatia acestei ziceri
Dacă mănânci mai multă brânză … vei fi sugrumat de cearșafurile tale ??

Uită-te la această corelație frumoasă. Dar ți-ar fi greu să argumentezi că, doar pentru că cineva a mâncat mai multă brânză, ar fi mai probabil să se încurce fatal în cearșafurile lor.

Ce este corelația în statistici?

In conformitate cu dicţionar, A corelație este o relație sau o legătură reciprocă între două sau mai multe lucruri (sau variabile) – în special una care nu este de așteptat doar pe baza întâmplării.

Să o folosim într-o propoziție: dimensiunea uriașă a roșiilor mele de casă pare să se coreleze cu ploaia suplimentară pe care am avut-o vara aceasta.

Acum, aici presupun că, pentru că a plouat puțin mai mult decât de obicei, plantele mele de roșii au devenit nuci și au produs roșii monstru.

Dar acesta este singurul factor? Ce zici de compostul bogat în nutrienți pe care l-am folosit în paturile mele crescute? Dar calitatea plantelor pe care le-am cumpărat de la creșă? Dar tăierea și îngrijirea mea atentă?

După cum puteți vedea, deși există o corelație între roșiile mele mari și vara ploioasă, acest lucru nu implică neapărat cauzalitatea.

Ce este cauzalitatea în statistici?

E timpul pentru o altă definiție. Cauzalitate, conform dicționarului, este actul sau agenția care produce un efect.

Să devenim puțin mai specifici. Cauzarea înseamnă că există o relație între două evenimente în care un eveniment îl afectează pe celălalt. În statistici, când valoarea unui eveniment – sau variabilă – crește sau scade din cauza unui alt eveniment sau variabilă, putem spune că a existat cauzalitate. A cauzat B să se întâmple.

Ce zici de un exemplu pentru acesta? Poate că sunteți independent pentru o revistă care plătește prin cuvânt. Cu cât povestea este mai lungă (și cu cât conține mai multe cuvinte), cu atât vei fi plătit mai mult.

Deci, există o corelație directă între câte cuvinte scrieți și cât plătiți. Dar există și cauzalitate (pentru că ai scris mai mult, ai fost plătit mai mult).

De ce este atât de ușor să greșim acest lucru?

De ce este atât de ușor să gândim această corelație? presupune cauzalitate? Ei bine, dacă două lucruri par legate, avem tendința să le asociem și să presupunem că se afectează reciproc. Când vremea este rece, oamenii petrec mai mult timp înăuntru. În preajma sărbătorilor, centrele comerciale sunt ambalate. Când luați niște ibuprofen, durerea de cap dispare.

Deși aceste circumstanțe sunt cu siguranță legate – și unele ar putea implica chiar cauzalitate – ele nu rezistă neapărat analizei științifice.

Există câteva motive pentru care am putea deduce greșit cauzalitatea din corelație.

Ce este o variabilă confuză?

În primul rând, s-ar putea să aveți un variabilă confuză în amestec. Aceasta este o variabilă care afectează atât variabilele independente, cât și cele dependente din relația dvs. – și astfel vă confundă capacitatea de a determina natura acelei relații.

De exemplu, dacă o nouă familie se mută într-un cartier și crima crește, rezidenții din acea zonă ar putea presupune că este din cauza acelei noi familii. Dar dacă, în același timp, un centru de detenție a fost deschis în apropiere? Aceasta este cauza cea mai probabilă a criminalității crescute.

Ce este Cauzarea inversă?

În al doilea rând, s-ar putea să aveți de-a face cauzalitate inversă. Acest lucru se întâmplă atunci când, în loc să presupunem corect că A cauzează B, îi amestecăm și presupunem că B provoacă A.

Ar putea fi greu de imaginat cum se întâmplă acest lucru, dar gândiți-vă la modul în care funcționează panourile solare. Ei produc mai multă putere atunci când soarele este pe cer mai mult timp.

Dar soarele nu mai este pe cer, deoarece panourile produc mai multă energie. Panourile produc mai multă energie, deoarece soarele strălucește pentru perioade mai lungi de timp.

Ce este o coincidență?

În al treilea rând, nu trebuie să uităm de puterea coincidență. Când se întâmplă două lucruri în același timp, este tentant să vedem cauzalitatea. Dar la fel ca acel grafic prostesc de mai sus, cu arcade și grade CS, multe sunt doar coincidențe.

În cele din urmă – de ce ne pasă?

Poate că încercați să vă dați seama dacă un anumit medicament nou îi face pe pacienți să se simtă mai bine. Sau ați dori să știți ce îi face pe oameni să cumpere un anumit produs.

Oricare ar fi motivația dvs., este adesea foarte util să vă dați seama dacă A cauzează B, împreună cu cum și de ce.

Dar, după cum am văzut, nu este atât de ușor. Trebuie să controlați cât mai mulți factori, să reduceți probabilitatea de a confunda variabile și coincidențe și să împărțiți datele la ceea ce este relevant.

Nu vom intra în întrebarea filosofică mai profundă a modului în care putem stabili cu adevărat cauzalitatea fără îndoială. Asta pentru altă dată.

Cel puțin acum știți că – chiar dacă două evenimente sau variabile pot părea legate – nu înseamnă că una are un efect cauzal direct pe de altă parte.