de Kirill Dubovikov

Distribuția t: un concept statistic cheie descoperit de o fabrică de bere

Distributia t un concept statistic cheie descoperit de o fabrica
Ce legătură are berea Guinness cu distribuțiile de probabilitate? Veți ști până la sfârșitul acestui articol.

În acest post vom analiza două distribuții de probabilitate pe care le veți întâlni aproape de fiecare dată când faceți științe de date, statistici sau învățare automată.

Distribuție gaussiană

Imaginați-vă că facem o cercetare cu privire la înălțimea diferiților oameni dintr-un oraș. Mergem pe stradă și măsurăm o grămadă de oameni întâmplători. (Unii dintre ei au crezut că este destul de ciudat și au vrut să cheme poliția, dar hai, asta este pentru știință!)

Acum decidem că unele Analiza datelor exploratorii nu va face rău. Dar software-uri statistice precum R nu sunt disponibile în acest moment, așa că facem doar o histogramă din oameni.

1611322447 540 Distributia t un concept statistic cheie descoperit de o fabrica
Când nu aveți la dispoziție software statistice …

Ce vedem aici? Ahh, faimoasa curbă de clopot. Aceasta este probabil cea mai importantă distribuție de probabilitate pe care o veți întâlni vreodată. Mulțumită Teorema limitei centrale, distribuția gaussiană este prezentă în multe fenomene din lumea reală. Este atât de obișnuit încât oamenii o numesc doar a distributie normala.

Teorema limitei centrale afirmă că media aritmetică a unui număr suficient de mare de variabile aleatoare independente va fi distribuită în mod normal. Aceste variabile aleatorii pot avea orice distribuție inițial. Dar când măsurăm ceva care este reprezentat de suma lor, vom face în cele din urmă (deoarece numărul de eșantioane tinde spre ) sfârșește cu procesul distribuit în mod normal.

Funcția densității probabilității distribuției Gauss este scrisă mai jos:

Distributia t un concept statistic cheie descoperit de o fabrica

Această formulă poate părea puțin intimidantă, dar este convenabil să lucrați matematic. Dacă sunteți interesat de modul în care poate fi derivat, puteți citiți cum aici. După cum puteți vedea, această distribuție are doi parametri:

  • µ (medie)
  • σ (deviație standard).

Media µ controlează valorea estimata (unde vor merge cele mai multe valori) dintr-o variabilă aleatorie distribuită în mod normal. Varianța σ² controlează răspândirea sau varietatea valorilor posibile din distribuție.

Conceptul unei distribuții normale are o valoare imensă în învățarea automată. O mare varietate de algoritmi de învățare automată îl utilizează extensiv:

  • Modelele liniare presupun că erorile sunt distribuite în mod normal
  • Procesele gaussiene presupun că toate valorile unei funcții sub model sunt distribuite normal
  • Amestecurile Gaussian vă permit să modelați distribuții complexe și să construiți clasificatori pe deasupra modelelor de amestec
  • Distribuția normală apare ca una dintre componentele principale în Autoencodere variaționale

Iată o demonstrație interactivă a distribuției gaussiene.

Distribuția t a unui student

1611322448 937 Distributia t un concept statistic cheie descoperit de o fabrica

Ce se întâmplă dacă am dori să ne modelăm datele cu distribuție gaussiană, dar varianța σ² nu ne era cunoscută? Această problemă apare atunci când dimensiunile eșantionului sunt mici și abaterea standard (σ) nu poate fi estimată cu exactitate.

William Gosset a abordat această problemă în timp ce lucra la o fabrică de bere Guinness. El a găsit empiric o formulă pentru a distribuit t variabilă aleatorie.

În primul rând, să presupunem că avem valori x, …, xn care au fost eșantionate dintr-o distribuție normală N (µ, σ²).

Nu cunoaștem varianța adevărată, dar o putem estima calculând media și varianța eșantionului:

1611322448 76 Distributia t un concept statistic cheie descoperit de o fabrica
1611322448 91 Distributia t un concept statistic cheie descoperit de o fabrica

Apoi variabila aleatorie

1611322449 287 Distributia t un concept statistic cheie descoperit de o fabrica

va avea o distribuție t cu n-1 grade de libertate, unde n este numărul de probe.

Această formulă poate semăna cu transformarea de la Normal la Standard Normal (o prescurtare pentru distribuția Normal cu medie zero și varianță unitară):

1611322449 975 Distributia t un concept statistic cheie descoperit de o fabrica

Nu cunoaștem adevărata varianță a populației, așa că trebuie să înlocuim eșantionul deviației standard cu cel real.

Această distribuție stă la baza metodei științifice, numită testul t. Acest lucru a fost folosit la Guinness pentru a măsura calitatea berii lor.

William Gosset a publicat acest rezultat sub pseudonimul Student. Guinness se temea că concurenții săi vor descoperi că testul t a fost folosit pentru a controla calitatea produsului lor.

Descoperirile lui Gosset au fost ulterior formalizate de renumitul statistician Ronald Fisher. Fisher este considerat a fi autorul abordării frecventiste a statisticilor.

Acum merge partea distractivă! Puteți juca cu distribuția t mai jos:

După cum puteți vedea, distribuția t se apropie de standardul normal atunci când gradele de libertate sunt mari. Acest lucru se întâmplă deoarece media eșantionului se apropie de media adevărată pe măsură ce un număr de eșantioane se apropie de infinit. Cozile „grase” de distribuție t compensează incertitudinea atunci când lucrăm cu probe mici.

Un cititor interesat s-ar putea întreba: „Deci, care este funcția densității probabilității distribuției t? Cum o putem obține? ” Acest lucru se dovedește a nu fi atât de ușor în ceea ce privește matematica, dar ideea centrală este ușor de înțeles.

Să presupunem că suntem interesați să obținem funcția densității probabilității variabilei normale X ~ N (0, σ). Dar fără dependență directă de deviația standard σ.

Intuitiv, pentru a scăpa σ trebuie să facem câteva presupuneri. Să tratăm σ ca o variabilă aleatorie în sine și presupunem că aceasta urmează Distribuția gamma (aceasta este o distribuție foarte generală care are multe utilizări în statisticile bayesiene).

Astfel putem spune asta X este un amestec de două distribuții de probabilitate continue: Normal și Gamma. Apoi ne integrăm σ și ajunge la formula funcției densității probabilității pentru distribuția t.

Puteți vedea dovezi mai formale aici și aici.

Concluzie

Distribuțiile Gauss și distribuțiile Student sunt unele dintre cele mai importante distribuții de probabilitate continuă în statistici și învățare automată.

Distribuția t poate fi utilizată ca substituent pentru Gauss atunci când varianța populației nu este cunoscută sau când dimensiunea eșantionului este mică. Ambele sunt strâns legate între ele într-un mod strict și formal.

Mulțumesc că mi-ai citit articolul! Sper că v-a ajutat să învățați ceva nou sau să reîmprospătați cunoștințele existente.