de Zhen Liu

Mai sus: preprocesarea datelor

Vă simțiți frustrat prin ruperea fluxului de analiză a datelor atunci când căutați sintaxă? De ce încă nu-ți amintești după ce ai căutat-o ​​pentru a treia oară ?? Se datorează faptului că nu l-ați practicat suficient pentru a-i construi memoria musculară încă.

Acum, imaginați-vă că, atunci când codificați, sintaxa și funcțiile Python zboară doar de la vârful degetelor în urma gândurilor analitice. Cât de grozav este asta! Acest tutorial este pentru a vă ajuta să ajungeți acolo.

Vă recomand să practicați acest scenariu în fiecare dimineață timp de 10 minute și să îl repetați timp de o săptămână. Este ca și cum ai face câteva mici greutăți pe zi – nu pentru abdomenul tău, ci pentru mușchii tăi ai științei datelor. Treptat, veți observa îmbunătățirea eficienței programării analizei de date după această instruire repetată.

Pentru a începe cu „antrenamentul științei datelor”, în acest tutorial vom practica cea mai obișnuită sintaxă pentru preprocesarea datelor ca o sesiune de încălzire;)

Contents:
0 . Read, View and Save data1 . Table’s Dimension and Data Types2 . Basic Column Manipulation3 . Null Values: View, Delete and Impute4 . Data Deduplication

0. Citiți, vizualizați și salvați datele

În primul rând, încărcați bibliotecile pentru exercițiul nostru:

Acum vom citi datele din depozitul meu GitHub. Am descărcat datele de la Zillow.

Iar rezultatele arată astfel:

Cum sa va construiti memoria musculara pentru Data Science cu

Salvarea unui fișier este dataframe.to_csv (). Dacă nu doriți ca numărul indexului să fie salvat, utilizați dataframe.to_csv (index = False).

1. Dimensiunea tabelului și tipurile de date

1.1 Dimensiune

Câte rânduri și coloane din aceste date?

1.2 Tipuri de date

Care sunt tipurile de date ale datelor dvs. și câte coloane sunt numerice?

Ieșirea tipurilor de date ale primelor câteva coloane:

1611289024 286 Cum sa va construiti memoria musculara pentru Data Science cu

Dacă doriți să fiți mai specific cu privire la datele dvs., utilizați select_dtypes () pentru a include sau exclude un tip de date. Întrebare: dacă vreau doar să mă uit la datele din 2018, cum pot obține asta?

2. Manipularea de bază a coloanei

2.1 Date subseturi pe coloane

Selectați coloanele după tipurile de date:

De exemplu, dacă doriți doar coloane float și întregi:

1611289025 31 Cum sa va construiti memoria musculara pentru Data Science cu

Selectați și fixați coloanele după nume:

1611289025 118 Cum sa va construiti memoria musculara pentru Data Science cu

2.2 Redenumiți coloanele

Cum pot redenumi coloanele dacă nu-mi plac? De exemplu, schimbați „State” la „state_”; „Oraș” către „oraș_”:

3. Valori nule: Vizualizare, ștergere și imputare

3.1 Câte rânduri și coloane au valori nule?

Rezultatele isnull.any () versus isnull.sum ():

1611289026 672 Cum sa va construiti memoria musculara pentru Data Science cu
isnull.any ()
1611289026 915 Cum sa va construiti memoria musculara pentru Data Science cu
isnull.sum ()

Selectați date care nu sunt nule într-o singură coloană, de exemplu, „Metro” nu este nulă.

1611289026 445 Cum sa va construiti memoria musculara pentru Data Science cu
Rânduri cu valori N / A „Metro”

3.2 Selectați rânduri care nu sunt nule pentru un set fix de coloane

Selectați un subset de date care nu are valori nule după 2000:

Dacă doriți să selectați datele în iulie, trebuie să găsiți coloanele care conțin „-07”. Pentru a vedea dacă un șir conține un sub șir, puteți utiliza sub șir în șir, iar acesta va afișa adevărat sau fals.

1611289027 162 Cum sa va construiti memoria musculara pentru Data Science cu

3.3 Subseturi rânduri după valori nule

Selectați rânduri în care dorim să avem cel puțin 50 de valori care nu sunt NA, dar nu trebuie să fie specifice despre coloane:

3.4 Scădere și imputare a valorilor lipsă

Completați NA sau imputați NA:

Folosiți-vă propria condiție pentru a completa funcția where:

4. Deduplicarea datelor

Trebuie să ne asigurăm că nu există rânduri duplicate înainte de a agrega date sau de a le alătura.

Vrem să vedem dacă există orașe / regiuni duplicate. Trebuie să decidem ce ID unic (oraș, regiune) dorim să folosim în analiză.

1611289027 945 Cum sa va construiti memoria musculara pentru Data Science cu
Setați keep = False pentru a vedea toate rândurile duplicate după „RegionName”

Eliminați valorile duplicate.

Combinația „CountyName” și „SizeRank” este unică deja. Deci, folosim doar coloanele pentru a demonstra sintaxa drop_duplicated.

Asta este pentru prima parte a seriei mele despre construirea memoriei musculare pentru știința datelor în Python. Scriptul complet poate fi găsit aici.

Rămâneți aproape! Următorul meu tutorial vă va arăta cum să „ondulați mușchii științei datelor” pentru a tăia și tăia date.

Urmăriți-mă și dați-mi câteva palme dacă vi se pare de ajutor 🙂

În timp ce lucrați la Python, poate că veți fi interesat de articolul meu anterior:

Aflați Spark pentru Big Data Analytics în 15 minute!
Vă garantez că acest scurt tutorial vă va economisi o TON de timp de la citirea documentațiilor lungi. Gata sa…cătredatascience.com