de Zhen Liu
Mai sus: preprocesarea datelor
Vă simțiți frustrat prin ruperea fluxului de analiză a datelor atunci când căutați sintaxă? De ce încă nu-ți amintești după ce ai căutat-o pentru a treia oară ?? Se datorează faptului că nu l-ați practicat suficient pentru a-i construi memoria musculară încă.
Acum, imaginați-vă că, atunci când codificați, sintaxa și funcțiile Python zboară doar de la vârful degetelor în urma gândurilor analitice. Cât de grozav este asta! Acest tutorial este pentru a vă ajuta să ajungeți acolo.
Vă recomand să practicați acest scenariu în fiecare dimineață timp de 10 minute și să îl repetați timp de o săptămână. Este ca și cum ai face câteva mici greutăți pe zi – nu pentru abdomenul tău, ci pentru mușchii tăi ai științei datelor. Treptat, veți observa îmbunătățirea eficienței programării analizei de date după această instruire repetată.
Pentru a începe cu „antrenamentul științei datelor”, în acest tutorial vom practica cea mai obișnuită sintaxă pentru preprocesarea datelor ca o sesiune de încălzire;)
Contents:
0 . Read, View and Save data1 . Table’s Dimension and Data Types2 . Basic Column Manipulation3 . Null Values: View, Delete and Impute4 . Data Deduplication
Table of Contents
0. Citiți, vizualizați și salvați datele
În primul rând, încărcați bibliotecile pentru exercițiul nostru:
Acum vom citi datele din depozitul meu GitHub. Am descărcat datele de la Zillow.
Iar rezultatele arată astfel:

Salvarea unui fișier este dataframe.to_csv (). Dacă nu doriți ca numărul indexului să fie salvat, utilizați dataframe.to_csv (index = False).
1. Dimensiunea tabelului și tipurile de date
1.1 Dimensiune
Câte rânduri și coloane din aceste date?
1.2 Tipuri de date
Care sunt tipurile de date ale datelor dvs. și câte coloane sunt numerice?
Ieșirea tipurilor de date ale primelor câteva coloane:

Dacă doriți să fiți mai specific cu privire la datele dvs., utilizați select_dtypes () pentru a include sau exclude un tip de date. Întrebare: dacă vreau doar să mă uit la datele din 2018, cum pot obține asta?
2. Manipularea de bază a coloanei
2.1 Date subseturi pe coloane
Selectați coloanele după tipurile de date:
De exemplu, dacă doriți doar coloane float și întregi:

Selectați și fixați coloanele după nume:

2.2 Redenumiți coloanele
Cum pot redenumi coloanele dacă nu-mi plac? De exemplu, schimbați „State” la „state_”; „Oraș” către „oraș_”:
3. Valori nule: Vizualizare, ștergere și imputare
3.1 Câte rânduri și coloane au valori nule?
Rezultatele isnull.any () versus isnull.sum ():


Selectați date care nu sunt nule într-o singură coloană, de exemplu, „Metro” nu este nulă.

3.2 Selectați rânduri care nu sunt nule pentru un set fix de coloane
Selectați un subset de date care nu are valori nule după 2000:
Dacă doriți să selectați datele în iulie, trebuie să găsiți coloanele care conțin „-07”. Pentru a vedea dacă un șir conține un sub șir, puteți utiliza sub șir în șir, iar acesta va afișa adevărat sau fals.

3.3 Subseturi rânduri după valori nule
Selectați rânduri în care dorim să avem cel puțin 50 de valori care nu sunt NA, dar nu trebuie să fie specifice despre coloane:
3.4 Scădere și imputare a valorilor lipsă
Completați NA sau imputați NA:
Folosiți-vă propria condiție pentru a completa funcția where:
4. Deduplicarea datelor
Trebuie să ne asigurăm că nu există rânduri duplicate înainte de a agrega date sau de a le alătura.
Vrem să vedem dacă există orașe / regiuni duplicate. Trebuie să decidem ce ID unic (oraș, regiune) dorim să folosim în analiză.

Eliminați valorile duplicate.
Combinația „CountyName” și „SizeRank” este unică deja. Deci, folosim doar coloanele pentru a demonstra sintaxa drop_duplicated.
Asta este pentru prima parte a seriei mele despre construirea memoriei musculare pentru știința datelor în Python. Scriptul complet poate fi găsit aici.
Rămâneți aproape! Următorul meu tutorial vă va arăta cum să „ondulați mușchii științei datelor” pentru a tăia și tăia date.
Urmăriți-mă și dați-mi câteva palme dacă vi se pare de ajutor 🙂
În timp ce lucrați la Python, poate că veți fi interesat de articolul meu anterior:
Aflați Spark pentru Big Data Analytics în 15 minute!
Vă garantez că acest scurt tutorial vă va economisi o TON de timp de la citirea documentațiilor lungi. Gata sa…cătredatascience.com