de Shubhi Asthana

Cum să începeți cu Databricks

Când am început să învăț Spark cu Pyspark, am dat peste platforma Databricks și am explorat-o. Această platformă a facilitat configurarea unui mediu pentru a rula cadre de date Spark și a practica codarea. Această postare conține câțiva pași care vă pot ajuta să începeți cu Databricks.

Databricks este o platformă care rulează deasupra Apache Spark. Are convenabil o configurare a sistemelor Notebook. Se pot provoca cu ușurință clustere în cloud și, de asemenea, încorporează un spațiu de lucru integrat pentru explorare și vizualizare.

De asemenea, puteți programa orice notebook existent sau cod Spark dezvoltat local pentru a trece de la prototip la producție fără a fi reproiectat.

1. Configurați un cont Databricks

Pentru a începe cu tutorialul, navigați la aceasta legătură și selectați ediția comunitară gratuită pentru a vă deschide contul. Această opțiune are un singur cluster cu până la 6 GB stocare gratuită. Vă permite să creați un Notebook de bază. Veți avea nevoie de o adresă de e-mail validă pentru a vă verifica contul.

Veți observa acest ecran odată ce vă conectați cu succes la contul dvs.

ad-banner
Cum sa incepeti cu Databricks

2. Crearea unui nou cluster

Începem cu crearea unui nou cluster pe care să rulăm programele noastre. Faceți clic pe „Cluster” pe pagina principală și introduceți un nume nou pentru cluster.

Apoi, trebuie să selectați versiunea „Databricks Runtime”. Databricks Runtime este un set de componente de bază care rulează pe clustere gestionate de Databricks. Acesta include Apache Spark, dar adaugă și o serie de componente și actualizări pentru a îmbunătăți gradul de utilizare și performanța instrumentului.

Puteți selecta orice versiune Databricks Runtime – Am selectat 3.5 LTS (include Apache Spark 2.2.1, Scala 2.11). De asemenea, aveți de ales între Python 2 și 3.

1611273066 777 Cum sa incepeti cu Databricks

Crearea clusterului va dura câteva minute. După ceva timp, ar trebui să puteți vedea un cluster activ pe tabloul de bord.

1611273067 719 Cum sa incepeti cu Databricks

3. Crearea unui notebook nou

Să mergem mai departe și să creăm un nou Notebook pe care să vă puteți rula programul.

Din pagina principală, apăsați „Notebook nou” și introduceți un nume pentru notebook. Selectați limba dorită – Am ales Python aici. Puteți vedea că Databricks acceptă mai multe limbi, inclusiv Scala, R și SQL.

1611273067 70 Cum sa incepeti cu Databricks

Odată introduse detaliile, veți observa că aspectul notebook-ului este foarte similar cu notebook-ul Jupyter. Pentru a testa notebook-ul, să importăm pyspark.

1611273068 292 Cum sa incepeti cu Databricks

Comanda a rulat în 0,15 secunde și oferă, de asemenea, numele clusterului pe care rulează. Dacă există erori în cod, acesta va apărea sub caseta cmd.

Puteți apăsa pictograma tastaturii din colțul din dreapta sus al paginii pentru a vedea comenzile rapide specifice sistemului de operare.

Cele mai importante comenzi rapide aici sunt:

  • Shift + Enter pentru a rula o celulă
  • Ctrl + Enter continuă să ruleze aceeași celulă fără a trece la următoarea celulă

Rețineți că aceste comenzi rapide sunt pentru Windows. Puteți verifica comenzile rapide specifice sistemului de operare pentru sistemul dvs. de operare pe pictograma tastaturii.

4. Încărcarea datelor în Databricks

Mergeți la secțiunea „Tables” din bara din stânga și apăsați „Create Table”. Puteți încărca un fișier sau vă puteți conecta la o sursă de date Spark sau la o altă bază de date.

Să încărcăm aici fișierul set de date iris utilizat în mod obișnuit (dacă nu aveți setul de date iris, utilizați acest lucru legătură )

După ce încărcați datele, creați tabelul cu o interfață de utilizare, astfel încât să puteți vizualiza tabelul și să îl previzualizați pe clusterul dvs. După cum puteți vedea, puteți observa atributele tabelului. Spark va încerca să detecteze tipul de date al fiecărei coloane și vă permite să îl editați și pe acesta.

1611273069 165 Cum sa incepeti cu Databricks

Acum trebuie să pun anteturi pentru coloane, astfel încât să pot identifica fiecare coloană după antetul lor în loc de _c0, _c1 si asa mai departe.

Le-am pus anteturile ca Lungime separată, Lățime separată, Lungime petală, Lățime petală și Clasă. Aici, Spark a detectat incorect tipul de date al primelor patru coloane ca un șir, așa că l-am schimbat în tipul de date dorit – Float.

1611273069 472 Cum sa incepeti cu Databricks

5. Cum se accesează datele din Notebook

Spark este un cadru care poate fi utilizat pentru a analiza date mari folosind SQL, învățare automată, procesare grafică sau analiză de streaming în timp real. Vom lucra cu SparkSQL și Dataframes în acest tutorial.

Să începem să lucrăm cu datele de pe Notebook. Datele pe care le-am încărcat sunt acum plasate în format tabelar. Avem nevoie de o interogare SQL pentru a citi datele și a le pune într-un cadru de date.

Tip df = sqlContext.sql(“SELECT * FROM iris_data”) pentru a citi datele irisului într-un cadru de date.

1611273070 140 Cum sa incepeti cu Databricks

Pentru a vizualiza primele cinci rânduri din cadrul de date, pot rula pur și simplu comanda:

display(df.limit(5))

1611273070 830 Cum sa incepeti cu Databricks

Observați o pictogramă diagramă cu bare în partea de jos. După ce faceți clic, puteți vizualiza datele pe care le-ați importat în Databricks. Pentru a vizualiza graficul cu bare cu date complete, rulațidisplay(df) in loc de display(df.limit(5)).

1611273071 918 Cum sa incepeti cu Databricks

Butonul derulant vă permite să vizualizați datele în diferite diagrame, cum ar fi bara, plăcinta, împrăștierea și așa mai departe. De asemenea, vă oferă opțiuni de complot pentru a personaliza complotul și a vizualiza doar coloane specifice.

1611273071 288 Cum sa incepeti cu Databricks

De asemenea, puteți afișa cifre matplotlib și ggplot în Databricks. Pentru o demonstrație, vezi Matplotlib și ggplot în notebook-urile Python.

Pentru a vizualiza toate coloanele datelor, pur și simplu tastați df.columns

1611273071 97 Cum sa incepeti cu Databricks

Pentru a număra câte rânduri în total există în Dataframe (și a vedea cât durează o scanare completă de pe discul de la distanță / S3), rulați df.count().

1611273072 372 Cum sa incepeti cu Databricks

6. Conversia unui cadru de date Spark într-un cadru de date Pandas.

Acum, dacă vă simțiți confortabil să utilizați cadrele de date pandas și doriți să vă convertiți cadrele de date Spark în pandas, puteți face acest lucru prin plasarea comenzii

import pandas as pdpandas_df=df.to_pandas()

Acum puteți utiliza operațiuni pandas pe pandas_df cadru de date.

1611273073 979 Cum sa incepeti cu Databricks

7. Vizualizarea interfeței Spark

UI-ul Spark conține o mulțime de informații necesare pentru depanarea locurilor de muncă Spark. Există o grămadă de vizualizări grozave, așa că haideți să le vedem într-o sinteză.

Pentru a accesa Spark UI, trebuie să accesați partea de sus a paginii, unde există câteva opțiuni de meniu, cum ar fi „Fișier”, „Vizualizare”, „Cod”, „Permisiuni” și altele. Veți găsi numele clusterului în partea de sus lângă „Atasat” și un buton drop-down lângă acesta. Apăsați pe butonul drop-down și selectați „View Spark UI”. Se va deschide o filă nouă cu multe informații pe Notebook.

1611273073 523 Cum sa incepeti cu Databricks

Vizualizarea UI oferă o mulțime de informații despre fiecare lucrare executată pe cluster, etape, mediu și interogări SQL executate. Această interfață de utilizare poate fi utilă pentru ca utilizatorii să își depaneze aplicațiile. De asemenea, această interfață oferă o vizualizare bună asupra statisticilor de streaming Spark. Pentru a afla mai detaliat despre fiecare aspect al interfeței Spark, consultați acest lucru legătură.

Odată ce ați terminat cu Notebook-ul, puteți merge mai departe și îl puteți publica sau exporta fișierul în diferite formate de fișiere, astfel încât altcineva să îl poată utiliza folosind un link unic. eu am am atașat Notebook-ul meu în format HTML.

Înfășurându-se

Aceasta este o scurtă prezentare generală a modului în care puteți începe rapid cu Databricks și puteți rula programele. Avantajul utilizării Databricks este că oferă un serviciu end-to-end pentru construirea de analize, depozitare de date și aplicații de învățare automată. Întregul cluster Spark poate fi gestionat, monitorizat și securizat utilizând un model de autoservire a Databricks.

Iată câteva linkuri interesante pentru Oamenii de știință a datelor si pentru Ingineri de date. De asemenea, aici este un tutorial ceea ce mi s-a părut foarte util și este minunat pentru începători.