Fiecare aplicație generează date, dar ce înseamnă aceste date? Aceasta este o întrebare la care oamenii de știință sunt angajați să răspundă.

Nu există nicio îndoială că aceste informații sunt marfa cea mai prețioasă pentru o afacere. Dar conștientizarea datelor, crearea de perspective și transformarea lor în decizii, este și mai importantă.

Deoarece datele continuă să crească în volum, conductele de analiză a datelor trebuie să fie scalabile pentru a adapta rata de schimbare. Și din acest motiv, alegerea de a configura conducta în cloud are un sens perfect (deoarece cloud oferă scalabilitate și flexibilitate la cerere).

În acest articol voi demitiza cum să construiesc o conductă de procesare a datelor scalabilă și adaptabilă în Google Cloud. Și nu vă faceți griji – aceste concepte sunt aplicabile în orice alt cloud sau conductă de date locală.

5 pași pentru a crea o conductă de analiză a datelor:

Cum sa construiti o conducta de analiza a datelor scalabila
5 pași într-o conductă de analiză a datelor
  • Mai întâi ingerați datele din sursa de date
  • Apoi procesați și îmbogățiți datele, astfel încât sistemul dvs. din aval să le poată utiliza în formatul pe care îl înțelege cel mai bine.
  • Apoi, stocați datele într-un lac de date sau un depozit de date, fie pentru arhivare pe termen lung, fie pentru raportare și analiză.
  • Apoi puteți analiza datele introducându-le în instrumente de analiză.
  • Aplicați învățarea automată pentru predicții sau creați rapoarte pentru a le distribui echipelor dvs.

Să parcurgem fiecare dintre acești pași mai detaliat.

Cum se captează datele

În funcție de unde provin datele dvs., puteți avea mai multe opțiuni pentru a le ingera.

  • Utilizați instrumentele de migrare a datelor pentru a migra date de la local sau de la un nor la altul. Google Cloud oferă un serviciu de transfer de stocare în acest scop.
  • Pentru a ingera date de la serviciile dvs. SAAS terță parte, utilizați API-uri și trimiteți datele la depozitul de date. În Google Cloud BigQuery, depozitul de date fără server oferă un serviciu de transfer de date care vă permite să introduceți date din aplicații saas precum YouTube, Google Ads, Amazon S3, Teradata, ResShift și multe altele.
  • De asemenea, puteți transmite date în timp real din aplicațiile dvs. cu serviciul Pub / Sub. Configurați o sursă de date pentru a împinge mesajele de eveniment în Pub / Sub de unde un abonat preia mesajul și ia măsurile corespunzătoare asupra acestuia.
  • Dacă aveți dispozitive IoT, acestea pot transmite date în timp real utilizând nucleul IoT Cloud care acceptă protocolul MQTT pentru dispozitivele IoT. De asemenea, puteți trimite date IoT la Pub / Sub.

Cum se procesează datele

Odată ce datele sunt ingerate, acestea trebuie procesate sau îmbogățite pentru a le face utile pentru sistemele din aval.

Există trei instrumente principale care vă ajută să faceți acest lucru în Google Cloud:

  • Dataproc este gestionat în esență Hadoop. Dacă utilizați ecosistemul Hadoop, atunci știți că poate fi complicat să-l configurați, implicând ore și chiar zile. Dataproc poate crea un cluster în 90 de secunde, astfel încât să puteți începe să analizați rapid datele.
  • Dataprep este un instrument inteligent de interfață grafică pentru utilizatori care îi ajută pe analiștii de date să proceseze datele rapid fără a fi nevoie să scrieți cod.
  • Dataflow este un serviciu de procesare a datelor fără server pentru streaming și date în serie. Se bazează pe SDK-ul Apache Beam open source care vă face conductele portabile. Serviciul separă spațiul de stocare de computer, ceea ce îi permite scalarea perfectă. Pentru mai multe detalii, consultați GCPSketchnote de mai jos.
Cum sa construiti o conducta de analiza a datelor scalabila

Cum se stochează datele

Odată procesate, trebuie să stocați datele într-un lac de date sau un depozit de date, fie pentru arhivare pe termen lung, fie pentru raportare și analiză.

Există două instrumente principale care vă ajută să faceți acest lucru în Google Cloud:

Google Cloud Storage este un magazin de obiecte pentru imagini, videoclipuri, fișiere și așa mai departe, care vine în 4 tipuri:

  1. Depozitare standard: Bun pentru date „fierbinți” care sunt accesate frecvent, inclusiv site-uri web, videoclipuri în flux și aplicații mobile.
  2. Depozitare Nearline: Cost scăzut. Bine pentru datele care pot fi stocate timp de cel puțin 30 de zile, inclusiv copierea de rezervă a datelor și conținutul multimedia de lungă durată.
  3. Depozitare pe linie rece: Cost foarte mic. Bun pentru datele care pot fi stocate timp de cel puțin 90 de zile, inclusiv recuperarea în caz de dezastru.
  4. Depozitare arhivă: Cel mai mic cost. Bun pentru datele care pot fi stocate cel puțin 365 de zile, inclusiv arhivele de reglementare.

BigQuery este un depozit de date fără server care se adaptează perfect la petabyte de date fără a fi nevoie să gestioneze sau să întrețină niciun server.

Puteți stoca și interoga date în BigQuery folosind SQL. Apoi, puteți partaja cu ușurință datele și interogările cu alte persoane din echipa dvs.

De asemenea, găzduiește 100 de seturi de date publice gratuite pe care le puteți utiliza în analiza dvs. Și oferă conectori încorporați la alte servicii, astfel încât datele să poată fi ușor ingerate și extrase din acesta pentru vizualizare sau procesare / analiză ulterioară.

1612029726 213 Cum sa construiti o conducta de analiza a datelor scalabila

Cum se analizează datele

Odată ce datele sunt procesate și stocate într-un lac de date sau un depozit de date, acestea sunt gata pentru a fi analizate.

Dacă utilizați BigQuery pentru a stoca datele, atunci puteți analiza direct aceste date în BigQuery folosind SQL.

Dacă utilizați Google Cloud Storage, puteți muta cu ușurință datele în BigQuery.

BigQuery oferă, de asemenea, funcții de învățare automată cu BigQueryML. Deci, puteți crea modele și puteți prevedea chiar din interfața de utilizare BigQuery folosind SQL-ul poate mai familiar.

Cum se utilizează și se vizualizează datele

Folosind datele

Odată ce datele sunt în depozitul de date, le puteți folosi pentru a obține informații și pentru a face predicții folosind învățarea automată.

Pentru procesări și predicții suplimentare, puteți utiliza cadrul Tensorflow și platforma AI în funcție de nevoile dvs.

Tensorflow este o platformă de învățare automată open source end-to-end cu instrumente, biblioteci și resurse comunitare.

Platforma AI face ca dezvoltatorii, oamenii de știință și inginerii de date să își simplifice fluxurile de lucru ML. Acesta include instrumente pentru fiecare etapă a ciclului de viață ML începând de la Pregătire -> Construire -> Validare -> Implementare.

Vizualizarea datelor

Există o mulțime de instrumente diferite pentru vizualizarea datelor și majoritatea au un conector la BigQuery pentru a crea cu ușurință diagrame în instrumentul ales de dvs.

Google Cloud oferă câteva instrumente pe care s-ar putea să le găsiți utile.

  • Data Studio este gratuit și se conectează nu doar la BigQuery, ci și la multe alte servicii pentru vizualizarea ușoară a datelor. Dacă ați folosit Google Drive, partajarea diagramelor și a tablourilor de bord este exact așa – extrem de ușor.
  • În plus Privitor este o platformă de întreprindere pentru business intelligence, aplicații de date și analize încorporate.

Concluzie

Există multe lucruri care se întâmplă într-o conductă de analiză a datelor. Indiferent de instrumentele pe care alegeți să le utilizați, asigurați-vă că acestea se pot extinde pe măsură ce datele dvs. cresc în viitor.

Pentru mai mult astfel de conținut, mă puteți urmări pe Twitter, @pvergadia și vizitați site-ul meu web, thecloudgirl.dev.