Uneori este posibil să doriți să extrageți date de pe un site web într-un alt format. Dar dacă site-ul nu are o modalitate ușoară de a exporta aceste date? Aici intervine răzuirea web.

Am lansat un curs accidental pe canalul YouTube Routech.org care vă va învăța cum să efectuați răzuirea web folosind biblioteca Python Beautiful Soup.

Acest curs a fost dezvoltat de Jim Ergin de la JimShapedCoding. Jim folosește și predă Python de mulți ani.

Ciorba frumoasă vă va permite să adunați orice informații doriți de pe orice site web doriți. Ar putea fi un site web al unei bănci, rețele sociale, Wikipedia sau orice alt site web.

Supa frumoasă oferă metode pentru navigarea, căutarea și modificarea unui arbore de analiză. Face mai ușoară disecarea unui document HTML și extragerea datelor de care aveți nevoie. Și nu este nevoie de mult cod pentru a scrie o aplicație.

În acest curs, veți învăța mai întâi cum să răzuiești o pagină HTML de bază doar pentru a învăța conceptele. Apoi, veți trece la răzuirea unui site web real. La sfârșit, veți învăța cum să stocați informațiile pe care le scrapați de pe site.

Iată subiectele abordate în acest curs:

  • Structură de bază HTML, explicații pentru etichete HTML
  • Instalarea pachetelor
  • Răzuirea fișierelor locale
  • Beautiful Soup metode find & find_all ()
  • Instrumentul de inspectare a browserului web
  • Obținerea prețurilor într-un proiect de bază de răzuire web
  • Folosind biblioteca de solicitări pentru a vedea codul HTML al unui site web
  • Răzuirea unui site web de producție
  • Cercetând prin obiecte similare soup.find_all ()
  • Filtrarea lucrărilor răzuite
  • Configurarea unui proiect pentru răzuire la fiecare 10 minute
  • Stocarea paragrafului joburilor în fișiere text

Urmăriți cursul complet accidental pe canalul YouTube Routech.org (Ceas de 1 oră).