Cum se folosește un instrument de scanare a datelor pentru a extrage date din pagini web

So verwenden Sie ein Data-Scraping-Tool zum Extrahieren von Daten aus Webseiten

⌛ Reading Time: 8 minutes

Wenn Sie Dinge von Webseiten kopieren, einfügen und manuell in Tabellenkalkulationen einfügen, wissen Sie entweder nicht, was Daten-Scraping (oder Web-Scraping) ist, oder Sie wissen, was es ist, sind aber nicht wirklich begeistert von der Idee Lernen, wie man programmiert, um sich ein paar Stunden Klick zu ersparen.

In beiden Fällen gibt es viele Tools zum Scraping von Daten ohne Code, die Ihnen helfen können, und die Chrome-Erweiterung von Data Miner ist eine der intuitiveren Optionen. Wenn Sie Glück haben, ist die Aufgabe, die Sie ausführen möchten, bereits im Rezeptbuch des Tools enthalten, und Sie müssen nicht einmal die Point-and-Click-Schritte ausführen, die zum Erstellen Ihrer eigenen Aufgabe erforderlich sind.

Wie funktioniert Data Miner?

Mit Data Miner können Sie Daten von Webseiten in gut formatierte Excel / CSV-Dateien übertragen, indem Sie den Text der von Ihnen geladenen Seiten durchsuchen. Das bedeutet, dass Sie zumindest mit HTML vertraut genug sein müssen, um einige Muster zu erkennen, aber nichts zu umfangreiches. Fortgeschrittene HTML- und / oder JavaScript-Kenntnisse helfen sicherlich bei einigen Aufgaben, sind aber für die meisten Dinge nicht erforderlich. Sie sollten auch mindestens über grundlegende Kenntnisse in Tabellenkalkulationen verfügen, damit Sie sicher sein können, dass Ihre Ausgabe sauber und organisiert ist.

1. Richten Sie Data Miner ein

Verwenden von Chrome oder einem anderen Chromium-Browser, Installieren Sie die Erweiterung. Das Spitzhackensymbol der Erweiterung wird in Ihrer Symbolleiste angezeigt. Wenn Sie darauf klicken, gelangen Sie zu einer Seite, auf der Sie ein Konto einrichten können. Die kostenlose Version bietet Ihnen 500 Kratzer pro Monat, was wahrscheinlich genug für Sie ist, es sei denn, Sie tun dies jeden Tag.

2. Laden Sie die Daten

Data Miner laden

Navigieren Sie zunächst zu der Seite, von der Sie Daten extrahieren möchten. Wenn Sie mehrere Datenseiten haben oder einige davon hinter Schaltflächen versteckt sind, ist das in Ordnung – es gibt Möglichkeiten, damit umzugehen. Im Moment benötigen Sie nur ein repräsentatives Beispiel, damit das Programm weiß, wonach es suchen muss.

3. Suchen Sie nach einem Rezept

Data Miner-Rezepte

Öffnen Sie anschließend Data Miner und überprüfen Sie die Registerkarte “Öffentlich” auf vorhandene Rezepte. Wenn Sie sich auf einer beliebten Website befinden, hat möglicherweise bereits eine andere Person einen Prozess zum Abrufen der gesuchten Daten erstellt, wodurch Sie viel Zeit sparen. Auf Websites wie Google, Amazon und Twitter stehen beispielsweise zahlreiche Rezepte zur Verfügung, mit denen Sie Links, Preise, Text und andere Daten sofort herunterladen können. Sie können die Rezepte testen, indem Sie auf die Schaltfläche „Ausführen“ klicken, um eine Vorschau der von Data Miner generierten Tabelle anzuzeigen. Sie können vorhandene Rezepte auch an Ihre Bedürfnisse anpassen, indem Sie auf die Schaltfläche „Bearbeiten“ klicken.

4. Seitentyp

Data Miner-Seitentyp

Okay, also haben keine vorgefertigten Rezepte für Sie funktioniert. Das ist okay, du kannst deine eigenen machen. Klicken Sie einfach auf die Schaltfläche “Neues Rezept”, um zu starten.

Ihre erste Wahl ist “Listenseite” oder “Detailseite”.

Wählen Sie “Seite auflisten”, wenn Sie versuchen, mehrere Datenzeilen von einer Seite abzurufen. Beispielsweise möchten Sie möglicherweise den Link und den Seitentitel jedes Suchergebnisses herunterladen oder das Datum und den Inhalt der Beiträge in einem Feed abrufen. Dies ist wahrscheinlich der am häufigsten verwendete Typ, den wir hier als Demo verwenden werden. (Die Schritte für eine Detailseite sind im Wesentlichen gleich.)

Wählen Sie “Detailseite”, wenn Sie auf einer Seite viele verschiedene Informationen zu einer Sache haben – – Eine Produktseite, auf der Sie beispielsweise den Preis, die Beschreibung, den Link und die Bewertung abrufen und alles in einer einzigen Zeile zusammenfassen müssen.

Schritt 5: Machen Sie Ihre Zeilen

Data Miner Row Select 4

Klicken Sie auf die Schaltfläche “Suchen” und bewegen Sie die Maus, bis das gelbe Auswahlfeld alle Daten abdeckt, die Sie für einen einzelnen Eintrag in Ihre endgültige Tabelle benötigen würden. Wenn Sie beispielsweise Suchergebnisse herunterladen, müssen Sie einen Bereich markieren, der groß genug ist, um den Titel, die URL und die Beschreibung aufzunehmen, die Sie im nächsten Schritt jeweils in separate Spalten einfügen können. Um Ihre Auswahl zu treffen, drücken Sie die Verschiebung Schlüssel. Machen Sie sich keine Sorgen, wenn Sie versehentlich klicken. Data Miner speichert Ihren gesamten Rezeptfortschritt, auch wenn Sie von der Seite weg navigieren.

Anschließend sollten Sie mindestens eines der Kontrollkästchen im Abschnitt “Elementklassen” oder “HTML-Elementtyp” aktivieren. Im Idealfall wird die Auswahl repliziert, um jedes Element auf der Seite abzudecken, das sich in derselben Kategorie befindet wie das von Ihnen ausgewählte.

Data Miner Row Select 5

Wenn Sie feststellen, dass der Selektor nicht alles abdeckt, was Sie benötigen, wählen Sie nur eines der Elemente aus und klicken Sie auf “Übergeordnetes Element auswählen”. Dadurch wird die Box größer und es wird wahrscheinlich alles erfasst, was Sie benötigen. Wenn nicht, müssen Sie möglicherweise ein wenig in den HTML-Code eintauchen und die Klassen und Typen der Elemente identifizieren, die Sie benötigen. Wenn Sie Zweifel haben, klicken Sie auf “Übergeordnetes Element auswählen”, bis das Feld so groß wie möglich ist, ohne mehr als einen Listeneintrag abzudecken, da dies Ihnen mehr Flexibilität bei der Auswahl von Spalten bietet.

Mit Data Miner erhalten Sie unten die Option “HTML des Ansichtselements” und können benutzerdefinierte Selektoren eingeben. Wenn Sie sagen möchten, greifen Sie auf alle Links auf einer Seite mit der Klasse “Produkt” zu, die Sie einfach eingeben können a.product. Hier werden einige grundlegende HTML / CSS-Kenntnisse wirklich nützlich sein.

Data Miner Row Select 6

Sobald Sie wieder im Hauptzeilenmenü sind, sollten Sie eine „Zeilenanzahl“ mit der Anzahl der Einträge sehen, die Ihr Rezept in einer Tabelle erstellt. Wenn nicht alles erfasst wird, müssen Sie Ihre Zeilenauswahl überprüfen.

6. Teilen Sie Ihre Daten in Spalten auf

Data Miner Col Wählen Sie 1

Sobald Sie alle Daten für Ihre Zeilen ausgewählt haben, ist es an der Zeit, dass alles gut aussieht, indem Sie es in verschiedene Spaltenkategorien unterteilen. Jede Auswahl, die Sie hier treffen, sollte ein Unterabschnitt des Felds sein, das Sie für Ihre Zeilen ausgewählt haben.

Data Miner Col Select 2

Um eine Spalte zu erstellen, geben Sie einfach einen Namen ein und wählen Sie mit der Schaltfläche Suchen aus, was Sie extrahieren möchten, genau wie bei den Zeilen. Die häufigsten Daten sind wahrscheinlich Text-, URL- oder Bild-URLs. Das Abrufen von URLs durch Bewegen des Mauszeigers über Textlinks kann etwas schwierig sein. Möglicherweise müssen Sie auf “Eltern auswählen” klicken, bis Sie eine Ebene erreicht haben, in der sich der Elementtyp befindet <a>Dies ist das HTML-Tag für Links.

Data Miner Col Wählen Sie 1

Um sicherzustellen, dass Ihre Spalte die richtige Art von Daten enthält, drücken Sie einfach auf das Augensymbol rechts neben dem Namen jeder Spalte neben der Zahl, die angibt, wie viele Spalten ausgewählt wurden. Dies zeigt Ihnen eine Vorschau jedes Zeileneintrags für diese Spalte. Wenn etwas nicht stimmt, gehen Sie zurück und optimieren Sie die Tags und Typen, die Sie zur Identifizierung der Zeilen ausgewählt haben. Haben Sie keine Angst, den HTML-Viewer zu öffnen und nach Mustern zu suchen, die mit den Daten verknüpft sind, die Sie erfassen möchten.

7. Sagen Sie Data Miner, wie Sie zur nächsten Seite gelangen

Data Miner Nav 1

Wenn Sie mehrere Datenseiten extrahieren müssen, möchten Sie wahrscheinlich nicht alle durchklicken und Ihr Rezept immer wieder ausführen. Um dies zu umgehen, teilen Sie Data Miner einfach mit, wo sich die Navigationsschaltfläche befindet, auf die geklickt werden muss, um zur nächsten Seite zu gelangen. Achten Sie darauf, dass Sie nicht auf “Seite 2” klicken, da es dann einfach zu Seite 2 wechselt. Stellen Sie erneut sicher, dass Sie eine auswählen <a> Element, und verwenden Sie die Schaltfläche Testnavigation, um sicherzustellen, dass es funktioniert.

Data Miner Nav 2

8. Sagen Sie Data Miner, wo Sie klicken oder scrollen sollen, um Daten zu laden

Data Miner-Aktionselement Klicken Sie auf

Einige Seiten laden keine Daten, bis Sie auf etwas klicken oder nach unten scrollen. Zum Glück kann Data Miner diese Dinge auch! Verwenden Sie das Suchwerkzeug oben (Sie sollten jetzt ziemlich gut darin sein), um das Element auszuwählen, das Sie bearbeiten möchten, und legen Sie den Selektor in das entsprechende Feld. Testen Sie es, um sicherzustellen, dass es funktioniert.

Es kann schwierig sein, genau herauszufinden, welcher Selektor das Element oder die unendliche Bildlaufleiste aktiviert, aber grundlegende HTML-Kenntnisse und einige Versuche und Irrtümer bringen Sie hier ziemlich weit. Die meisten Dinge, die Sie hier bearbeiten müssen, sind JavaScript-basiert, aber Data Miner muss nur den CSS-Selektor kennen, der der Aktion zugeordnet ist, um sie zu aktivieren, sodass Sie in den meisten Fällen nicht mit Code herumspielen müssen.

Im nächsten Schritt können Sie auch benutzerdefiniertes JS hinzufügen, um so ziemlich alles zu tun, was Sie wollen. Dies ist jedoch ziemlich weit fortgeschritten und geht über das hinaus, was wir für das grundlegende Scraping benötigen.

9. Speichern Sie das Rezept und führen Sie es aus

Data Miner Speichern

Herzliche Glückwünsche! Jetzt ist es Zeit zu sehen, ob alles zusammenkommt. Führen Sie das Rezept auf der Seite aus, auf der Sie sich befinden, und überprüfen Sie in der Vorschau, ob Ihre Zeilen und Spalten das tun, was sie sollen. Wenn nicht, können Sie zurückgehen und das Rezept bearbeiten.

Data Miner-Lauf 1

Wenn sich alles so verhält, wie es sollte, können Sie dem Scraper über die Schaltfläche “Nächste Seite” mitteilen, wie viele Seiten gecrawlt werden sollen und wie schnell es gehen soll. / (Zu schnelles Gehen kann dazu führen, dass das System Sie als Bot kennzeichnet.)

Data Miner-Paginierung ausführen

Sobald Sie alle benötigten Daten haben, können Sie auswählen, welches Dateiformat Sie zum Herunterladen verwenden möchten.

Data Miner Excel Csv

Ich habe Probleme; Gibt es einen einfacheren Weg?

Wenn das Data Miner-Programm für Sie nicht funktioniert, stehen zahlreiche andere Tools zum Scraping von Daten zur Verfügung: ParseHub, Scraper, Octoparse, Import.io, VisualScraper usw. Einige von ihnen verfügen möglicherweise über intuitivere Benutzeroberflächen und mehr Automatisierung. Sie müssen jedoch noch ein wenig über HTML und die Organisation des Webs wissen. Was Data Miner für Anfänger besonders gut macht, ist seine Crowdsourcing-Rezeptbibliothek, mit der Sie möglicherweise auch nur die geringste Begegnung mit Code vermeiden können. Dies, zusammen mit seinem ziemlich großzügigen kostenlosen monatlichen Kratzpaket, macht es zu einem sehr anständigen Werkzeug für die meisten Bedürfnisse.

How useful was this post?

Click on a star to rate it!

Average rating 0 / 5. Vote count: 0

No votes so far! Be the first to rate this post.