Google Refine: Arbeiten mit unsauberen Daten

Wer oft mit CSV, JSON, XML oder anderen exportierten Daten zu tun hat, der wurde sicher schon mit unsauberen Daten konfrontiert. Sei es ein falscher Zeichensatz, diverse Trennzeichen oder ähnliches. Betrachten wir uns einmal CSV-Dateien. Zum Testen können wir diese beispielsweise in Microsoft Excel oder in OpenOffice Calc importieren. Für einen Test kann das, je nach Anzahl der Spalten, recht viel Zeit beanspruchen. Google bietet hier mit Google Refine ein Entwicklerwerkzeug an, welches uns bei der Analyse unserer Dateien behilflich ist. Dieses schnelle Tool bietet viele Konfigurationsmöglichkeiten. So lassen sich sehr schnell CSV-Dateien mit diversen Import-Parametern wie z. B. dem Zeichensatz, Trennzeichen etc. versehen. Eine Live-Vorschau weist sofort auf Fehler hin.

Installation

Die Installationsdateien werden über Google Code heruntergeladen. Danach wird das Archiv entpackt und die darin enthaltene Programmdatei (unter Windows google-reine.exe) ausgeführt.

Abb. 1 - Google Code Repository

Abb. 1 – Google Code Repository

Derzeit existieren Versionen für alle gängigen Plattformen z. B. Windows, macOS, Linux etc.

Download Link: https://code.google.com/archive/p/google-refine/downloads

Analyse einer CSV-Datei

Nach erfolgter Installation starten wir Google Refine.

Abb. 1 -Google Refine Startbildschirm

Abb. 2 – Google Refine Startbildschirm

Hier können wir nun die Quelle unserer Daten auswählen. Neben lokalen Dateien (This Computer), könne wir auch eine URL oder eine Datei aus Google Docs angeben. Wir beschränken uns in diesem Tutorial auf lokale Dateien. Nachdem wir die CSV-Datei auf unserem Computer ausgewählt haben, kann es auch schon mit der Analyse der Daten los gehen.

Abb. 2 - Analyse einer CSV-Datei

Abb. 3 – Analyse einer CSV-Datei

Im Oberen Bereich wird die Vorschau der Datei angezeigt und im unteren Bereich stehen uns mehrere Möglichkeiten zur Manipulation unserer Daten zur Verfügung. So können wir beispielsweise den Zeichensatz ändern, die Vorschau wird darauf hin sofort aktualisiert.

Abb. 3 - Auswahl der Zeichencodierung

Abb. 4 – Auswahl der Zeichencodierung

Sind alle gewünschten Einstellungen vorgenommen, können wir über den Button (oben rechts) ein neues Projekt erstellen.

Abb. 5 - Neues Projekt erstellen

Abb. 5 – Neues Projekt erstellen

Wir gelangen nun zur Hauptansicht von Google Refine. Hier werden uns einige Optionen zur Sichtung unserer Daten geboten.

Abb. 6 - Hauptansicht

Abb. 6 – Hauptansicht

Markieren von Datensätzen

Damit wir wichtige oder auch problematische Datensätze schnell wiederfinden, erlaubt uns Google Refine das markieren dieser Datensätze. Über einen Stern oder eine Flagge, können wir hier zwischen diesen beiden Typen unterscheiden.

Abb. 7 - Markieren von Datensätzen

Abb. 7 – Markieren von Datensätzen

Diese Markierungen können auch zur Filterung verwendet werden. Hierzu einfach im Tabellenkopf anstelle von „All“, die entsprechende Markierung auswählen.

Funktionen des Tabellenkopfs (Sortieren, Ausblenden, Filtern)

Wie eben bei den Markierungen beschrieben, bietet der Tabellenkopf ein paar zusätzliche Funktionalitäten. Klickt man auf den Pfeil neben der Bezeichnung, können die Datensätze aufsteigend oder absteigend sortiert werden (je nach gewählter Spalte). Des Weiteren können Spalten auch ausgeblendet werden. Ein Blick in die Zusatzfunktionen der Spalten lohnt sich, vor allem bei aufwändigen Daten.

Bearbeiten von Datensätzen

Jeder Eintrag in der Tabelle kann über „Edit“ bearbeitet werden. Schnelle Datenkorrekturen sind so ganz einfach möglich.

Exportieren der Daten

Unsere aufbereiteten und korrigierten Daten können nun über die Exportfunktion in verschiedene Dateiformate gespeichert werden.

Abb. 8 - Exportieren von Daten

Abb. 8 – Exportieren von Daten

Neben CSV (Comma-separated-value) stehen auch Excel, ODF oder auch der Export als HTML-Tabelle zur Verfügung.

Fazit

Google Refine ist ein leistungsstarkes und hochperformantes Werkzeug zur Datenprüfung. Die Exportfunktionen erleichtern die Arbeit beim Umgang mit exportierten Daten erheblich. Entwickler, die regelmäßig mit solchen Daten zu tun haben, sollten sich Google Refine auf jeden Fall etwas genauer ansehen.

Add Comment