analytics

Bereinigung der Daten vor dem Speichern

Bei der Erstellung von Data Warehouses wird der Bereinigung der darin enthaltenen Informationen immer noch nicht genügend Aufmerksamkeit geschenkt. Offenbar geht man davon aus, dass je größer der Speicher ist, desto besser. Dies ist ein sicherer Weg, um ein Data Warehouse in eine Abfallgrube zu verwandeln.

Sie müssen Ihre Daten bereinigen! Schließlich sind die Informationen heterogen und stammen fast immer aus mehreren Quellen. Dadurch, dass es verschiedene Datenerfassungspunkte gibt, wird das Bereinigungsprozess so komplex und relevant.

Fehler werden immer gemacht, und es ist nicht möglich, sie vollständig zu beseitigen. Manchmal kann es sinnvoller sein, sie in Kauf zu nehmen, als Ressourcen für ihre Beseitigung aufzuwenden. Generell müssen Sie jedoch mit allen Mitteln versuchen, die Zahl der Fehler auf ein akzeptables Maß zu reduzieren. Die für die Analyse verwendeten Methoden sind bereits mit Ungenauigkeiten behaftet, warum sollten wir sie also noch verschlimmern?

Auch der psychologische Aspekt des Problems muss berücksichtigt werden. Wenn der Analyst oder Entscheidungsträger kein Vertrauen in die Zahlen hat, die er aus dem Repository erhält, wird er sich auf Informationen aus anderen Quellen verlassen. Dies mindert den Wert des Repositorys erheblich.

Typen von Fehlern

Einfache Fehler, wie z.B. Typabweichungen, Unterschiede in den Eingabeformaten und Kodierungen, werden in diesem Artikel nicht berücksichtigt. Das heißt, wenn die Informationen aus mehreren Quellen stammen, in denen unterschiedliche Konventionen zur Bezeichnung desselben Sachverhalts verwendet werden.

Ein typisches Beispiel für einen solchen Fehler ist die Angabe des Geschlechts einer Person. Das Geschlecht kann zum Beispiel als M/F/D oder 0/1/2 angegeben werden.

Fehler dieser Art werden durch die Angabe von Umcodierungsregeln und Typkonvertierungen behoben, so dass sie relativ leicht zu lösen sind. Wir sind an komplizierteren Fragen interessiert, die sich nicht mit einfachen Mitteln lösen lassen.

Es gibt ziemlich viele Arten von komplexen Fehlern. Neben den allgemeingültigen Fehlern gibt es auch solche, die nur für ein bestimmtes Fachgebiet oder eine bestimmte Aufgabe typisch sind. Betrachten wir jedoch diejenigen, die unabhängig von der Aufgabe sind:

  1. Widersprüchliche Informationen;
  2. Unvollständige Daten;
  3. Anomale Werte;
  4. Verrauschte Daten;
  5. Fehlerhafte Daten.

Es gibt bewährte Methoden, um jedes dieser Probleme zu lösen. Natürlich können Fehler auch manuell korrigiert werden, aber bei großen Datenmengen wird dies problematisch. Lassen Sie uns also nach Möglichkeiten suchen, diese Probleme automatisiert und mit minimaler manueller Beteiligung zu lösen.

Widersprüchliche Informationen

Als erstes muss entschieden werden, was genau als Widerspruch gilt. So seltsam es klingen mag, ist diese Aufgabe nicht trivial. Eine andere Schreibweise des Namens ist zum Beispiel nicht notwendigerweise ein Fehler, sondern kann sich durch eine offizielle Namensänderung ergeben.

Wenn wir festgestellt haben, was als Widerspruch gilt, und solche Aufzeichnungen gefunden haben, gibt es mehrere Handlungsmöglichkeiten:

  1. Wenn mehrere widersprüchliche Einträge gefunden werden, löschen Sie sie alle oder lassen Sie eine der Optionen durch eine einfache Regel ausgewählt. Zum Beispiel der aktuellste Eintrag. Die Methode ist trivial und daher leicht zu implementieren. Manchmal ist das ausreichend.
  2. Korrigieren Sie inkonsistente Daten mit Statistiken. So ist es beispielsweise möglich, die Wahrscheinlichkeit des Auftretens jedes der widersprüchlichen Werte zu berechnen und den wahrscheinlichsten Wert auszuwählen. In den meisten Fällen führt diese Methode zu korrekteren Ergebnissen.

Unvollständige Daten

Dieses Problem findet man in den meisten Data Warehouses. Viele Prognosemethoden gehen davon aus, dass die Daten in einem gleichmäßigen, konstanten Strom eintreffen. In der Praxis ist das nur selten der Fall. Die Anwendungen von Data Warehouses wie z.B Vorhersagen werden daher oft schlecht oder mit erheblichen Einschränkungen umgesetzt. Die folgenden Methoden können zur Verhinderung dieses Phänomens eingesetzt werden:

  1. Angleichung: Das heißt, wenn es an einem beliebigen Punkt keine Daten gibt, nehmen wir dessen Umfeld und berechnen den Wert an diesem Punkt anhand bekannter Formeln und fügen den entsprechenden Datensatz zum Repository hinzu. Dies funktioniert gut bei geordneten Daten, wie zum Beispiel Informationen über die täglichen Produktverkäufe.
  2. Ermittlung des plausibelsten Wertes: Dabei wird nicht die Umgebung eines Punktes, sondern die Gesamtheit der Daten berücksichtigt. Diese Methode wird bei ungeordneten Informationen angewandt, d. h. in Fällen, in denen wir die Umgebung des betreffenden Punktes nicht bestimmen können.

Anomale Werte

Oftmals gibt es Ereignisse oder Daten, die nicht ins Gesamtbild passen. Zum Beispiel ist der Preis eines Produkts 10 Mal höher als der Durchschnitt. Solche Werte werden am besten korrigiert. Tatsache ist, dass die Analysealgorithmen nichts über die Art der Prozesse wissen. Daher wird jede Anomalie als ein völlig normaler Wert wahrgenommen. Dadurch wird das Modell erheblich verzerrt, da ein gelegentlich auftretender Misserfolg oder Erfolg wie ein Muster behandelt wird.

Auch für dieses Problem gibt es eine Methode - die robuste Schätzung. Diese Methoden sind resistent gegen starke Störungen. Ein Beispiel ist der Medianfilter.

Wir werten die verfügbaren Daten aus und wenden eine der folgenden Maßnahmen auf jede Abweichung von der vorgegebenen Toleranz an:

  1. Anomale Werte werden entfernt;
  2. Anomale Werte werden durch die nächstgelegenen Grenzwerte ersetzt.

Verrauschte Daten

Bei der Analyse stoßen wir fast immer auf Rauschen. In den meisten Fällen liefert das Rauschen keine nützlichen Informationen, sondern verhindert nur, dass man das Bild klar sieht. Es gibt verschiedene Methoden, mit diesem Phänomen umzugehen:

  1. Spektralanalyse: Wir können es verwenden, um hochfrequente Datenkomponenten abzuschneiden, d.h. Rauschen ist eine häufige und unbedeutende Variation um das Hauptsignal herum. Und indem wir die Breite des Spektrums ändern, können wir wählen, welche Art von Rauschen wir entfernen wollen.
  2. Autoregressive Methoden: Diese weit verbreitete Methode wird in der Zeitreihenanalyse aktiv genutzt. Es läuft darauf hinaus, eine Funktion zu finden, die den Prozess als Signal plus Rauschen beschreibt. Das Rauschen kann dann entfernt werden und das zugrunde liegende Signal bleibt erhalten.

Fehlerhafte Daten

Dies ist ein umfangreiches Thema, da es zu viele Arten solcher Fehler gibt, z. B. Tippfehler, absichtliche Datenverfälschungen, Formatfehler, sowie Fehler im Zusammenhang mit der Dateneingabeanwendung.

Für die meisten dieser Probleme gibt es erprobte und bewährte Methoden. Einige sind offensichtlich, wie z. B. die Formatvalidierung vor dem Einfügen von Daten in das Repository. Einige sind etwas anspruchsvoller. So können beispielsweise Tippfehler auf der Grundlage verschiedener Thesauri korrigiert werden. Aber auch diese Art von Fehlern muss auf jeden Fall bereinigt werden.

Fazit

Unsaubere Daten sind ein sehr großes Problem. In der Tat können sie alle Bemühungen, ein Data Warehouse mit Daten zu füllen, zunichte machen. Es ist wichtig zu bedenken, dass es sich nicht um eine einmalige Bereinigung handelt, sondern um eine kontinuierliche Tätigkeit. Ideal ist die Einführung spezieller Verfahren in den ETL-Prozess, um sicherzustellen, dass die Daten bereinigt werden, bevor sie in das Repository hochgeladen werden.

Daten, die während des Bereinigungsprozesses verändert werden, müssen gekennzeichnet werden, um diesen Aspekt in der nachfolgenden Analyse zu berücksichtigen. Andernfalls besteht die Gefahr, dass man sich auf sie als echte Informationen verlässt, was zu falschen Schlussfolgerungen führen könnte.

Die oben beschriebenen Lösungen sind nicht die einzigen. Es gibt eine ganze Reihe anderer Verarbeitungsmethoden, die zur Verbesserung der Datenqualität beitragen können, von Expertensystemen bis hin zu neuronalen Netzen. Es sollte berücksichtigt werden, dass die Reinigungsmethoden stark an den jeweiligen Fachbereich gebunden sein können. Was für die einen zum Beispiel Rauschen ist, ist für die anderen eine sehr wertvolle Information.

In diesem Sinne sollte der ETL-Prozess umfassender betrachtet werden, als nur ein Verfahren zum Importieren von Daten mit minimalen Umwandlungen und Hochladen in das Repository. Die Datenbereinigung sollte ein obligatorischer Schritt in diesem Prozess sein, da der Wert des Repository nicht nur und nicht so sehr durch die Datenmenge, sondern durch die Qualität der gesammelten Informationen bestimmt wird.