Erfahren Sie, was Datenbereinigung ist und welche Bedeutung sie bei der Aufbereitung von Datensätzen für optimale Analysen hat.
Read in English (Auf Englisch lessen).
Von Kundeninformationen bis zu Mitarbeiterdatensätzen sammeln Unternehmen eine Fülle von Daten an, aber nicht alle davon erweisen sich als wertvoll. Redundanz, Fehler und Veralterung verunreinigen die Daten und lassen sie "schmutzig" erscheinen.
Die Datenbereinigung ist der erste Schritt, um die Daten für Business Intelligence (BI) vorzubereiten. Der Prozess ist vergleichbar mit dem Aufräumen eines unordentlichen Zimmers. Entrümpeln erleichtert es, das zu finden, was man benötigt, so wie das Bereinigen von Daten wertvolle Erkenntnisse zutage fördert und eine genaue Analyse gewährleistet.
Im Folgenden werden wir uns mit den Einzelheiten der Datenbereinigung befassen, damit Sie deren Funktion und Rolle besser verstehen können.
Bei der Datenbereinigung, auch Data Scrubbing oder Cleansing genannt, werden ungenaue, sich wiederholende oder ungültige Daten innerhalb eines Datensatzes aussortiert. Die Datenbereinigung wird in der Regel manuell von einem Dateningenieur oder Techniker durchgeführt oder mit Software automatisiert.
Nach Angaben von Gartner, einem Managementberatungsunternehmen, entstehen Unternehmen durch mangelhafte Datenqualität jährlich Kosten in Höhe von durchschnittlich 12,9 Millionen USD [1].
Saubere, qualitativ hochwertige Daten vereinfachen die Interpretation und Nutzung von Datendateien in verschiedenen Geschäftsanwendungen, z. B. in den Bereichen Vertrieb, Marketing und Finanzberichterstattung. Qualitativ hochwertige Daten sind auch für das Training von Modellen des maschinellen Lernens (ML) von Bedeutung, da minderwertige Trainingsdatensätze zu ungenauen Ergebnissen oder Vorhersagen führen können.
Die Datenbereinigung kann sehr komplex sein. Wenn man sie jedoch in kleinere Ziele unterteilt, wird der Prozess vereinfacht. Im Folgenden finden Sie einige Schritte, die Sie befolgen können, um einen sauberen Datensatz zu erhalten.
Beginnen Sie mit der Überprüfung Ihrer Daten, um deren Qualität festzustellen und Probleme für Analysten zu erkennen. Dazu gehören die Ermittlung der Beziehungen zwischen den Datenelementen und die Erstellung von Statistiken über die Datensätze, um Unstimmigkeiten aufzudecken.
Eliminieren Sie redundante Daten aus Ihren Datensätzen durch Datendeduplizierungstechniken, wie z. B. Inline- und Post-Processing-Deduplizierung. Suchen Sie außerdem nach irrelevanten Datenpunkten, die sich negativ auf Ihren Datensatz/die Datensätze auswirken könnten. Wenn sich Ihre Studie beispielsweise um die Vorlieben von Fast-Food-Restaurants dreht, kann das Entfernen unzutreffender, nicht zum Thema gehörender Daten, wie z. B. die Wahl eines guten Restaurants, zu einem übersichtlicheren und relevanteren Datensatz führen.
Stellen Sie sicher, dass Ihre Datenbankspalten hinsichtlich des Datentyps einheitlich sind. Dies kann die Beibehaltung eines einheitlichen Datumsformats, numerischen Formats oder einer Maßeinheit in Ihrem gesamten Datensatz beinhalten. Überprüfen und standardisieren Sie außerdem die Verwendung von Abkürzungen. Wenn sich beispielsweise "Vereinigte Staaten" und "US" auf dieselbe Einheit beziehen, kann die Standardisierung auf ein einheitliches Format dazu beitragen, Mehrdeutigkeiten zu vermeiden.
Ausreißer sind ungewöhnliche Werte in Ihren Daten. Während Ausreißer in bestimmten Szenarien das Verständnis der Stichprobenmenge verbessern können, sind sie nicht immer von Vorteil. Das liegt daran, dass Ausreißer zu einer extremen Datenvarianz führen können, was zu verzerrten, ungenauen Schlussfolgerungen führt. In einem Datensatz mit monatlichem Website-Traffic sind gelegentliche Traffic-Spitzen beispielsweise wertvolle Ausreißer, um beliebte Inhalte zu identifizieren. Bei der Durchführung allgemeiner Analysen wie der Berechnung des durchschnittlichen Datenverkehrs sollten diese Ausreißer jedoch aus Gründen der Genauigkeit ausgeschlossen werden.
Algorithmen für ML lernen aus Daten. Sie erkennen Muster, Beziehungen und Trends in den Daten, die sie für datengestützte Entscheidungen und Vorhersagen nutzen können. Wenn sie nicht überprüft werden, können fehlende Daten die Leistung von Algorithmen für maschinelles Lernen ungewollt beeinträchtigen.
Nehmen wir zum Beispiel einen Gehaltserhebungsdatensatz, bei dem einige Teilnehmer ihre Einkommensangaben ausgelassen haben, was zu fehlenden Daten führt. Um mit dieser Situation umzugehen, haben Sie die Möglichkeit, entweder die gesamten Antworten dieser Teilnehmer auszuschließen, ihr Einkommen anhand von Faktoren wie Bildungsstand und Beruf zu approximieren oder das Fehlen der Einkommensdaten zu vermerken. Diese Strategien sind nicht ganz unproblematisch, aber sie sind unerlässlich, um die Auswirkungen auf die Gesamtdatenanalyse abzuschwächen.
Der letzte Schritt besteht in der Validierung des bereinigten Datensatzes auf Genauigkeit und Zuverlässigkeit. Um dies effizient zu tun, verwenden Sie Skripte zum Vergleich des Datensatzes mit einer Referenz- oder Idealdatenbank.
Im Folgenden sind einige bemerkenswerte Vorteile der Datenbereinigung aufgeführt:
Die Verfeinerung von Daten in CRM- und Vertriebssystemen verbessert die Effizienz von Marketing und Vertrieb.
Saubere Daten vermindern das Risiko von Fehlbeständen, Falschlieferungen und anderen geschäftlichen Herausforderungen, was zu Kosteneinsparungen führt.
Die Verringerung von wiederkehrenden Fehlern in Datensätzen durch Datenbereinigung ermöglicht es IT-Teams, sich auf strategische Aufgaben zu konzentrieren, anstatt sich wiederholende Wartungsarbeiten durchzuführen.
Zu den häufigsten Hürden bei der Datenbereinigung gehören:
Getrennte Datenbestände innerhalb eines Unternehmens können Datenbereinigungsprozesse behindern.
Die Bereinigung von Daten in komplexen Systemen mit verschiedenen Datentypen, wie strukturierten, halbstrukturierten und unstrukturierten Daten, ist sowohl arbeitsintensiv als auch kostspielig.
Die Ergänzung fehlender Datenwerte ist unter Umständen nicht immer möglich.
Bei der Datenbereinigung werden irrelevante Daten aus Ihrem Datensatz entfernt, während die Datenumwandlung dazu dient, Daten in ein anderes Format oder eine andere Struktur zu konvertieren. Die Datenumwandlung wird auch als Data Wrangling bezeichnet.
Beide dienen unterschiedlichen Zwecken. Die Datenbereinigung verbessert die Genauigkeit, während die Datenumwandlung die Datenmodellierung erleichtert. In der Regel geht die Bereinigung dem Wrangling voraus.
Automatisierte Datenbereinigungstools können Ihre Analysen beschleunigen. Trotz effektiver und kosteneffizienter Softwarelösungen kann es jedoch vorkommen, dass manuelle Prozesse in Ihren Arbeitsabläufen fortbestehen. Das liegt daran, dass Automatisierung selten eine Allzwecklösung ist.
Nehmen wir einen Datensatz mit fehlenden Geburtsdaten. Trotz umfangreichen Trainings können künstliche Intelligenz (KI) oder ML-Modelle in der Automatisierung diese Lücken nicht genau vorhersagen oder füllen. Gleichzeitig kann ein Mensch fehlende Geburtsdaten auf der Grundlage verfügbarer Daten oder externer Informationen ableiten.
• IT-Jobs
• Programmiersprachen
• Datenbank-Administrator
• IT-Projektleiter
• Salesforce-Administrator
Vertiefen Sie Ihr Verständnis von Datenbereinigung mit dem Kurs Daten bereinigen von Google, der auf Coursera verfügbar ist. Dieser Kurs richtet sich an Anfänger und bietet Anleitungen zur Anwendung grundlegender SQL-Funktionen zum Bereinigen von String-Variablen in einer Datenbank.
Gartner. „Wie Sie Ihre Datenqualität verbessern können, https://www.gartner.com/smarterwithgartner/how-to-improve-your-data-quality.” Abgerufen am 6. März 2025.
Redaktion
Das Redaktionsteam von Coursera besteht aus äußerst erfahrenen professionellen Redakteuren, Autoren ...
Diese Inhalte dienen nur zu Informationszwecken. Den Lernenden wird empfohlen, eingehender zu recherchieren, ob Kurse und andere angestrebte Qualifikationen wirklich ihren persönlichen, beruflichen und finanziellen Vorstellungen entsprechen.