Qu'est-ce que le data cleaning ?

Écrit par Coursera Staff • Mise à jour à

Découvrez ce qu'est le data cleaning et son importance pour affiner les ensembles de données en vue d'une analyse optimale.

[Image en vedette] Un ingénieur de données est assis devant un ordinateur portable et travaille sur un projet de nettoyage de données.

Read in English (Lire en anglais)

Des informations sur les clients aux dossiers des employés, les entreprises accumulent une multitude de données, mais toutes ne sont pas utiles. La redondance, les erreurs et l'obsolescence entachent les données et les font paraître « sales ». 

Le data cleaning est la première étape de la préparation des données pour la Business Intelligence (BI). Ce processus s'apparente à la remise en ordre d'une pièce en désordre. Le désencombrement permet de trouver plus facilement ce dont on a besoin, tout comme le data cleaning permet de découvrir des informations précieuses et de garantir la précision de l'analyse.

Examinons plus en détail les tenants et les aboutissants du data cleaning afin de vous aider à mieux comprendre sa fonction et son rôle.

En quoi consiste le data cleaning?

Le data cleaning (ou nettoyage de données) consiste à éliminer les données inexactes, répétitives ou non valides d'un ensemble de données. Le data cleaning est généralement effectué manuellement par un ingénieur ou un technicien en données ou automatisé à l'aide d'un logiciel.

Pourquoi le data cleaning est-il important ?

Selon Gartner, une société de conseil en gestion, les organisations subissent un coût annuel moyen de 12,9 millions de dollars en conséquence directe d'une qualité de données médiocre [1]. 

Des données propres et de qualité simplifient l'interprétation et l'utilisation des fichiers de données dans diverses applications commerciales, telles que les ventes, le marketing et les rapports financiers. Des données de haute qualité sont également pertinentes pour l'entraînement des modèles d'apprentissage automatique, car des ensembles de données d'entraînement de mauvaise qualité peuvent entraîner des résultats ou des prédictions inexacts. 

6 étapes pour nettoyer les données

Le data cleaning peut s'avérer complexe. Cependant, le fait de le diviser en objectifs plus petits simplifie le processus. Les étapes suivantes vous permettront d'obtenir un ensemble de données plus propre. 

1. Évaluer la qualité des données.

Commencez par examiner vos données pour vérifier leur qualité et signaler les problèmes aux analystes. Il s'agit notamment d'identifier les relations entre les éléments de données et de collecter des statistiques sur les ensembles de données afin de mettre au jour les incohérences.

2. Supprimez les entrées en double ou inappropriées.

Éliminez les données redondantes de vos ensembles de données grâce à des techniques de déduplication des données, telles que la déduplication en ligne et la déduplication post-traitement. En outre, recherchez les points de données non pertinents susceptibles d'avoir un impact négatif sur votre/vos ensemble(s) de données. Par exemple, si votre étude porte sur les préférences en matière de restauration rapide, la suppression des données inappropriées et hors sujet, telles que les choix de restaurants gastronomiques, peut permettre d'obtenir un ensemble de données plus concis et plus pertinent. 

3. Corrigez les erreurs structurelles.

Assurez-vous que les colonnes de votre base de données sont uniformes en termes de type de données. Cela peut impliquer le maintien d'un format de date, d'un format numérique ou d'une unité de mesure cohérents dans l'ensemble de vos données. En outre, vérifiez et normalisez l'utilisation des abréviations. Par exemple, si « France » et « FR » désignent la même entité, le fait de les normaliser dans un format cohérent peut contribuer à réduire l'ambiguïté.

4. Éliminez les valeurs aberrantes. 

Les valeurs aberrantes sont des valeurs inhabituelles dans vos données. Bien que les valeurs aberrantes puissent améliorer la compréhension de l'ensemble d'échantillons dans des scénarios spécifiques, elles ne sont pas toujours bénéfiques. En effet, les valeurs aberrantes peuvent introduire une variance extrême des données, ce qui conduit à des conclusions faussées et inexactes. Par exemple, dans un ensemble de données sur le trafic mensuel d'un site web, les pics de trafic occasionnels sont des valeurs aberrantes précieuses pour identifier le contenu populaire. Cependant, lors d'analyses générales telles que le calcul du trafic moyen, ces valeurs aberrantes doivent être exclues pour des raisons de précision.

5. Vérifier les données manquantes. 

Les algorithmes d'apprentissage automatique apprennent à partir des données. Ils identifient des modèles, des relations et des tendances au sein des données, qu'ils utilisent pour prendre des décisions et faire des prédictions basées sur les données. Lorsqu'elles ne sont pas vérifiées, les données manquantes peuvent involontairement affecter les performances des algorithmes d'apprentissage automatique. 

Prenons l'exemple d'une enquête sur les salaires dans laquelle certains participants ont omis d'indiquer leurs revenus, ce qui entraîne des données manquantes. Pour gérer cette situation, vous avez la possibilité d'exclure l'ensemble des réponses de ces participants, d'estimer leur revenu sur la base de facteurs tels que leur niveau d'études et leur profession, ou d'indiquer l'absence de données sur le revenu. Ces stratégies ne sont pas sans défaut, mais elles sont essentielles pour atténuer l'impact sur l'analyse globale des données. 

6. Valider les données nettoyées 

La dernière étape consiste à valider l'exactitude et la fiabilité de votre ensemble de données nettoyées. Pour ce faire, utilisez des scripts permettant de comparer l'ensemble des données à une base de données de référence ou idéale.

Avantages du data cleaning 

Voici quelques avantages notables du data cleaning : 

  • L'affinement des données dans les systèmes de gestion de la relation client et de vente améliore l'efficacité du marketing et des ventes.

  • Des données propres réduisent le risque de ruptures de stock, de livraisons incorrectes et d'autres problèmes commerciaux, ce qui permet de réaliser des économies.

  • L'élimination des erreurs récurrentes dans les ensembles de données grâce au data cleaning permet aux équipes informatiques de se concentrer sur des tâches stratégiques plutôt que sur la maintenance répétitive.

Les défis du data cleaning 

Les obstacles courants au data cleaning sont les suivants : 

  • Des dépôts de données séparés au sein d'une organisation peut entraver les processus de data cleaning.

  • Le data cleaning dans des systèmes complexes avec divers types de données, telles que des données structurées, semi-structurées et non structurées, est à la fois laborieux et coûteux.

  • L'ajout de valeurs manquantes n'est pas toujours possible.

Data cleaning et formatage de données brutes : Quelle est la différence ? 

Le data cleaning consiste à supprimer les données non pertinentes de votre ensemble de données, tandis que le formatage de données brutes consiste à convertir les données dans un format ou une structure différente. Le formatage de données brutes est également appelée « data wrangling ». 

Les deux méthodes ont des objectifs différents. Le data cleaning améliore la précision, tandis que le formatage de données brutes facilite la modélisation des données. En règle générale, le nettoyage précède le traitement des données. 

Le nettoyage automatisé des données est-il toujours avantageux ? 

Les outils de nettoyage automatisé des données peuvent accélérer vos analyses. Toutefois, malgré des solutions logicielles efficaces et rentables, il se peut que des processus manuels doivent persister dans vos flux de travail. En effet, l'automatisation est rarement une solution universelle. 

Prenons l'exemple d'un ensemble de données dont les dates de naissance sont manquantes. Malgré une formation poussée, les méthodes automatisées d'intelligence artificielle (IA) ou d’apprentissage automatique peuvent avoir du mal à prédire ou à combler ces lacunes avec précision. En revanche, un humain peut déduire les dates de naissance manquantes sur la base des données disponibles ou d'informations externes.

Commencez avec Coursera 

Approfondissez votre compréhension du data cleaning avec le cours Transformer des Données Sales en Propres de Google, disponible sur Coursera. Conçu pour les débutants, ce cours offre des instructions sur l'application des fonctions SQL de base pour le nettoyage des variables de chaîne dans une base de données.

Sources de l’article

  1. Gartner. « How to Improve Your Data Quality, https://www.gartner.com/smarterwithgartner/how-to-improve-your-data-quality. » Consulté le 6 juin 2024.

Continuer de lire

Mise à jour à
Écrit par :

Équipe éditoriale

L’équipe éditoriale de Coursera est composée de rédacteurs, de rédacteurs et de vérificateurs de fai...

Ce contenu a été mis à disposition à des fins d'information uniquement. Il est conseillé aux étudiants d'effectuer des recherches supplémentaires afin de s'assurer que les cours et autres qualifications suivis correspondent à leurs objectifs personnels, professionnels et financiers.