Qu'est-ce qu'une valeur aberrante en sciences des données?

Écrit par Coursera Staff • Mise à jour à

Les valeurs aberrantes sont des points de données qui se situent anormalement en dehors du reste des valeurs d'un certain ensemble de données. Apprenez ce que sont les valeurs aberrantes, comment les identifier et les traiter dans un ensemble de données.

[Image en vedette] Une scientifique souriante analyse des données comportant des valeurs aberrantes à son bureau et des graphiques sont affichés sur ses écrans d'ordinateur.

Read in English (Lire en Anglais).

Alors que la science des données continue de se développer en tant que domaine, il est essentiel de comprendre le concept de valeurs aberrantes pour pouvoir analyser et interpréter les données avec précision. Dans cet article, nous allons examiner ce qu’est une valeur aberrante, le rôle qu'elle joue dans l'analyse des données, les méthodes que vous pouvez utiliser pour définir les valeurs aberrantes et la manière de les traiter une fois que vous les avez identifiées.

Qu'est-ce qu'une valeur aberrante ?

Les valeurs aberrantes sont des points de données qui se situent en dehors de la majorité des données d'un ensemble particulier de données. Ces valeurs peuvent être beaucoup plus ou moins élevées que les autres points et peuvent avoir un impact sur les résultats de l'analyse des données de manière à donner une image erronée de l'échantillon de données. En apprenant à identifier et à traiter les valeurs aberrantes, les analystes de données peuvent augmenter la probabilité que leur analyse reflète avec précision la validité et la fiabilité de leurs résultats. 

Le rôle des valeurs aberrantes dans l'analyse des données

Les valeurs aberrantes jouent un rôle important dans l'analyse des données, variant en fonction de l'origine et de l'impact de l'analyse. Par exemple, dans certains domaines, les valeurs aberrantes peuvent fournir des informations sur des événements rares qui peuvent indiquer la nécessité d'une analyse plus approfondie. Dans le secteur de la santé, un point de données aberrant peut représenter une personne avec un ensemble de symptômes ou un schéma de récupération anormal. Cela pourrait indiquer que vous devriez mener des études supplémentaires sur des patients présentant des caractéristiques similaires pour voir s'ils obtiendraient des résultats similaires. 

Dans d'autres cas, les valeurs aberrantes peuvent représenter des sources d'erreurs. Les imprécisions de mesure, les fautes de frappe ou d'autres facteurs peuvent introduire dans l'ensemble de données un bruit qui n'est pas représentatif des données réelles. La présence de valeurs aberrantes dans les ensembles de données peut également indiquer une mauvaise qualité des données, comme une collecte de données biaisée ou un processus de collecte de données incomplet. S'il y a eu des erreurs systématiques lors de la collecte des données, vous devrez prendre une décision éclairée sur la meilleure façon de procéder. 

Comment repérer les valeurs aberrantes 

Plusieurs méthodes de détection peuvent vous permettre de repérer les valeurs aberrantes dans les données. En fonction de votre rôle et de l'objectif de la détection des valeurs aberrantes, vous pouvez opter pour plusieurs méthodes différentes. Voici quelques-unes des méthodes que vous pouvez choisir 

Tri des données 

En triant vos données par ordre croissant ou décroissant, vous pouvez constater que certains points de données sont beaucoup plus élevés ou plus bas que d'autres. Par exemple, si vous disposez de l'ensemble de données suivant :

1, 1, 3, 4, 5, 5, 102

Vous déterminerez sûrement que 102 est une valeur aberrante. Vous devriez alors examiner de plus près ce que les points de données représentent afin d'identifier la source du point de données aberrant. 

Visualisation des données 

Une autre façon de déterminer si votre ensemble de données comporte des valeurs aberrantes consiste à visualiser les données. Pour ce faire, vous pouvez représenter votre ensemble de données sous forme de graphique. Vous pouvez choisir le type de représentation graphique que vous préférez, mais les diagrammes de dispersion et les histogrammes sont deux options courantes pour identifier les valeurs aberrantes. 

Les histogrammes affichent les données dans des « cases » qui représentent des segments de données. Chaque case représente le nombre de points de données qui correspondent à une valeur spécifique ou qui se situent dans une fourchette de valeurs. Cela peut vous permettre de savoir si un point de données se situe en dehors de la fourchette. Par exemple, si vous avez des cellules hautes entre les valeurs 10 et 30, puis une cellule courte à une valeur de 200, vous pouvez examiner de plus près la valeur 200. 

Les diagrammes de dispersion représentent les valeurs sur un graphique standard avec un axe des x et un axe des y. Ils mettent en évidence les valeurs aberrantes en montrant les valeurs les plus élevées. Ils mettent en évidence les valeurs aberrantes en montrant le regroupement de la majorité des points dans une grappe. Si un point est très différent du reste de la grappe, il s'agit d'une valeur aberrante. 

Intervalle interquartile 

L'évaluation de l'intervalle interquartile (IQR) d'un ensemble de données est un autre moyen de détecter les valeurs aberrantes. Vous calculez l'IQR en soustrayant la valeur du premier quartile (Q1) de celle du troisième quartile (Q3). Vous pouvez visualiser ce résultat à l'aide de diagrammes en boîte, que vous dessinez en créant une boîte le long de l'axe des y. Le bas de la boîte représente la valeur du premier quartile (Q1)et le haut de la boîte à la valeur du troisième quartile des données. 

Dans l'ensemble des données, 25 pour cent se situent en dessous du premier quartile (Q1) et 75 pour cent se situent en dessous du troisième quartile (Q3). Les valeurs aberrantes sont souvent définies comme des valeurs inférieures à Q1 - 1,5 (IQR) ou supérieures à Q3 + 1,5 (IQR). 

Score Z 

Pour les données qui suivent une distribution normale, les scores Z peuvent être un moyen de déterminer la distance entre un point de données et la moyenne de l'ensemble de données. Une distribution normale indique que les données suivent une courbe en forme de cloche. Le score Z est le nombre d'écarts types (une mesure de la variance) qui séparent un point de la moyenne. Dans la plupart des cas, un score supérieur à trois indique une valeur aberrante. Avant d'opter pour cette méthode de détection, il est important de vérifier que vos données suivent une distribution normale. Lorsque vos données suivent une distribution normale, 68 pour cent des points de données se situent à moins d'un écart-type de la moyenne et 95 pour cent se situent entre deux écarts-types de la moyenne. 

Comment traiter les valeurs aberrantes 

Après avoir identifié les valeurs aberrantes dans votre ensemble de données, l'étape suivante consiste à déterminer la meilleure manière de les traiter. Pour ce faire, vous pouvez envisager plusieurs options :

  • Supprimer ou corriger les valeurs aberrantes : Si vous constatez que les valeurs aberrantes sont dues à des erreurs de mesure, il peut être utile de les supprimer de l'ensemble de données ou de les corriger si possible. Il convient toutefois de procéder avec précaution afin d'éviter tout biais ou toute représentation erronée de l'échantillon. 

  • Appliquer des transformations de données : Les transformations logarithmiques, de racine carrée ou inverses peuvent contribuer à réduire l'influence des valeurs aberrantes sur l'analyse. Ces transformations stabilisent souvent la variance des données et les rendent plus adaptées à certains tests statistiques. 

  • Utiliser des méthodes statistiques robustes : L'utilisation de méthodes d'analyse moins sensibles aux valeurs aberrantes, comme le choix de la médiane de votre ensemble de données au lieu de la moyenne, peut conduire à des résultats plus fiables sans avoir besoin d'éliminer les valeurs aberrantes. 

Apprenez-en plus sur la science des données avec Coursera

Vous pouvez développer vos compétences statistiques grâce à des cours en ligne sur des plateformes d'apprentissage telles que Coursera. Pour apprendre les bases des valeurs aberrantes et de l'analyse des données, envisagez de suivre le cours d'Introduction à l'analyse des données d'IBM ou de compléter Certificat Professionnel Google Data Analytics.

Continuer de lire

Mise à jour à
Écrit par :

Équipe éditoriale

L’équipe éditoriale de Coursera est composée de rédacteurs, de rédacteurs et de vérificateurs de fai...

Ce contenu a été mis à disposition à des fins d'information uniquement. Il est conseillé aux étudiants d'effectuer des recherches supplémentaires afin de s'assurer que les cours et autres qualifications suivis correspondent à leurs objectifs personnels, professionnels et financiers.