Prétraitement des données : explorer les clés de la préparation des données — SitePoint
Dans cet article, nous explorerons ce qu'est le prétraitement des données, pourquoi il est important et comment nettoyer, transformer, intégrer et réduire nos données.
Prétraitement des données est une étape fondamentale dans l’analyse des données et l’apprentissage automatique. Il s'agit d'un processus complexe qui prépare le terrain pour le succès de toute entreprise basée sur les données.
À la base, le prétraitement des données englobe un éventail de techniques permettant de transformer des données brutes et non raffinées en un format structuré et cohérent, propice à une analyse et une modélisation approfondies.
Cette phase préparatoire vitale constitue l’épine dorsale de l’extraction de connaissances et de sagesse précieuses à partir des données, renforçant ainsi la prise de décision et la modélisation prédictive dans divers domaines.
Le besoin de prétraitement des données découle des imperfections et de la complexité inhérentes aux données du monde réel. Souvent acquises à partir de différentes sources, les données brutes ont tendance à être truffées de valeurs manquantes, de valeurs aberrantes, d'incohérences et de bruit. Ces défauts peuvent entraver le processus analytique, mettant en danger la fiabilité et l’exactitude des conclusions tirées. De plus, les données collectées à partir de différents canaux peuvent varier en termes d'échelles, d'unités et de formats, ce qui rend les comparaisons directes ardues et potentiellement trompeuses.
Le prétraitement des données implique généralement plusieurs étapes, notamment le nettoyage des données, la transformation des données, l'intégration des données et la réduction des données. Nous explorerons chacun d’eux tour à tour ci-dessous.
Nettoyage des données implique d’identifier et de corriger les erreurs, les incohérences et les inexactitudes dans les données. Certaines techniques standard utilisées dans le nettoyage des données incluent :
Discutons tour à tour de chacune de ces techniques de nettoyage de données.
La gestion des valeurs manquantes est une partie essentielle du prétraitement des données. Les observations avec des données manquantes sont traitées selon cette technique. Nous aborderons trois méthodes standard pour gérer les valeurs manquantes : supprimer les observations (lignes) avec des valeurs manquantes, imputer les valeurs manquantes avec les outils statistiques et imputer les valeurs manquantes avec des algorithmes d'apprentissage automatique.
Nous démontrerons chaque technique avec un ensemble de données personnalisé et expliquerons le résultat de chaque méthode, en discutant individuellement de toutes ces techniques de gestion des valeurs manquantes.
Le moyen le plus simple de gérer les valeurs manquantes consiste à supprimer les lignes contenant des valeurs manquantes. Cette méthode n'est généralement pas recommandée, car elle peut affecter notre ensemble de données en supprimant les lignes contenant des données essentielles.
Comprenons cette méthode à l'aide d'un exemple. Nous créons un ensemble de données personnalisé avec des données sur l'âge, le revenu et l'éducation. Nous introduisons les valeurs manquantes en définissant certaines valeurs sur NaN (pas un nombre). NaN est une valeur à virgule flottante spéciale qui indique un résultat non valide ou indéfini. Les observations avec NaN seront supprimées à l'aide de la fonction dropna() de la bibliothèque Pandas :
Le résultat du code ci-dessus est donné ci-dessous. Notez que la sortie ne sera pas produite sous forme de tableau avec bordure. Nous le fournissons dans ce format pour rendre le résultat plus interprétable, comme indiqué ci-dessous.
Ensemble de données d'origine
Ensemble de données nettoyé
Les observations avec des valeurs manquantes sont supprimées dans l'ensemble de données nettoyé, de sorte que seules les observations sans valeurs manquantes sont conservées. Vous constaterez que seules les lignes 0 et 4 se trouvent dans l'ensemble de données nettoyé.
La suppression de lignes ou de colonnes avec des valeurs manquantes peut réduire considérablement le nombre d'observations dans notre ensemble de données. Cela peut affecter la précision et la généralisation de notre modèle d'apprentissage automatique. Par conséquent, nous devons utiliser cette approche avec prudence et uniquement lorsque nous disposons d’un ensemble de données suffisamment grand ou lorsque les valeurs manquantes ne sont pas essentielles à l’analyse.
Il s’agit d’une manière plus sophistiquée de gérer les données manquantes que la précédente. Il remplace les valeurs manquantes par certaines statistiques, telles que la moyenne, la médiane, le mode ou la valeur constante.
Cette fois, nous créons un ensemble de données personnalisé avec des données sur l'âge, le revenu, le sexe et l'état civil avec quelques valeurs manquantes (NaN). Nous imputons ensuite les valeurs manquantes avec la médiane en utilisant la fonction fillna() de la bibliothèque Pandas :