«

»

Déc 06

Validation des données

L’étape de validation des données a pour objectif de passer des données brutes c’est-à-dire des données telles qu’elles ont été acquises ou qu’elles existent dans les bases de données à des données validées c’est-à-dire ayant des caractéristiques compatibles avec le domaine d’étude. Cette étape a pour but de garantir une qualité minimale des données avant toute analyse ultérieure. La qualité des données est en effet un objectif à atteindre dans la mesure où elle influence plus, de l’avis des spécialistes, la qualité de la connaissance ou l’efficacité des décisions que les analyses elles-même. Cette validation des données utilise des outils statistiques mais aussi du bons sens et une bonne capacité de jugement.

Pour chaque variable étudiée, il convient de valider le type qui est identifié lors de l’enregistrement des données (souvent par le logiciel) et éventuellement de le modifier.

  1. Validation des variables quantitatives
    Pour les variables quantitatives, on valide les valeurs extrêmes qui doivent être compatibles avec celles définies a priori (une autre identification des données atypiques d’un point de vue statistique sera réalisée plus tard). Au besoin, on se retourne vers le spécialiste du domaine. Il faut aussi s’intéresser à la précision des données au sens où les variables sous-jacentes continues peuvent être arrondies de manière trop violente, ce qui est parfois préjudiciable à une analyse statistique efficace. La variable pointure par exemple est souvent arrondie à l’unité classique alors qu’une mesure précise du pied devrait conduire à une précision de l’ordre du millimètre. Pour étudier avec rigueur la précision des mesures on pourra utiliser un diagramme digital et/ou un diagramme tronc et feuille
  2. Validation des variables qualitatives
    Pour les variables qualitatives, on identifie le nombre de modalités et les valeurs extrêmes d’effectifs par modalité. On visera à ne pas avoir trop de modalités (pas plus d’une dizaine et si possible moins de 5-6) sinon on pourra fusionner les modalités ou utiliser des variables quantitatives sous-jacente. De la même manière, on veillera à ce que chaque modalité soit correctement représentée (plus de 5 observations et de 10 % des observations).
  3. Validation des variables caractères
    Pour les variables caractères, on identifiera les erreurs de transcription et on tentera de normaliser le lexique.