«

»

Déc 09

Nombre de classes d’un histogramme

Le problème du choix du nombre de classes d’un histogramme est un problème qui a depuis longtemps motivé les théoriciens de la statistique et qui continue à faire l’objet régulièrement de nouvelles propositions théoriques.

Schématiquement on constate trois approches de complexité et de précision croissante :

  1. le choix du nombre de classes,
  2. le choix de la largeur des classes,
  3. l’optimisation d’un critère global de qualité.

Les approches proposées relèvent :

  • de l’empirisme plus ou moins argumenté
  • de développements théoriques asymptotiques
  • de processus itératifs plus ou moins complexes

Notre choix stratégique est toujours celui de la simplicité efficace et donc nous préconisons d’utiliser une formule qui a été proposée en s’appuyant sur trois aspects :

  • compatibilité avec les résultats asymptotiques d’où une formule en n13
  • flexibilité pour permettre un réglage manuel d’où un intervalle plus qu’une valeur précise
  • confrontation visuelle expérimentale pour des données simulées

La formule proposée est la formule dite de Dhorne :

nchist0x

E désigne la partie entière, n la taille de la série statistique (nombre de valeurs) et nc le nombre de classes.

On peut remarquer que cette formule se distingue des formules classiques en √n ou ln(n), mais encadre
la formule de Rice :

nchist2x

et est très proche des formules de Scott et de Freedmann-Diaconis qui proposent respectivement des
largeurs de classes :

nchist3x

où s est l’écart-type et IQR l’intervalle interquartile de la série.

À titre d’exemple, pour une série de 30 observations, la formule de Dhorne fournit un nombre de classes compris entre 4 et 7. Si l’on souhaite réaliser une étude sérieuse on regardera donc les histogrammes à 4, 5, 6 et 7 classes. En première approche, on pourra se contenter des deux valeurs centrales 5 et 6 et éventuellement étudier 4 ou 7.