Le problème du choix du nombre de classes d’un histogramme est un problème qui a depuis longtemps motivé les théoriciens de la statistique et qui continue à faire l’objet régulièrement de nouvelles propositions théoriques.
Schématiquement on constate trois approches de complexité et de précision croissante :
- le choix du nombre de classes,
- le choix de la largeur des classes,
- l’optimisation d’un critère global de qualité.
Les approches proposées relèvent :
- de l’empirisme plus ou moins argumenté
- de développements théoriques asymptotiques
- de processus itératifs plus ou moins complexes
Notre choix stratégique est toujours celui de la simplicité efficace et donc nous préconisons d’utiliser une formule qui a été proposée en s’appuyant sur trois aspects :
- compatibilité avec les résultats asymptotiques d’où une formule en n1∕3
- flexibilité pour permettre un réglage manuel d’où un intervalle plus qu’une valeur précise
- confrontation visuelle expérimentale pour des données simulées
La formule proposée est la formule dite de Dhorne :
où E désigne la partie entière, n la taille de la série statistique (nombre de valeurs) et nc le nombre de classes.
On peut remarquer que cette formule se distingue des formules classiques en √n ou ln(n), mais encadre
la formule de Rice :
et est très proche des formules de Scott et de Freedmann-Diaconis qui proposent respectivement des
largeurs de classes :
où s est l’écart-type et IQR l’intervalle interquartile de la série.
À titre d’exemple, pour une série de 30 observations, la formule de Dhorne fournit un nombre de classes compris entre 4 et 7. Si l’on souhaite réaliser une étude sérieuse on regardera donc les histogrammes à 4, 5, 6 et 7 classes. En première approche, on pourra se contenter des deux valeurs centrales 5 et 6 et éventuellement étudier 4 ou 7.