«

»

Nov 27

Du bon usage des tableaux de fréquences

Le tableau de fréquences a fort probablement été le tout premier outil statistique utilisé dans l’histoire, ainsi que dans les cours de statistiques traditionnels. S’il reste aujourd’hui un intermédiaire informationnel utile, il convient cependant d’insister sur le fait qu’il a perdu une grande partie de son intérêt avec l’avènement de l’informatique moderne.

Le tableau de fréquences : outil de stockage (papier).

La première qualité d’un tableau de fréquences est de résumer les données en fournissant une information synthétique. Dès lors c’est à la fois un outil d’aide à la compréhension, mais aussi un outil qui permet de compresser les données du strict point de vue de la volumétrie. Le premier aspect est plus intéressant conceptuellement, mais le second est plus intéressant pratiquement. Et, en réalité, c’est pendant longtemps le second aspect qui a pris le dessus ; l’intérêt majeur du tableau de fréquences a résidé dans le fait qu’il permettait de stocker l’information en réduisant l’espace de stockage.

Si l’on considère par exemple l’un des jeux de données de notre site : les 647 footballeurs africains de l’élite européenne, on peut regarder la variable caractérisant la taille des joueurs en m. Les données sont les suivantes (en éliminant les données manquantes) :
1.79 1.75 1.80 1.84 1.86 1.77 1.84 1.86 1.76 1.87 1.73 1.75 1.79 1.80 1.83 1.78 1.90 1.74 1.78
1.84 1.80 1.73 1.85 1.80 1.80 1.76 1.79 1.79 1.75 1.72 1.75 1.75 1.71 1.83 1.86 1.65 1.82 1.90
1.77 1.92 1.73 1.84 1.76 1.83 1.77 1.90 1.90 1.83 1.76 1.87 1.74 1.80 1.85 1.83 1.79 1.85 1.82
1.86 1.72 1.78 1.87 1.75 1.72 1.77 1.80 1.78 1.79 1.84 1.72 1.80 1.78 1.71 1.80 1.80 1.87 1.80
1.70 1.93 1.84 1.77 1.72 1.75 1.71 1.80 1.82 1.83 1.79 1.73 1.75 1.66 1.80 1.90 1.76 1.75 1.84
1.81 1.74 1.86 1.76 1.84 1.88 1.96 1.76 1.86 1.83 1.81 1.80 1.79 1.78 1.83 1.83 1.81 1.80 1.92
1.69 1.72 1.95 1.78 1.80 1.92 1.82 1.82 1.72 1.71 1.81 1.86 1.77 1.88 1.76 1.77 1.90 1.80 1.78
1.81 1.74 1.85 1.85 1.80 1.83 1.79 1.75 1.81 1.68 1.85 1.80 1.78 1.84 1.90 1.83 1.74 1.87 1.86
1.70 1.75 1.72 1.90 1.79 1.70 1.98 1.89 1.78 1.82 1.78 1.78 1.78 1.81 1.77 1.84 1.70 1.77 1.84
1.73 1.80 1.83 1.80 1.65 1.77 1.77 1.77 1.75 1.80 1.86 1.78 1.77 1.77 1.79 1.80 1.83 1.75 1.77
1.70 1.78 1.87 1.86 1.80 1.85 1.80 1.73 1.74 1.78 1.77 1.85 1.91 1.86 1.70 1.85 1.75 1.72 1.90
1.83 1.76 1.80 1.69 1.82 1.77 1.78 1.70 1.80 1.88 1.85 1.77 1.76 1.78 1.60 1.80 1.74 1.84 1.78
1.70 1.68 1.85 1.78 1.83 1.64 1.87 1.78 1.73 1.68 1.70 1.79 1.70 1.81 1.84 1.78 1.77 1.97 1.66
1.82 1.81 1.73 1.82 1.82 1.85 1.68 1.71 1.87 1.83 1.72 1.82 1.83 1.83 1.82 1.85 1.84 1.81 1.80
1.85 1.80 1.66 1.72 1.78 1.87 1.77 1.80 1.75 1.65 1.72 1.75 1.80 1.84 1.93 1.92 1.87 1.77 1.83
1.76 1.90 1.86 1.83 1.81 1.83 1.73 1.83 1.81 1.83 1.79 1.80 1.86 1.98 1.85 1.85 1.82 1.77 1.77
1.77 1.71 1.79 1.84 1.84 1.78 1.67 1.75 1.75 1.85 1.86 1.87 1.83 1.77 1.72 1.80 1.83 1.80 1.75
1.81 1.80 1.75 1.88 1.75 1.86 1.76 1.78 1.90 1.96 1.80 1.87 1.80 1.89 1.77 1.73 1.89 1.70 1.86
1.73 1.86 1.90 1.83 1.84 1.72 1.80 1.97 1.73 1.85 1.80 1.78 1.80 1.83 1.89 1.88 1.89 1.82 1.80
1.82 1.77 1.81 1.80 1.93 1.87 1.78 1.81 1.67 1.93 1.79 1.82 1.79 1.74 1.80 1.80 1.78 1.75 1.83
1.85 1.76 1.79 1.70 1.70 1.76 1.70 1.90 1.75 1.85 1.78 1.78 1.82 1.77 1.80 1.86 1.82 1.84 1.72
1.75 1.78 1.79 1.82 1.80 1.73 1.70 1.80 1.90 1.90 1.90 1.86 1.79 1.85 1.92 1.88 1.85 1.92 1.82
1.83 1.84 1.73 1.79 1.80 1.84 1.93 1.82 1.83 1.83 1.81 1.87 1.90 1.93 1.87 1.73 1.84 1.82 1.81
1.72 1.86 1.85 1.77 1.83 1.87 1.83 1.85 1.88 1.83 1.86 1.86 1.90 1.88 1.75 1.80 1.80 1.78 1.75
1.78 1.78 1.80 1.87 1.80 1.92 1.85 1.81 1.83 1.86 1.76 1.80 1.97 1.85 1.74 1.80 1.90 1.82 1.87
1.87 1.75 1.78 1.93 1.84 1.77 1.85 1.91 1.75 1.77 1.75 1.74 1.94 1.88 1.80 1.80 1.71 1.56 1.79
1.83 1.76 1.74 1.68 1.80 1.80 1.78 1.81 1.91 1.83 1.78 1.75 1.89 1.80 1.76 1.96 1.82 1.83 1.74
1.81 1.73 1.87 1.75 1.79 1.83 1.90 1.90 1.80 1.84 1.74 1.92 1.86 1.79 1.70 1.70 1.76 1.90 1.82
1.72 1.82 1.79 1.79 1.80 1.91

On comprend sur cet exemple que la présentation et le stockage de telles données « consomme » un peu de place et donc qu’il peut être judicieux de concentrer l’information à l’instar de ce qui est fait dans le tableau suivant :

Tableau de fréquences de la taille des footballeurs
1.56-1.58 1.58-1.60 1.60-1.62 1.62-1.64 1.64-1.66 1.66-1.68 1.68-1.70 1.70-1.72 1.72-1.74 1.74-1.76 1.76-1.78
1 1 0 1 6 7 19 24 29 49 68
1.78-1.80 1.80-1.82 1.82-1.84 1.84-1.86 1.86-1.88 1.88-1.90 1.90-1.92 1.92-1.94 1.94-1.96 1.96-1.98
87 46 63 51 29 28 12 8 4 5

Il est clair que l’on s’est éloigné des données et que l’on dispose maintenant d’une information exploitable : c’est l’intérêt du tableau de fréquences. Mais on constate aussi, comme nous l’avons évoqué, une forte compression de l’information : c’est un effet de bord important de cet outil. Ceci explique qu’avant l’avènement de l’informatique et des bases de données, on ait été amené à utiliser les tableaux de fréquences pour stocker l’information, en particulier sur un support papier. Cette pratique, justifiée dans les années 60-70, n’a absolument plus lieu d’être aujourd’hui. En effet, comme on le voit sur le tableau précédent, dans le cas présent, il y a une réduction d’information puisque la précision initiale du centimètre et réduite au double-centimètre. Dans certains cas, lorsque la plage de variation de la variable est beaucoup plus grande, il peut y avoir une réduction plus importante, ce qui explique pourquoi, il n’est plus judicieux aujourd’hui de stocker l’information sous forme de tableaux de fréquences.

En résumé, le tableau de fréquences est un outil statistique intéressant, mais il ne doit en aucun cas, être utilisé pour stocker les données initiales qui doivent être archivées dans des bases de données sous la forme la plus précise possible.