Séries statistiques   Imprimer   fermer cette fenêtre


Définition
Type de variables
Effectif
Fréquence
Histogramme
Polygone des effectifs cumulés croissants
Etendue
Mode
Moyenne
Variance et écart-type
Médiane
Quartile/Déciles
Interpolation linéaire
Diagramme de Tuckey
Fluctuation et échantillonnage
Courbes Gaussiennes


1°)Définition     retour

La statistique étudie certaines caractéristiques : caractères ou variables d'un ensemble fini appellé population. Les éléments de cette population étudiée sont appelés individus.



2°)Type de variables     retour


2.1°)Définition

Une variable peut être :
  • Quantitative : numérique et fait l'objet de calcul  ( âge, taille, poids, notes, nombres d'heures etc ...)
  • Qualitative : c'est le contraire de quantitative, mais la variable peut très bien être numérique.
  • Discrète : si la variable ne prend qu'un nombre fini de valeurs (ces valeurs sont appelées modalités et notées xi ) .
  • Continue : si la variable prend ses valeurs dans un intervalle (classe )

2.2°) Exemple

Supposons que l'on veut faire une étude statistique sur les 50 notes attribuées par un jury à un examen.

On dispose pour cette étude de la liste des notes obtenues :


On peut regrouper ces notes par ordre croissant :

0,1,1,2,2,3,3,3 ..., et construire le tableau suivant : ( dans ce cas la distribution est discrète )





Ou bien regrouper ces notes par intervalle ( classe ) :

( dans ce cas la distribution est continue )

Exemple de regroupement par classe :




3°)Effectif     retour

L'effectif d'une classe ou d'une modalité est le nombre d'individu de  cette classe ou de cette modalité. Généralement on note ni est l'effectif de la classe n°  i ( ou de la modalité xi ).

L'effectif total est la somme des effectifs de toutes les classes.
On le note souvent N, on a alors : N = n1 + n2 + n3 + n4 + n5 = 50 . En utilisant la notation sigma






4°)Fréquence     retour


4.1°) Définition

La fréquence fi de la classes i ou de la modalité xi est le rapport fi/N , la fréquence d'une classe est un nombre de l'intervalle [0 ;1]

L'effectif cumulé d'une modalité est la somme des effectifs des modalités qui lui sont inférieures ou égales 

La fréquence cumulée d'une modalité est la somme des fréquences des modalités qui lui sont inférieures ou égales 


4.2°) Exemples :

Dans le cas "variable discrète" on obtient :



  • 3 personnes ont une note inférieure ou égale à 1 .
  • 15 personnes ont une note inférieure ou égale à 6 .
  • 47 personnes ont une note inférieure ou égale à 18 .
  • etc...



Dans le cas "variable continue" on obtient :






5°) Histogramme     retour

Définition;

C'est la représentation d'une série groupée par classe en diagrammes en fonction du caractère étudié, sous forme de rectangle.

Exemple

Les tailles des élèves d'une classe de 2nde sont en cm :

174 160 161 166 177 172 157 175 162
169 160 165 170 152 168 156 163 167
169 158 164 151 162 166 156 165 179


Le regroupement par classes donne :

Tailles 150 ≤ t < 155 155 ≤ t < 160 160 ≤ t < 165 165 ≤ t < 170 170 ≤ t < 175 175 ≤ t < 180
Effectifs 2 4 7 8 3 3
Fréquences 7 15 26 30 11 11


L'effectif total est 27.
L'histogramme est donc :



6°) Polygone des effectifs cumulés croissants     retour

Définition;

C'est la représentation des effectifs cumulés croissant en fonction du caractère étudié, sous forme de portiosn de droites.

Exemple:

Le tableau des effectifs cumulés de l'exemple précédent est :

Tailles t < 155 t < 160 t < 165 t < 170 t < 175 t < 180
Effectifs cumulés croissants 2 6 13 21 24 27
Fréquences cumulées croissantes en % 7 22 48 78 89 100


  • Le pourcentage d'élèves dont la taille est inférieure à 170 cm est: 78 %.
  • Le pourcentage d'élèves dont la taille est comprise entre 160 cm et 170 cm est : 78 - 22 = 56 %.
  • le nombre d'élèves dont la taille est supérieure à 165 cm est: 27 - 13 = 14.


Le polygone des effectifs cumulés croissants est :


7°) Etendue d'une série statistique     retour

7.1°) Définition:

L'étendue d'une série statistique est la différence entre la plus grande modalité du caractère et la plus petite modalité.

7.2°) Exemple:



20 - 0 = 20, 
20 est l'étendue de ces deux séries ( continue et discrète )





8°) Mode d'une série statistique     retour

8.1°) Définition:

Dans le cas d'une série statistique continue, la classe modale est la classe du plus grand effectif :


8.2°) Exemple:





Sur cette exemple, la classe modale est donc


Dans le cas d'une série statistique discrète, le mode est la valeur de plus grand effectif : 


 


9°) Moyenne     retour


9.1°) Définition

  • n1, n2, n3, .........,nN sont les effectifs correspondants aux modalités x1, x2, x3, .........,xN., si la série est discrète ,
  • ou les centres de chaque classe, si la série est continue.

9.2°) Exemple:

Série discrète

Série continue

 


9.3°) Propriétés de la moyenne:
  • Considérons une série statistique S de modalités x1, x2, x3, .........,xN affectées des effectifs n1, n2, n3, ... ,nN de moyenne ,
    et la série statistique S' de modalités y1, y2, y3, ... ,yN affectées des même effectifs n1, ... ,nN telle que pour tout i appartenant à {1 ; 2 ; ... ; N } :
    yi = axi + b.


    Alors: la moyenne de la série statistique S' est telle que :
                     = a + b.



  • Soient S1 et S2 deux séries statistiques d'effectifs totaux respectifs N1 et N2 et de moyennes respectives et .
    Alors la moyenne de la série S regroupant les deux séries S1 et S2 est :
        = [N1 + N2 ]/(N1 + N2).   (cette propriété se généralise).






10°) Variance et écart type     retour


10.1°) Définition

   10.1.a°)


Pour calculer la variance d'une série statistique on utilise la formule :


Pour calculer la variance , il faut  calculer d'abord la moyenne.


   10.1.b°)

La variance peut être calculée aussi en utilisant la formule :



Preuve:





10.2°) Ecart-type:

L'écart-type est le nombre noté tel que : .

Le coefficient de dispersion est le rapport écart-type moyenne  : /x




10.3°) Propriété de l'écart type :


  • Considérons une série statistique S de modalités x1, x2, x3,...,xN affectées des effectifs n1, n2, n3, ...,nN d'écart type ,
    et la série statistique S' de modalités y1, y2, y3, ...,yN affectées des mêmes effectifs n1,n2,n3, ...,nN telle que, pour tout i appartenant à {1 ; 2 ; ...; N } :
    yi = axi + b.


    Alors l'écart type : de la série statistique S' est tel que : = |a|




11°) Médiane     retour

11.1°) Définition

La médiane est un paramètre de position, qui permet de couper la population étudiée en deux groupes contenant le même nombre d'individus.
Ce paramètre est utile pour donner la répartition du caractère étudié,
car 50 % environ de la population étudiée a une modalité inférieure à la médiane et 50 % une modalité supérieure à la médiane.


11.2°) Exemple

On fait une étude statistique sur les 50 notes attribuées par un jury à un examen, voici les résultats obtenus en classant ces notes par ordre croissant.

Variable discrète

Utilisons la colonne des effectifs cumulés pour déterminer la médiane : il y a 50 notes, la  25ème note est 9 et la 26ème : 10.

Voici la répartition des notes :

Dans le tableau il n'y a pas de valeur partageant la série statistique en deux groupe de même effectif , ( l'effectif total est pair ) dans ce cas l'intervalle médian est [9;10] et on prendre pour médiane le centre de cet intervalle : 9,5



Variable continue

Si la variable est continue ( regroupement par intervalle des résultats )  le calcul de la médiane se fait autrement :


Utilisons la colonne des effectifs cumulés pour déterminer la médiane : Il y a 50 notes, 50 % de l'effectif total c'est 25, la médiane est ici la note correspondant à l'effectif cumulé 25.

 

D'après la colonne "effectif cumulé" :
  • 18 personnes  ont moins de 8
  • 30 personnes ont moins de 12

La médiane se trouve donc dans l'intervalle [8;12[ ( appelé classe médiane ). On le détermine par interpolation linéaire.





Les points A, M, B sont alignés ce qui se traduit par les droites (AM) et (AB) ont même coefficient directeur (ou on utilise le théorème de Thalès dans le triangle bleu ) :

 





La médiane est environ 10,33

50 % environ des personnes ont eu moins de 10,33 et 50 % plus de 10,33 .





12°) Quartiles/Déciles     retour

12.1°) Quartiles:

Définition:

On appelle premier quartile d'une série la plus petite valeur q des termes de la série pour laquelle au moins un quart (25%) des données sont inférieures ou égales à q.

On appelle troisième quartile d'une série la plus petite valeur q' des termes de la série pour laquelle au moins trois quarts (75%) des données sont inférieures ou égales à q'.

On appelle intervalle interquartile l'intervalle [q ; q'].

On appelle écart interquartile l'amplitude de l'intervalle [q ; q'], c'est-à-dire le nombre  q' - q.



Exemple:

La recherche des quartiles sera plus facile si les termes de la suite sont ordonnés.

La série     11 , 12 , 12 , 13 , 15 , 16 , 16 , 17 , 17 , 18 , 19 , 20 , 22 , 23     a  14 termes.

Un quart (25%) des données correspond à :  14 x 0,25 = 3,5.

Le premier quartile est alors, par définition, la plus petite valeur q pour laquelle les valeurs de 4 termes de la série sont inférieurs ou égales à q.

Le premier quartile est donc la valeur du 4ème terme de la série c'est-à-dire 13.

Trois quarts (75%) des données correspondent à :  14 x 0,75 = 10,5.

Le troisième quartile est alors, par définition, la plus petite valeur q' pour laquelle les valeurs de 11 termes de la série sont inférieurs ou égales à q'.

Le troisième quartile est donc la valeur du 11ème terme de la série c'est-à-dire 19.

L'intervalle interquartile est  [13 ; 19].   L'écart interquartile est  19 - 13 = 6.



12.2°) Déciles:

Définition:

On appelle premier décile d'une série la plus petite valeur d des termes de la série pour laquelle au moins un dixième (10%) des données sont inférieures ou égales à d.

On appelle neuvième décile d'une série la plus petite valeur d' des termes de la série pour laquelle au moins neuf dixièmes (90%) des données sont inférieures ou égales à d'.

On appelle intervalle interdécile l'intervalle [d ; d'].

On appelle écart interdécile l'amplitude de l'intervalle [d ; d'], c'est-à-dire le nombre  d' - d.



Exemple:

La recherche des quartiles sera plus facile si les termes de la suite sont ordonnés.

La série  4, 5, 5, 5, 6, 6, 7, 8, 8, 9, 9, 9, 9, 10, 10, 11, 11, 11, 12, 13, 13, 13, 14, 14, 15, 15, 17  a  27 termes.

Un dixième (10%) des données correspond à :  27 x 0,10 = 2,7.

Le premier décile est alors, par définition, la plus petite valeur d pour laquelle les valeurs de 3 termes de la série sont inférieurs ou égales à d.

Le premier décile est donc la valeur du 3ème terme de la série c'est-à-dire 5.

Neuf dixièmes (90%) des données correspondent à :  27 x 0,9 = 24,3.

Le neuvième décile est alors, par définition, la plus petite valeur d' pour laquelle les valeurs de 25 termes de la série sont inférieurs ou égales à d'.

Le neuvième décile est donc la valeur du 25ème terme c'est-à-dire 15.

L'intervalle interdécile est  [5 ; 15].       L'écart interdécile est  15 - 5 = 10.

 





13°) Interpolation linéaire     retour


13.1°) Définition:

Soit f une fonction définie sur , [a; b] un intervalle de et c un nombre réel . Quand il n'est pas possible de calculer l'image de c par f , on utilise une interpolation linéaire, cela consiste à remplacer f(c) par g(c) ou g est la fonction affine telle que : g(a) = f(a) et g(b) = f(b)

Cela consiste à remplacer la courbe représentative de f sur [a; b] par la droite (AB)  ( On dit que l'on a déterminé f(c) par interpolation linéaire.




13.2°) Exemple:

L'interpolation linéaire est utilisée surtout en statistique

Le mieux est de comprendre sur un exemple :
.

Supposons que l'on étudie la répartition des âges dans une association par exemple.
D'après le tableau ci-dessus on a : 
  • 14 personnes qui ont un âge compris entre 0 et 10 ans
  • 32 personnes qui ont un âge compris entre 10 et 20 ans
  • etc...
La colonne des effectifs cumulés croissants nous permet de savoir que :
  • 14 personnes ont un âge inférieur à 10 ans
  • 46 personnes ont un âge inférieur à 20 ans
  • etc...
Supposons maintenant que l'on a ordonné ces personnes par ordre croissant de leur âge ( du plus jeunes au plus vieux) et que l'on veuille trouver par interpolation l'âge de la 72 ème personne.
On repère à l'aide de la colonne des effectifs cumulés croissants dans quelles tranches d'âge ce trouve cette personne.


La 72 ème personne a entre 20 et 30 ans c'est sûr , mais cela ne suffit pas ...

On considérant que les 55 personnes de la tranche [20;30[ sont réparties de manière proportionnelle :
  • la 46ème personne a moins de 20 ans, faisons comme si elle en avait 20 
  • la 101 ème personne a moins de 30 ans faisons comme si elle en avait 30

Ces deux schémas ci-dessous devraient vous aider à comprendre :






Utilisons Le théorème de Thalès dans le triangle bleu.

La 72 ème personne a presque 25 ans.





14°) Diagrammes en boîtes     retour



14.1°) Construction d'un diagramme en boîte:

Ce type de diagramme est aussi appelé diagramme de Tuckey, boîte à moustaches ou boîte à pattes.

Il utilise le 1er et le 3ème quartile, les valeurs extrêmes, le 1er et le 9ème décile et éventuellement la médiane d'une série.

 

La construction ci-contre est faite pour la série de l'exercice 5  (tailles en cm pour des enfants de 68 mois).

Cette série était caractérisée par :

médiane : 113

1er quartile : 110                        3ème quartile : 117

1er décile : 108                          9ème décile : 119




On choisit une graduation verticale permettant de représenter les différentes valeurs de la série.

On pourra par exemple graduer entre 90 et 130.

(Si certaines valeurs sont manifestement hors normes, on n'en tiendra pas compte.)

Le "corps" du diagramme, c'est-à-dire la "boîte" est formée d'un rectangle ayant pour extrémité inférieure le 1er quartile et pour extrémité supérieure le 3ème quartile. A l'intérieur de ce rectangle on pourra tracer un segment représentant la médiane.

La largeur du rectangle n'est pas fixée, elle sera choisie de façon à obtenir un graphique "harmonieux".

Ce rectangle représente les données contenues dans l'intervalle interquartile.


On repère ensuite les hauteurs correspondant au 1er et au 9ème décile, et on trace deux pattes représentant les données contenues dans l'intervalle interdécile.



(la largeur des pattes n'a pas d'importance).

 

 

 


On peut ensuite terminer le graphique, en faisant figurer par des points les données qui sont en dehors de l'intervalle interdécile.

Si certaines données, sont manifestement très éloignées, on ne les représentera pas, mais on écrira leurs valeurs  au dessous du diagramme.



Remarques:

Une boîte avec des "pattes" courtes indique que la série est assez concentrée autour de sa médiane.

Au contraire des "pattes" longues indique que la série est assez dispersée.

 

Un des avantages de cette représentation, est qu'elle nécessite très peu de calculs.

 

La représentation peut aussi se faire horizontalement, la graduation se trouvant alors sur l'axe horizontal, d'où l'appellation de "boîte à moustaches".

 

Le graphique est parfois fait en dessinant des pattes correspondant au 1er et au 99ème centile, ou même aux valeurs extrêmes.



 






15°) Fluctuation et échantillonnage     retour

15.1°) Echantillon:

Définition:



Remarques:



Exemples:





15.2°) Fluctuation d'un échantillonnage:

Définition:



Exemple:





15.3°) Intervalle de fluctuation:

Définition:



Exemple:



Propriété:



Remarque:



Exemple:





15.4°) Intervalle de confiance:

Définition:



Propriété: