Aujourd'hui, on continue de parler de chiffres. Cette fois, on a va essayer de faire de la statistique tout en douceur !
Il est courant de vouloir prouver un lien entre deux choses : par exemple, ≪ les OGM sont-ils mauvais pour la sante ? ≫, ≪ ce medicament soigne-t-il vraiment ? ≫ ou encore ≪ cette piece de monnaie est elle equilibree entre ses deux faces ? ≫.
En sciences, on cherche a prouver en general, et pas sur un cas particulier. Par exemple, si je dis ≪ je suis centenaire car je mange beaucoup de plats avec de l'huile d'olive ≫, il s'agit au mieux d'une anecdote : rien ne prouve que quelqu'un avec le meme regime deviendra lui aussi centenaire
.
Mais comment prouver en general ? Prenons un exemple concret, avec une piece de monnaie : on voudrait savoir si elle est equilibree ou non (considerons qu'une piece desequilibree fera plus souvent pile que face par exemple).
Je lance ma piece une fois, elle fait pile. Puis-je en conclure qu'elle est desequilibree en faveur de pile ? Evidemment que non !
Je relance ma piece, j'obtiens pile a nouveau. Puis-je en conclure quelque chose ?
Intuitivement, on comprend que si je lance ma piece 1 000 fois et obtient pile 950 fois, il y aura un probleme, mais ou placer la limite ?
Si je fais pile 600 fois, est-ce desequilibre ou simplement du au dieu des aleas et du hasard ? 550 fois ? 505 fois ?
Comme on le voit, des que l'on joue avec le hasard, il est difficile de se prononcer. Apres tout, a strictement parler, une piece equilibree pourrait bien faire pile cent fois de suite. C'est possible, mais tres tres improbable !
Et c'est la qu'est la cle ! Les etudes vont comparer une population de reference (des gens qui ne mangent pas d'OGM, des gens qui ne prennent pas de medicament, une piece equilibree) et regarder les differences avec l'individu compare (ou la population).
Pour definir cette population de reference, on a besoin d'exemples concrets sur le comportement habituel qui nous permettront ensuite de comparer avec ce que l'on etudie. Prenons donc mille pieces equilibrees, et lancons-les
chacune
mille fois : cela nous donne de bons exemples du comportement normal d'une piece classique. On note les resultats en fonction du nombre de fois que l'on a vu le cote pile : on devrait obtenir une
distribution
centree autour de 500 : en moyenne, la plupart des pieces auront autant de pile que de face, avec certaines repartitions un peu moins frequentes. J'ai demande un peu d'aide a l'ordinateur, et voila le resultat :
![Distribution combinatoire Distribution combinatoire](https://omnilogie.fr/images/O/dist-normal.png)
Si on regarde la colonne notee 500, on peut voir que j'ai eu un peu plus de 250 pieces qui ont eu 500 fois le cote face, 500 fois le cote pile
.
Si on regarde la colonne notee 460, un peu moins d'une dizaine de pieces se trouvent dans cet intervalle.
Plus generalement, plus la courbe ≪ monte ≫ haut, plus il est probable qu'une piece equilibree se trouve dans l'intervalle.
On peut ≪ lisser ≫ la representation precedente en faisant encore plus d'essais : dix mille, cent milles, un million, … ou simplement en appliquant les mathematiques
qui nous donnent alors la courbe suivante :
![Distribution normale Distribution normale](https://omnilogie.fr/images/O/dist-normal-2.png)
On appelle ce type de distribution une
distribution normale
. Notez que la forme generale ressemble a une cloche, d'ou le petit surnom de cloche de Gauss !
Muni de cette visualisation, on se rend compte que pour pouvoir dire que quelque chose est ≪ significatif ≫, il faut que ce quelque chose devie significativement de la norme – autrement dit, qu'il soit en dehors de la repartition classique.
Si j'ai obtenu 400 fois pile et 600 fois face, je suis tres en dehors de l'intervalle : il est sur que la piece est desequilibree
!
Dans la realite, il est assez rare de sortir completement de la cloche : on introduit donc le concept de
p-valeur
: il s'agit de notre intervalle de confiance, ou plus precisement de l'ecart que l'on souhaite voir avec le hasard.
Par exemple, une p-valeur de 5 % signifie que l'on va regarder si notre resultat tombe dans les 5 % les plus extremes de la cloche :
![Distribution normale, p-valeur de 0,05 Distribution normale, p-valeur de 0,05](https://omnilogie.fr/images/O/dist-normal-3.png)
Dans le cas des pieces, on peut calculer qu'une piece qui fait plus de 526 fois pile sur mille lancers est desequilibree pour une p-valeur de 5%
.
On trouve trois p-valeurs classiquement utilisees :
- 10% : on est peu sur de quelque chose (il y a dix pour cent de chances que l'on se trompe)
- 5% : on est relativement sur de quelque chose (il y a cinq pour cent de chances que l'on se trompe)
- 1% : on est tres fortement sur de quelque chose (il y a un pour cent de chances que l'on se trompe)
Plus la p-valeur est faible, plus l'on est sur. En sciences dures, on utilise frequemment des seuils tres forts (par exemple, p-valeur de 0,000 029 % pour la detection du
boson de Higgs
en physique). Dans les sciences moins exactes, on ne peut pas toujours se permettre d'aller aussi loin (en biologie par exemple, on ne peut pas faire des experiences sur des millions de personnes), et l'on fixe souvent une p-valeur de 5%.
Dire de quelque chose qu'il est
statistiquement significatif pour une p-valeur de 5%
signifie donc que les resultats que l'on a obtenu tombent dans les 5 % les plus extremes d'une distribution classique.
Ca ne veut pas dire que l'on est sur : on ne deviendra sur que si plusieurs etudes confirment le resultat. A 5%, on peut juste dire que l'on a une presomption que ce que l'on etudie a un impact qui fait devier significativement de l'habituel.
- Exemple idiot : il existe des centenaires fumeurs. Ils pourraient dire que leur longevite provient de la cigarette !
- En verite, il s'agit d'un histogramme qui groupe : il est plus correct de dire que 250 pieces ont eu entre 495 et 505 fois le cote pile.
- Pour les matheux qui suivent, \(\mu = 500\) et \(\sigma = \frac{\sqrt{1000}}{2}\).
- En verite, rien n'est jamais sur, juste fortement improbable. Mais ainsi va la science…
- Attention, on ne peut pas dire qu'elle a 5 % de chance d'etre desequilibree ! On peut juste conclure qu'elle fait partie des 5 % les plus extremes de la distribution classique.
]]>