En
statistique
, un
echantillon
est un ensemble d'individus
representatifs
d'une
population
. L'echantillonnage vise a obtenir une meilleure connaissance d'une ou plusieurs population(s) ou sous-populations(s) par l'etude d'un nombre d'echantillons juge statistiquement representatif. Le recours a un plan d'echantillonnage repond en general a une contrainte pratique (manque de temps, de place, evaluation destructive d'une production, cout financier…) interdisant l'etude exhaustive de la population.
Il s'appelle l'
echantillonnage
.
Pour garantir une bonne representation, il s'agit en general d'un echantillon
aleatoire
, totalement ou partiellement.
La
statistique
s'est donc interessee aux principes d'echantillonnage, dans le but de garantir ou au moins d'estimer la fiabilite de conclusions tirees de l'etude d'echantillons, mais etendues aux populations entieres. Quelques-unes des preoccupations de la theorie de l'echantillonnage sont :
- la capacite a capter la diversite du phenomene etudie ;
- l'absence de
biais
ou
erreur systematique
;
- le lien entre la taille de l'echantillon et la confiance que l'on peut accorder a la generalisation des resultats.
La strategie d'echantillonnage est une etape essentielle de la conception des experiences scientifiques, avec ou sans traitement experimental particulier, c'est-a-dire incluant les mesures sur un objet (
metrologie
) ainsi que, par exemple, les
suivis environnementaux
,
sanitaires
et la
biometrie
.
Les statisticiens supposent la population d'une taille donnee et lui associent une
loi de probabilite
, c'est le role de l'
inference statistique
ou
statistique mathematique
. Dans ces conditions, l'echantillon est interprete comme un ensemble de
variables aleatoires
dont on possede une realisation supposee issue de tirages independants. L'analyse des proprietes de l'echantillon permet d'estimer certaines caracteristiques de la population, de determiner la validite de ces estimations ou de certaines hypotheses.
Dans les
sondages d'opinion
la theorie statistique obligerait a tenir a jour la liste des membres de la population, tirer au sort les heureux elus et interroger ceux-ci a l'exclusion de tous les autres. C'est evidemment impossible et les instituts tentent de batir ce qu'ils nomment un
echantillon representatif
. Celui-ci doit obeir a un certain nombre de regles afin de s'assurer de sa representativite qui exige l'independance des reponses. Le probleme concerne la validite d'un tel choix. Il semblerait que, mieux elle est assuree, plus on se rapproche d'un sondage aleatoire avec ses limites parfaitement determinees par la theorie (une enquete effectuee sur 1 000 personnes a 95 chances sur 100 de donner le resultat correct a ±3 % pres, d'apres le calcul de l'
intervalle de fluctuation
). Selon la plupart des instituts leurs resultats seraient meilleurs, ce qui demanderait quelques justifications.
Pour des populations elevees, la taille de d'echantillon se calcule avec la formule de Cochran :
- = t² × p × (1-p) / m²
- : Taille d'echantillon minimale pour l'obtention de resultats significatifs pour un evenement et un niveau de risque fixe
- t : Niveau de confiance (la valeur type du niveau de confiance de 95 % sera 1,96)
- p : proportion estimee de la population qui presente la caracteristique
- m : Marge d'erreur (generalement fixee a 5 %)
Ainsi, pour un evenement ayant une probabilite de realisation de 40 %, en prenant un niveau de confiance de 95 % et une marge d'erreur de 5 %, la taille d'echantillon devra etre de
- = 1,96² × 0,4 × 0,6 / 0,05² = 368,79
soit 369 individus.
Autrement, pour des populations de taille plus faibles, on generalise la formule de Cochran de la maniere suivante :
n =
ou N est la taille de la population a partir de laquelle l'echantillon est extrait
[
1
]
.
Le cas particulier des etudes faites dans le milieu naturel
[
modifier
|
modifier le code
]
De nombreuses etudes scientifiques dans le domaine de l'environnement ou de l'
eco-epidemiologie
necessitent de robustes protocoles d'echantillonnage, qui dans la mesure du possible ne doivent pas globalement modifier ou affecter l'environnement etudie afin de ne pas biaiser les resultats
[
2
]
ni perturber les ecosystemes.
Quand elles sont possibles, les techniques de type
capture-marquage-recapture
sont souvent preferables a des piegeages qui blessent ou tuent les animaux. Les progres des
etudes genetiques
font que l'on peut maintenant utiliser des poils, plumes, cadavres ou excrements pour obtenir des informations qui necessitaient autrefois des captures avec biopsies.
Certaines especes sont naturellement caracterisees par des fluctuations annuelles (par exemple les
hannetons
ou certains
criquets
qui pullulent selon des cycles) ou certaines especes tres sensibles a la temperature et a la meteo (ex : de nombreux
pollinisateurs
,
papillons
notamment qui n'apparaissent pas s'il fait trop froid ou par temps venteux ou pluvieux…), un plan d'echantillonnage etale sur un pas de temps plus long est necessaire aux etudes qui concernent leurs densites et dynamiques de population. Une etude trop courte peut etre compromise ou biaisee par une
meteorologie
defavorable
[
2
]
. De meme des prelevements trop frequents et/ou trop importants d'especes rares et/ou dont la population ne se regenere que lentement destructurent les populations et conduisent a des biais d'observation.
Dans certains cas (animaux tres mobiles tels que les poissons migrateurs ou oiseaux) le recensement des individus doit tenir compte de la
phenologie
de l'espece et se faire sur une periode restreinte, ce qui permet de reduire les risques de doubles comptages et ameliore la comparabilite d’une annee ou d’un mois a l’autre. Ce type de suivis se fait generalement toujours a la meme periode de l’annee et si possible dans les memes conditions et avec les memes observateurs. Le suivi des amphibiens est plus facile au moment de la reproduction ou tous les individus reproducteurs sont rassembles.
L'
ATEN
recommande notamment dans ce type de contexte de soigneusement choisir le plan d’echantillonnage, de bien definir le nombre pertinent d’echantillons, la taille des unites d’echantillonnage, le positionnement spatial et temporel des echantillons, les periodes et frequences de releves, la duree de l'etude. en fonction des objectifs et resultats attendus
[
2
]
.