Echantillon (statistiques)

Cet article est une ebauche concernant les probabilites et la statistique .

Vous pouvez partager vos connaissances en l’ameliorant ( comment ? ) selon les recommandations des projets correspondants .

Consultez la liste des taches a accomplir en page de discussion .

En statistique , un echantillon est un ensemble d'individus representatifs d'une population . L'echantillonnage vise a obtenir une meilleure connaissance d'une ou plusieurs population(s) ou sous-populations(s) par l'etude d'un nombre d'echantillons juge statistiquement representatif. Le recours a un plan d'echantillonnage repond en general a une contrainte pratique (manque de temps, de place, evaluation destructive d'une production, cout financier…) interdisant l'etude exhaustive de la population.

L'acte de selection [ modifier | modifier le code ]

Il s'appelle l' echantillonnage .

Pour garantir une bonne representation, il s'agit en general d'un echantillon aleatoire , totalement ou partiellement.

La statistique s'est donc interessee aux principes d'echantillonnage, dans le but de garantir ou au moins d'estimer la fiabilite de conclusions tirees de l'etude d'echantillons, mais etendues aux populations entieres. Quelques-unes des preoccupations de la theorie de l'echantillonnage sont :

la capacite a capter la diversite du phenomene etudie ;
l'absence de biais ou erreur systematique ;
le lien entre la taille de l'echantillon et la confiance que l'on peut accorder a la generalisation des resultats.

Methode [ modifier | modifier le code ]

Cette section est vide, insuffisamment detaillee ou incomplete. Votre aide est la bienvenue ! Comment faire ?

La strategie d'echantillonnage est une etape essentielle de la conception des experiences scientifiques, avec ou sans traitement experimental particulier, c'est-a-dire incluant les mesures sur un objet ( metrologie ) ainsi que, par exemple, les suivis environnementaux , sanitaires et la biometrie .

Les statisticiens supposent la population d'une taille donnee et lui associent une loi de probabilite , c'est le role de l' inference statistique ou statistique mathematique . Dans ces conditions, l'echantillon est interprete comme un ensemble de variables aleatoires dont on possede une realisation supposee issue de tirages independants. L'analyse des proprietes de l'echantillon permet d'estimer certaines caracteristiques de la population, de determiner la validite de ces estimations ou de certaines hypotheses.

Dans les sondages d'opinion la theorie statistique obligerait a tenir a jour la liste des membres de la population, tirer au sort les heureux elus et interroger ceux-ci a l'exclusion de tous les autres. C'est evidemment impossible et les instituts tentent de batir ce qu'ils nomment un echantillon representatif . Celui-ci doit obeir a un certain nombre de regles afin de s'assurer de sa representativite qui exige l'independance des reponses. Le probleme concerne la validite d'un tel choix. Il semblerait que, mieux elle est assuree, plus on se rapproche d'un sondage aleatoire avec ses limites parfaitement determinees par la theorie (une enquete effectuee sur 1 000 personnes a 95 chances sur 100 de donner le resultat correct a ±3 % pres, d'apres le calcul de l' intervalle de fluctuation ). Selon la plupart des instituts leurs resultats seraient meilleurs, ce qui demanderait quelques justifications.

Pour des populations elevees, la taille de d'echantillon se calcule avec la formule de Cochran :

n_{Cochran}

= t² × p × (1-p) / m²

$n_{Cochran}$ : Taille d'echantillon minimale pour l'obtention de resultats significatifs pour un evenement et un niveau de risque fixe
t : Niveau de confiance (la valeur type du niveau de confiance de 95 % sera 1,96)
p : proportion estimee de la population qui presente la caracteristique
m : Marge d'erreur (generalement fixee a 5 %)

Ainsi, pour un evenement ayant une probabilite de realisation de 40 %, en prenant un niveau de confiance de 95 % et une marge d'erreur de 5 %, la taille d'echantillon devra etre de

n_{Cochran}

= 1,96² × 0,4 × 0,6 / 0,05² = 368,79

soit 369 individus.

Autrement, pour des populations de taille plus faibles, on generalise la formule de Cochran de la maniere suivante :

n = ${\frac {n_{Cochran}}{{\frac {n_{Cochran}-1}{N}}+1}}$

ou N est la taille de la population a partir de laquelle l'echantillon est extrait ^[
1
].

Le cas particulier des etudes faites dans le milieu naturel [ modifier | modifier le code ]

De nombreuses etudes scientifiques dans le domaine de l'environnement ou de l' eco-epidemiologie necessitent de robustes protocoles d'echantillonnage, qui dans la mesure du possible ne doivent pas globalement modifier ou affecter l'environnement etudie afin de ne pas biaiser les resultats ^[
2
] ni perturber les ecosystemes.

Quand elles sont possibles, les techniques de type capture-marquage-recapture sont souvent preferables a des piegeages qui blessent ou tuent les animaux. Les progres des etudes genetiques font que l'on peut maintenant utiliser des poils, plumes, cadavres ou excrements pour obtenir des informations qui necessitaient autrefois des captures avec biopsies.

Certaines especes sont naturellement caracterisees par des fluctuations annuelles (par exemple les hannetons ou certains criquets qui pullulent selon des cycles) ou certaines especes tres sensibles a la temperature et a la meteo (ex : de nombreux pollinisateurs , papillons notamment qui n'apparaissent pas s'il fait trop froid ou par temps venteux ou pluvieux…), un plan d'echantillonnage etale sur un pas de temps plus long est necessaire aux etudes qui concernent leurs densites et dynamiques de population. Une etude trop courte peut etre compromise ou biaisee par une meteorologie defavorable ^[
2
]. De meme des prelevements trop frequents et/ou trop importants d'especes rares et/ou dont la population ne se regenere que lentement destructurent les populations et conduisent a des biais d'observation.

Dans certains cas (animaux tres mobiles tels que les poissons migrateurs ou oiseaux) le recensement des individus doit tenir compte de la phenologie de l'espece et se faire sur une periode restreinte, ce qui permet de reduire les risques de doubles comptages et ameliore la comparabilite d’une annee ou d’un mois a l’autre. Ce type de suivis se fait generalement toujours a la meme periode de l’annee et si possible dans les memes conditions et avec les memes observateurs. Le suivi des amphibiens est plus facile au moment de la reproduction ou tous les individus reproducteurs sont rassembles.

L' ATEN recommande notamment dans ce type de contexte de soigneusement choisir le plan d’echantillonnage, de bien definir le nombre pertinent d’echantillons, la taille des unites d’echantillonnage, le positionnement spatial et temporel des echantillons, les periodes et frequences de releves, la duree de l'etude. en fonction des objectifs et resultats attendus ^[
2
].

Notes et references [ modifier | modifier le code ]

↑ Sample Size in Statistics (How to Find it): Excel, Cochran’s Formula, General Tips [1]
↑ ^{a
b
et
c} ATEN Fiche 72 : Etudes scientifiques en espaces naturels Outils de gestion et de planification , voir chap 1.3.7 - Definir les modalites de l’echantillonnage .

Articles connexes [ modifier | modifier le code ]

[1] Sample Size in Statistics (How to Find it): Excel, Cochran’s Formula, General Tips [1]

[AtenFiche72-2] {a
b
et
c} ATEN Fiche 72 : Etudes scientifiques en espaces naturels Outils de gestion et de planification , voir chap 1.3.7 - Definir les modalites de l’echantillonnage .

[ 1 ]

[ 2 ]

v · m Methodologies pratiques en sciences sociales
Methodes qualitatives	Analyse de contenu Analyse du discours Entretien Entretien semi directif Ethnographie Etude de cas Histoire de vie Observation Observation naturaliste Observation participante Pensee a voix haute
Methodes quantitatives	Echantillon Enquete Questionnaire Sociogramme Sondage Sondage d'opinion Statistiques Tests Unites de bruit mediatique
Qualitative et quantitative	Dialectique Analyse de reseau Monographie Etude longitudinale Etude transversale