Statistik
er en videnskabelig metode, hvormed man effektivt anvender numeriske data, som f.eks. kan komme fra
eksperimenter
,
spørgeskemaer
eller registre.
Historisk set startede statistik med at være beskrivende, hvor fokus var at præsentere data grafisk, med
tabeller
og senere ved at regne statistiske mal som
gennemsnit
. Moderne statistik omfatter at drage konklusioner om det generelle tilfælde (hele
populationen
) ud fra det enkelte tilfælde (en
stikprøve
). Det kan for eksempel være at bestemme
parametre
til
sandsynlighedsfordelingen
for populationen. Dette kaldes
statistisk inferens
. Et andet eksempel kunne være at bestemme, om der er forskel pa to populationer (eksempelvis en behandlet gruppe og en
placebogruppe
).
Danmarks Statistik
producerer en del samfundsbeskrivende statistik, som bygger pa administrative registre som fx
CPR
,
BBR
og
Erhvervsregisteret
, og dermed medtages hele populationen.
Stikprøver bruges, nar hele populationen ikke kan undersøges. Det kan være, at det er dyrt at lave malingerne, eller at det ikke er fysisk muligt at undersøge mere end et udsnit af populationen. For eksempel er det ikke muligt at undersøge alt vandet i
verdenshavene
. Et andet problem, som statistik tager hensyn til, er, at malinger ofte er behæftet med usikkerhed, fejl eller mangler. Det kan for eksempel være malinger af den samme ting, hvor resultatet varierer for hver maling, men i gennemsnit har den korrekte (sande) værdi.
For eksempel kan
høstudbyttet
for to forskellige
kornsorter
pa to forskellige
marker
males for at finde ud af, hvilken sort der giver mest udbytte. Her risikeres det, at det ene udbytte er meget højere end det andet, uden at det gælder i gennemsnit. Hvis det skyldes, at den ene mark tilfældigvis blev angrebet af dyr eller sygdom, mens den anden tilfældigvis gik fri, vil resultatet ikke kunne bruges til noget. Derfor bliver man nødt til at have flere observationer og bruge statistiske metoder til at undersøge resultatet.
Hvis stikprøven omfatter et tilstrækkeligt antal observationer til at indfri forventningerne om palidelighed i malingen, betegnes den som
signifikant
.
Ordet statistik kommer fra det
latinske
statisticum collegium
("statsradgiver") og det
italienske
ord statista ("statsmand" eller "
politiker
"). Ordet kom til Danmark via tysk indføring af
Gottfried Achenwall
i 1749, og beskrev oprindeligt behandling af data for
staten
.
Statistik bygger pa resultater fra
sandsynlighedsregning
. De to fag er ret tæt forbundne, og deres udvikling refererer ogsa langt hen ad vejen til de samme
matematikere
. Statistik har dog altid udgangspunkt i analyser af indsamlede
data
, mens sandsynlighedsregning omfatter enhver
hypotetisk
beregning af muligheder i et
udfaldsrum
Beskrivende
statistik omfatter at præsentere data i form af
tabeller
(
krydstabeller
,
kontingenstabeller
) eller
grafisk
i form af
landkort
eller
diagrammer
.
Der laves ingen
model
for data, og der bruges ingen antagelser om, hvilke fordelinger data tilhører. Ofte undersøger man et datasæt med beskrivende statistik, før man gar til videre behandling af det.
Eksempler pa statistiske mal, der bruges, er
kvartiler
,
median
,
gennemsnit
og empirisk
varians
. Grafiske fremstillinger omfatter blandt andet
skatterplot
,
boksplot
og
histogrammer
.
Planlægning
inden for statistik omhandler metoder, som gør malinger mere præcise. Hvis man bruger de korrekte metoder, kan maleusikkerheden for en stikprøve eller et eksperiment gøres meget mindre, end hvis man ikke planlagde først.
Et eksempel er en
meningsmaling
, som bør være taget af en gruppe, der er repræsentativ for befolkningen (populationen). Hvis der er 10% af befolkningen, der er mellem 18 og 24 ar, bør der ogsa være 10% i undersøgelsen. Det samme gælder med
køn
, indkomst, hvor i landet man kommer fra og andre ting. Med et forhandskendskab til den befolkning, man undersøger, er det muligt at planlægge, hvilke personer man spørger, sa det omtrent kommer til at passe. Inden for de definerede grupper udvælges stikprøven tilfældigt, sa det ikke er de samme, der bliver spurgt hver gang, eller en systematisk udvælgelse af forskellige personer.
I moderne statistik bruges modeller til at drage konklusioner. Modellerne har nogle
parametre
, som afgør nogle egenskaber for dem. For
normalfordelingen
er middelværdi og
standardafvigelse
parametrene. Nar en parameter til en model udregnes ud fra en stikprøve, hedder det, at parameteren bliver
estimeret
. Der kan laves et punktestimat, hvor parameteren estimeres med en værdi, eller et intervalestimat, hvor der estimeres et interval, som parameterens værdi forventes at være inden for.
Regressionsanalyse
er en gren inden for statistikken, hvor værdien af en eller flere
variable
(kaldt afhængige variabel eller respons variabel) forudsiges ud fra en eller flere andre variabler (kaldet baggrundsvariabel eller de uafhængige variabler). Resultatet er en matematisk funktion, hvor de afhængige variabler kan regnes pa baggrund af baggrundsvariablerne. Funktionen vælges, sa et afstandsmal mellem datapunkterne og funktionsværdien for datapunkterne minimeres. Afstandsmalet kan vælges vilkarligt, men
Euklidisk afstand
bruges ofte.
Formalet kan for eksempel være at tage højde for unøjagtigheder i data, at udfylde manglende observationer i data eller at forudsige de afhængiges variablers værdier for nye data, hvor kun baggrundsvariablerne er kendt.
Variansanalyse
(forkortet ANOVA [fra engelsk, Analysis of Variance]) er en metode til at sammenligne to eller flere middelværdier. Navnet kommer af, at den empiriske varians bruges til at lave hypotesetest med. Man bruger variansanalyse, nar man har med kvantitative faktorer at gøre. For eksempel kan faktoren være brug af
medicin
eller brug af
placebo
, hvis man ønsker at finde ud af om en type medicin virker. Der kan ogsa være flere niveauer sa som høj, mellem og lav.
Første skridt i en variansanalyse er at estimere variansen for middelværdierne. Andet skridt er at sammenligne dem ved brug af hypotesetest. Dette bruges ogsa til at undersøge om koefficienter fundet med regressionsanalyse bør medtages eller udelades fra modellen.
Nar en regressionsanalyse eller variansanalyse er udført, er det vigtigt at vide, om resultatet er sandsynligt. Hertil bruges
hypoteseprøvning
(ogsa kaldet
hypotesetest
). Hypoteseprøvning kan ogsa bruges til at undersøge om pa forhand bestemte eller kendte værdier passer med et nyt datasæt.
I hypoteseprøvning sammenlignes en
nulhypotese
med en alternativ hypotese, hvor den alternative hypotese accepteres, hvis nulhypotesen kan afvises. Den alternative hypotese er den pastand, som ønskes bekræftet, mens nulhypotesen er den modsatte pastand (en negation af pastanden). Eksempelvis kan den alternative hypotese være, at person A løber hurtigere end person B. Her vil man vælge nulhypotesen til at være, at person A løber langsommere end eller lige sa hurtigt som B.
Der er to hovedretninger for hvordan en parameter estimeres: Frekvensstatistik statistik (ogsa kaldet for
Neyman
-
Pearsons
statistik) og den bayesianske statistik. I den førstnævnte vælges estimat til at være den værdi, som er mest sandsynlig. Dette kan have det problem, at sandynlighedsfordelingen omkring den maksimale værdi kan være flad, sa der er et
interval
af værdier, som er næsten lige sandsynlige. I den bayesianske statistik tages der hensyn til dette, ved at udregne fordelingen for parameter og lade estimatet være et gennemsnit af fordelingen. Det kræver i midlertidigt generelt megen regnekraft, at regne denne fordeling. Derfor er den bayesianske statistik først begyndt at blive anvendt i praksis efter, at
computere
har faet tilstrækkeligt regnekraft.
De statistiske metoder til at se pa store mængder tal er blevet brugt inden for blandt andet fysik og kemi. Den
kinetiske gasteori
inden for
termodynamik
er blevet udledt ud fra statistiske betragtning af atomer. Ligeledes er
massevirkningsloven
inden for
kemi
udledt ud fra statistiske betragtninger.
- Propability and Statistics for Engineers
(2000) af Miller & Freund (Prentice Hall),
ISBN
0-13-017974-4
- Statistik I & II
af L. Brøndum og J.D Monrad (1984 / 1989)
- Gyldendals 10 binds leksikon
, 1978,
ISBN
87-01-57251-2