Statistik

Statistik er en videnskabelig metode, hvormed man effektivt anvender numeriske data, som f.eks. kan komme fra eksperimenter , spørgeskemaer eller registre.

Historisk set startede statistik med at være beskrivende, hvor fokus var at præsentere data grafisk, med tabeller og senere ved at regne statistiske mal som gennemsnit . Moderne statistik omfatter at drage konklusioner om det generelle tilfælde (hele populationen ) ud fra det enkelte tilfælde (en stikprøve ). Det kan for eksempel være at bestemme parametre til sandsynlighedsfordelingen for populationen. Dette kaldes statistisk inferens . Et andet eksempel kunne være at bestemme, om der er forskel pa to populationer (eksempelvis en behandlet gruppe og en placebogruppe ).

Danmarks Statistik producerer en del samfundsbeskrivende statistik, som bygger pa administrative registre som fx CPR , BBR og Erhvervsregisteret , og dermed medtages hele populationen.

Hvorfor bruge stikprøver [ rediger | rediger kildetekst ]

Stikprøver bruges, nar hele populationen ikke kan undersøges. Det kan være, at det er dyrt at lave malingerne, eller at det ikke er fysisk muligt at undersøge mere end et udsnit af populationen. For eksempel er det ikke muligt at undersøge alt vandet i verdenshavene . Et andet problem, som statistik tager hensyn til, er, at malinger ofte er behæftet med usikkerhed, fejl eller mangler. Det kan for eksempel være malinger af den samme ting, hvor resultatet varierer for hver maling, men i gennemsnit har den korrekte (sande) værdi.

For eksempel kan høstudbyttet for to forskellige kornsorter pa to forskellige marker males for at finde ud af, hvilken sort der giver mest udbytte. Her risikeres det, at det ene udbytte er meget højere end det andet, uden at det gælder i gennemsnit. Hvis det skyldes, at den ene mark tilfældigvis blev angrebet af dyr eller sygdom, mens den anden tilfældigvis gik fri, vil resultatet ikke kunne bruges til noget. Derfor bliver man nødt til at have flere observationer og bruge statistiske metoder til at undersøge resultatet.

Hvis stikprøven omfatter et tilstrækkeligt antal observationer til at indfri forventningerne om palidelighed i malingen, betegnes den som signifikant .

Etymologi [ rediger | rediger kildetekst ]

Ordet statistik kommer fra det latinske statisticum collegium ("statsradgiver") og det italienske ord statista ("statsmand" eller " politiker "). Ordet kom til Danmark via tysk indføring af Gottfried Achenwall i 1749, og beskrev oprindeligt behandling af data for staten .

Udspring fra sandsynlighedsregning [ rediger | rediger kildetekst ]

Statistik bygger pa resultater fra sandsynlighedsregning . De to fag er ret tæt forbundne, og deres udvikling refererer ogsa langt hen ad vejen til de samme matematikere . Statistik har dog altid udgangspunkt i analyser af indsamlede data , mens sandsynlighedsregning omfatter enhver hypotetisk beregning af muligheder i et udfaldsrum

Beskrivende statistik [ rediger | rediger kildetekst ]

Uddybende artikel: Beskrivende statistik

Beskrivende statistik omfatter at præsentere data i form af tabeller ( krydstabeller , kontingenstabeller ) eller grafisk i form af landkort eller diagrammer .

Der laves ingen model for data, og der bruges ingen antagelser om, hvilke fordelinger data tilhører. Ofte undersøger man et datasæt med beskrivende statistik, før man gar til videre behandling af det.

Eksempler pa statistiske mal, der bruges, er kvartiler , median , gennemsnit og empirisk varians . Grafiske fremstillinger omfatter blandt andet skatterplot , boksplot og histogrammer .

Planlægning [ rediger | rediger kildetekst ]

Uddybende artikel: Spørgeundersøgelsesmetodologi

Planlægning inden for statistik omhandler metoder, som gør malinger mere præcise. Hvis man bruger de korrekte metoder, kan maleusikkerheden for en stikprøve eller et eksperiment gøres meget mindre, end hvis man ikke planlagde først.

Et eksempel er en meningsmaling , som bør være taget af en gruppe, der er repræsentativ for befolkningen (populationen). Hvis der er 10% af befolkningen, der er mellem 18 og 24 ar, bør der ogsa være 10% i undersøgelsen. Det samme gælder med køn , indkomst, hvor i landet man kommer fra og andre ting. Med et forhandskendskab til den befolkning, man undersøger, er det muligt at planlægge, hvilke personer man spørger, sa det omtrent kommer til at passe. Inden for de definerede grupper udvælges stikprøven tilfældigt, sa det ikke er de samme, der bliver spurgt hver gang, eller en systematisk udvælgelse af forskellige personer.

Estimering [ rediger | rediger kildetekst ]

Uddybende artikel: Estimat

I moderne statistik bruges modeller til at drage konklusioner. Modellerne har nogle parametre , som afgør nogle egenskaber for dem. For normalfordelingen er middelværdi og standardafvigelse parametrene. Nar en parameter til en model udregnes ud fra en stikprøve, hedder det, at parameteren bliver estimeret . Der kan laves et punktestimat, hvor parameteren estimeres med en værdi, eller et intervalestimat, hvor der estimeres et interval, som parameterens værdi forventes at være inden for.

Regressionsanalyse [ rediger | rediger kildetekst ]

Uddybende artikel: Regressionsanalyse

Lineær regressionsanalyse gar ud pa at finde ligningen for den rette linje, der passer bedst til givne malepunkter

Regressionsanalyse er en gren inden for statistikken, hvor værdien af en eller flere variable (kaldt afhængige variabel eller respons variabel) forudsiges ud fra en eller flere andre variabler (kaldet baggrundsvariabel eller de uafhængige variabler). Resultatet er en matematisk funktion, hvor de afhængige variabler kan regnes pa baggrund af baggrundsvariablerne. Funktionen vælges, sa et afstandsmal mellem datapunkterne og funktionsværdien for datapunkterne minimeres. Afstandsmalet kan vælges vilkarligt, men Euklidisk afstand bruges ofte.

Formalet kan for eksempel være at tage højde for unøjagtigheder i data, at udfylde manglende observationer i data eller at forudsige de afhængiges variablers værdier for nye data, hvor kun baggrundsvariablerne er kendt.

Variansanalyse [ rediger | rediger kildetekst ]

Uddybende artikel: Variansanalyse

Variansanalyse (forkortet ANOVA [fra engelsk, Analysis of Variance]) er en metode til at sammenligne to eller flere middelværdier. Navnet kommer af, at den empiriske varians bruges til at lave hypotesetest med. Man bruger variansanalyse, nar man har med kvantitative faktorer at gøre. For eksempel kan faktoren være brug af medicin eller brug af placebo , hvis man ønsker at finde ud af om en type medicin virker. Der kan ogsa være flere niveauer sa som høj, mellem og lav.

Første skridt i en variansanalyse er at estimere variansen for middelværdierne. Andet skridt er at sammenligne dem ved brug af hypotesetest. Dette bruges ogsa til at undersøge om koefficienter fundet med regressionsanalyse bør medtages eller udelades fra modellen.

Hypoteseprøvning [ rediger | rediger kildetekst ]

Uddybende artikel: Hypoteseprøvning

Nar en regressionsanalyse eller variansanalyse er udført, er det vigtigt at vide, om resultatet er sandsynligt. Hertil bruges hypoteseprøvning (ogsa kaldet hypotesetest ). Hypoteseprøvning kan ogsa bruges til at undersøge om pa forhand bestemte eller kendte værdier passer med et nyt datasæt.

I hypoteseprøvning sammenlignes en nulhypotese med en alternativ hypotese, hvor den alternative hypotese accepteres, hvis nulhypotesen kan afvises. Den alternative hypotese er den pastand, som ønskes bekræftet, mens nulhypotesen er den modsatte pastand (en negation af pastanden). Eksempelvis kan den alternative hypotese være, at person A løber hurtigere end person B. Her vil man vælge nulhypotesen til at være, at person A løber langsommere end eller lige sa hurtigt som B.

Bayesiansk statistik [ rediger | rediger kildetekst ]

Uddybende artikel: Bayesiansk statistik

Der er to hovedretninger for hvordan en parameter estimeres: Frekvensstatistik statistik (ogsa kaldet for Neyman - Pearsons statistik) og den bayesianske statistik. I den førstnævnte vælges estimat til at være den værdi, som er mest sandsynlig. Dette kan have det problem, at sandynlighedsfordelingen omkring den maksimale værdi kan være flad, sa der er et interval af værdier, som er næsten lige sandsynlige. I den bayesianske statistik tages der hensyn til dette, ved at udregne fordelingen for parameter og lade estimatet være et gennemsnit af fordelingen. Det kræver i midlertidigt generelt megen regnekraft, at regne denne fordeling. Derfor er den bayesianske statistik først begyndt at blive anvendt i praksis efter, at computere har faet tilstrækkeligt regnekraft.

Brug af statistiske teorier [ rediger | rediger kildetekst ]

De statistiske metoder til at se pa store mængder tal er blevet brugt inden for blandt andet fysik og kemi. Den kinetiske gasteori inden for termodynamik er blevet udledt ud fra statistiske betragtning af atomer. Ligeledes er massevirkningsloven inden for kemi udledt ud fra statistiske betragtninger.

Se ogsa [ rediger | rediger kildetekst ]

Chi i anden-fordelingen

Referencer [ rediger | rediger kildetekst ]

Propability and Statistics for Engineers (2000) af Miller & Freund (Prentice Hall), ISBN 0-13-017974-4
Statistik I & II af L. Brøndum og J.D Monrad (1984 / 1989)
Gyldendals 10 binds leksikon , 1978, ISBN 87-01-57251-2

Relaterede artikler [ rediger | rediger kildetekst ]

Eksterne henvisninger/kilder [ rediger | rediger kildetekst ]