Een
gegevensverzameling
of
dataset
is een
verzameling
van
gegevens
(data), meestal gepresenteerd in
tabelvorm
. Elke
kolom
vertegenwoordigt een bepaalde
variabele
. De dataset representeert dan een verzameling
rijen
(ook
records
genoemd), elk voor een object (in de ruime zin van het woord, het kunnen bijvoorbeeld ook personen zijn). Een rij bevat de waarden voor elk van de variabelen, of attributen, voor het betreffende object, bijvoorbeeld lengte en gewicht.
Een verzameling rijen is op zichzelf niet geordend. Een weergave met de rijen in een andere volgorde is dan niet de weergave van een andere dataset. Ordening kan op basis van de waarde van een variabele. De rijen kunnen ook geordend zijn, los van de waarden van de variabelen.
Als de datatabel van de al of niet geordende dataset maar een kolom heeft wordt deze wel vereenzelvigd met de betreffende (respectievelijk niet of wel) geordende multiset (die eventueel een verzameling is).
Een gegevensverzameling niet in tabelvorm kan de vorm hebben van een
karakterstring
, zoals een
XML
-bestand.
De term dataset is afkomstig uit de tijd van de
mainframes
, waar gegevensverzameling een precies omschreven betekenis bij IBM-mainframes had. Deze betekenis wordt hier niet behandeld.
Een gegevensverzameling heeft verscheidene kenmerken die de structuur en eigenschappen bepalen. Daartoe behoren het aantal en het
type
van de variabelen en de verschillende statistische kengetallen die erop van toepassing zijn, zoals
gemiddelde
,
standaardafwijking
,
scheefheid
.
[1]
In het eenvoudigste geval is er slechts een variabele en bestaat de dataset uit een enkele kolom met waarden, vaak voorgesteld als een
lijst
. In tegenstelling tot wat de naam doet vermoeden, is zo'n
univariate
dataset geen
verzameling
in de gewone wiskundige betekenis, aangezien een bepaalde waarde meer keren kan voorkomen. Als de volgorde er niet toe doet, kan de dataset opgevat worden als een
multiset
in plaats van een (geordende) lijst.
De waarden kunnen getallen zijn, maar ook gegevens van nominaal of ordinaal
niveau
zijn. Voor elke variabele zullen normaal gesproken de waarden van hetzelfde niveau zijn, al kunnen er wel gegevens ontbreken, wat op een of andere manier dient te worden aangegeven.
In de
statistiek
zijn datasets gewoonlijk het resultaat van een
steekproef
en bevat elke rij de waarnemingen aan een element van de
populatie
. Sommige moderne statistische
software
, zoals
SPSS
, gebruikt nog steeds de klassieke vorm van een dataset voor de gegevens.
Er bestaan in de statistische literatuur enkele klassieke datasets die uitvoerig geanalyseerd zijn:
- De
iris-dataset
: een multivariate dataset afkomstig van
Ronald Fisher
(1936).
[2]
- Categorische data: Datasets gebruikt in het boek,
An Introduction to Categorical Data Analysis
, van Agresti, zijn
online bechikbaar bij StatLib.
- Robuuste statistiek
: Datasets gebruikt in
Robust Regression and Outlier Detection
(
Rousseeuw
and Leroy, 1986).
online beschikbaar bij de Universiteit van Keulen.
- Tijdreeksen
: Data gebruikt in Chatfields boek,
The Analysis of Time Series
, zijn
online bechikbar bij StatLib.
- Bayesiaanse data-analyse: Data gebruikt in het boek,
Bayesian Data Analysis
, zijn
online beschikbaar
bij
Andrew Gelman
, een van de auteurs.
- De
Bupa dataset
, gebruikt in verscheidene artikelen in de literatuur over
machinaal leren
.