Mae
data mawr
yn cyfeirio at
setiau data
sy'n rhy fawr neu'n rhy gymhleth ar gyfer
meddalwedd
prosesu data traddodiadol. I ddelio a
chronfa ddata
enfawr, gyda miliynnau o resi a cholofnau ynddi, yna mae angen ateb gwahanol. Mwya'r data, y mwya yw'r gwallau a all godi, ac arafa mae'n prosesu'r wybodaeth.
[1]
Mae heriau sy'n wynebu ceidwaid data mawr yn cynnwys
casglu data
,
integreiddio data
,
storio data
,
dadansoddi data
, chwilio,
cloddio
,
glanhau
, rhannu, trosglwyddo, delweddu (
visualization
),
ymholi
, diweddaru a
gwarchod data
. Roedd data mawr yn gysylltiedig yn wreiddiol a thri chysyniad allweddol: cyfaint, amrywiaeth a chyflymder.
[2]
Ceir cysyniadau eraill, gwirioneddol a briodwyd yn ddiweddarach e.e. faint o s?n (neu 'wallau') sydd yn y data, a gwerth y data.
[3]
[4]
Y cynnydd yng nghyfaint y
data
2009-2020
Ymddangosodd y term ar ffurf ffasiynol, fel
buzzword
yng nghanol y
2010au
, i olygu 'yr holl ddata a gesglir gan y ddynoliaeth'. Fe'i bathwyd gan John Mashey yn 1998.
[5]
[6]
Ar lefel fwy technegol, daeth y term i olygu'r dadansoddi rhagfynegol ac ymddygiad defnyddwyr a chwsmeriaid. Sylweddolwyd fod defnydd masnachol i ddata fel hyn, ac y gellid rhagweld yr hyn roedd y cwsmer yn dymuno ei brynnu. Ymhlith y defnydd eraill a wneir o ddata mawr y mae: rhagweld afiechydon a sut y mae heintiau'n ymledu neu casglu holl gofnodion dyddiol yr
hinsawdd
,
meteoroleg
,
daeargrynfeydd
ayb. Ond y defnydd mwayf sinistr o ddata mawr yw gan
heddluoedd
cudd, ac adrannau 'diogelwch' llywodraethau'r byd, er mwyn iddynt fonitro tuedd (ymweld a
gwefannau
, siopau ayb), diddordebau gwleidyddol a manylion personol eraill eu dinasyddion.
[7]
[8]
Un o'r cwestiynau pwysicaf yma, yw pwy yw perchennog y data personol hwn.
Gwelwyd y twf a'r cynnydd eithriadol yng nghyfaint data mawr ar ddechrau'r 2000au, wrth i ddyfeisiau
Rhyngrwyd pethau
ddod o fewn gafael dinasyddion y byd. Daeth y
ffon clyfar
, y
tabled
,
camerau
, y
cerdyn banc
a llu o
synwyryddion
eraill yn bethau rhad, defnyddiol, ffasiynol a ddefnyddiwyd droeon mewn diwrnod, a'r data ohonynt yn cysylltu'n uniongyrchol i ddata mawr adrannau cudd y llywodraethau a chwmniau enfawr fel
Google
.
Law yn llaw a'r gallu hwn i gasglu data, datblygodd y gallu i'w storio. Yn fras, mae'r wybodaeth a gaiff ei storio yn dyblu bob 40 mis, ers y
1980au
. Erbyn 20122 roedd 2.5 exabytes (2.5×1018) o ddata'n cael ei gynhyrchu yn fydeang. Rhagwelodd Adroddiad gan yr IDC bydd y twf hwn yn parhau ac yn cyflymu, ac erbyn 2020 roedd yn rhagweld y byddai cyfaint y data yn 44 zettabytes; erbyn 2025 mae'n rhagweld y bydd yn 163 zettabytes.