統計學

統計學 (統計學, 英語 : statistics )은 算術的方法을 基礎로 하여, 州로 多量의 데이터 를 觀察하고 整理 및 分析하는 方法을 硏究하는 數學 의 한 分野이다. 近代科學으로서의 統計學은 19世紀中盤 벨기에 의 케틀레 가 獨逸의 "國狀學(國狀學, Staatenkunde, 넓은 意味의 國家學)"과 英國의 "政治算術(政治算術, Political Arithmetic, 政治社會에 對한 數量的硏究方法)"을 自然科學의 "確率理論"과 結合하여, 樹立한 學問에서 發展되었다. ^[1]^[2]

槪要 [ 編輯 ]

統計學은 觀察 및 調査로 얻을 수 있는 데이터 로부터, 應用數學의 技法을 利用해 數値上의 性質, 規則性 또는 不規則性을 찾아낸다. 統計的技法은, 實驗計劃, 데이터 의 要約이나 解釋을 實施하는데 있어서의 根據를 提供하는 學問이며, 폭넓은 分野에서 應用되어 實生活에 適用되고 있다. ^[2] 統計學은 實證的인 뿌리를 가지고 있으며 實質的活用에 焦點을 맞추고 있기 때문에, 흔히 純粹數學과는 多少區分되는 應用數學 의 一種으로 여겨진다. 統計學의 方法을 통해, 實際의 數値들을 歪曲하여 解釋하는 것을 막고 硏究를 바탕으로 合理的인 意思決定을 할 수 있다. ^[3]^[4] 統計學은 科學, 産業, 또는 社會의 問題에 適用되며 母集團을 硏究하는 過程이 우선시된다. 母集團은 "漢나라 안에 사는 모든 사람" 또는 "크리스탈을 構成하는 모든 原子"와 같이 일정한 特性을 지닌 集團이면 어느 것이든 可能하다. 統計學者들은 全體人口(人口調査를 하는 企業)에 對한 데이터를 編輯한다. 이것은 政府의 統計關聯法律要約集같은 組織化된 方法으로 遂行될 수도 있다. 記述統計學은 母集團의 데이터를 要約하는데 使用된다. 度數 및 比率 (慶州等) 範疇兄 데이터를 說明하는 側面에서 더 有用할 동안 數値技術者는 連續的인 데이터 類型 (所得等)에 對한 平均과 標準偏差를 包含한다. 데이터 分析方法 엄청난 資料가 硏究되는 現代社會에서 經濟指標硏究, 마케팅, 輿論調査, 農業, 生命科學, 醫療의 臨床硏究等多樣한 分野에서 應用되고 있는 統計는 斷然 우리 社會에서 가장 必要하고 實用的인 學問이라고 할 수 있다.

數理統計學 [ 編輯 ]

數理統計學은 數學의 方法을 統計學에 適用한 것이다. 統計學은 元來國家에 對한 科學으로 생각되었는데 卽, 國家의 땅, 經濟, 軍力, 人口等에 關한 事實을 蒐集하고 分析하는 것이었다. 使用되는 數學的方法은 解釋學, 線型代數學, 確率分析, 微分方程式과 側도 理論的確率理論等을 包含한다.

어원 [ 編輯 ]

英語 의 스태티스틱스(statistics ← 統計學, 統計)는 ‘確率’을 뜻하는 라틴語 의 statisticus (確率) 또는 statisticum (狀態), 이탈리아語 의 statista (나라, 政治가) 等에서 由來했다고 한다. 特히 ‘國家’라는 意味가 담긴 이탈리아語 statista 의 影響을 받아, 國家의 人力, 財力等國家的資料를 比較檢討하는 學問을 의미하게 되었다. 近代에서의 統計學은 벨기에 의 天文學者이자 社會學者이며 近代統計學을 確立한 人物로 評價 받는 케틀레 가 벨기에의 브뤼셀에서 統計學者들로 構成된 9個의 會議를 召集한 것을 起源으로 하고 있다. ^[2] 蒐集되고 分類된 數字 데이터"라는 意味로 使用된 것은 1829年부터이고, 略字로 stats가 처음 記錄된 것은 1961年부터이다. 또, 統計學者의 意味인 statistician이 使用된 것은 1825年부터이다.

漢字文化圈에서 使用되는 統計(統計)라는 單語의 起源은 明確하게 알려진 바는 없지만, 幕府末期에서 메이지 天皇初年에 걸쳐 洋學者人 야나가와 슌親 (柳川春三)李現在의 意味로 이 單語를 처음 使用했다고 여겨진다. 그가 1869年에 編纂한 冊子에서 統計가 現在의 用法으로 使用되었다는 記錄이 남아있다. 그 後 1871年에는 大藏省 에 統計社(統計司)와 統計요(統計寮)가 設置되면서 統計라는 單語의 使用이 大衆化되었다. ^[5]

役割 [ 編輯 ]

매우 다양한 分野의 硏究에서 주어진 問題에 對하여 適切한 情報 를 蒐集하고 分析하여 解答을 求하는 過程은 아주 重要하다. 이런 方法을 硏究하는 科學의 한 分野가 統計學이다. 統計學을 必要로 하는 硏究分野는 農業, 生命科學, 環境科學, 産業硏究, 品質保證, 市場調査等 매우 많다. 또한 이러한 硏究方式은 企業體와 政府의 意思決定過程에서 顯著하게 나타난다. 주어진 問題에 對하여 必要한 資料의 形態, 資料를 蒐集하는 方法, 問題에 對한 最善의 答을 求하기 위한 分析方法을 決定하는 것이 統計學者의 役割이다.

資料는 어떤 특정한 現象(주제, 事實)을 調査하기 위하여 設計하고 計劃한 實驗에서 나온다. 이런 種類의 資料, 卽實驗資料는 農業硏究와 같은 分野에 흔히 있다. 統計學者들은 이미 나온 實驗資料를 分析하는데만 關心이 있지않고, 資源을 效果的으로 使用하고 주어진 問題를 實驗으로 解決하기 위하여 처음부터 實驗을 計劃하는데 關心이 있다.또 다른 形態의 資料를 觀測으로부터 얻는다. 調査者들은 硏究室 밖으로 나가서 實際로 存在하는 것을 調査한다. 이런 例로는 人口 및 住宅센서스와 같은 全數調査, 輿論調査, 交通量調査等等이 있다. 이 境遇調査方法과 設問紙作成은 매우 重要한 問題가 된다. 設問紙調査에 있어서 가장 核心的인 部分은 設問紙作成要領이다. 묻고자 하는 質問을 짧고 明確하게 물어야 하고 應答者가 苦悶을 하지 않고 바로 對答할 수 있도록 構成해야 한다. 設問紙는 묻고자 하는 質問이면 무엇이든지 다 물을 수 있는 것이 아니라 問題의 核心的內容을 담고 있어야 한다.

基本用語 [ 編輯 ]

母集團 (母集團, population)은 觀測對象이 되는 全體集團이다. 調査의 對象이 되는 資料全體이다. ^[6] 母集團과 關聯해서 記號는 그리스文字를 使用하는 것이 慣例이다.
標本 (標本, sample) 또는 標本集團(標本集團)은 某集團에서 一部만 調査한 것이다. 母集團에서 抽出된 資料의 集合이다. 標本과 關聯해서 記號로는 英語 알파벳이 慣例로 使用된다.
代表값 (代表값, representative value)은 어떤 데이터를 代表하는 값이다. 平均, 中央값, 최빈(最頻)값이 있다.
平均 (平均, mean)은 데이터를 모두 더한 後 데이터의 個數로 나눈 값이다.
中央값 (中央값, median)은 全體 데이터 中 가운데에 있는 數이다. 職員이 100名인 會社에서 職員들 年俸平均은 5千萬원인데 社長의 年俸이 100億인 境遇, 會社全體의 年俸平均 은 1億 4,851萬원이 된다. 이처럼 極端的인 값이 있는 境遇中央값이 平均값 보다 有用하다.
最頻값 (最頻값, mode)은 가장 자주 나오는 값이다.
期待값 (期待값, expected value)은 統計에서는 平均과 같다고 생각하면 된다. 可能한 값마다 確率을 곱해서 모두 더한 것이다.
散布度 (散布度, degree of scattering) 또는 便山城(variability)은 資料가 흩어져 있는 程度를 나타낸다. 範圍 , 分散 , 標準偏差等. ^[2]
偏差 (偏差, deviation)는 觀測값 에서 平均 또는 中央값 을 뺀 것이다. 卽, 資料값 들이 特定값으로부터 떨어진 程度를 나타내는 數値이다.
分散 (分散, variance)은 觀測값에서 平均을 뺀 값 卽偏差(deviation)를 제곱 하고, 그것을 모두 더한 後全體個數로 나눠서 救한다. 卽, 偏差들(deviations)의 제곱合 (SS,sum of square)에서 平均값이다. 觀測값들에서 平均을 뺀 값인 偏差를 모두 더하면 0이 나오는 平均의 屬性으로 인해서 偏差제곱들을 더하게 된다.
標準偏差 (標準偏差, standard deviation)는 分散(分散)을 제곱根 한 것이다. 제곱해서 얻은 값이 된 分散의 性質로부터 이를 제곱根해서 다시 元來 크기의 單位로 標準化되도록 만들어준다.
絶對偏差 (絶對偏差, absolute deviation)는 觀測값에서 平均 또는 中央값을 빼고, 그 差異에 絶對값 을 取하고 그 값들의 代表값 을 求한 것이다.
範圍 (範圍): 가장 큰 測定값에서 가장 작은 測定값을 뺀 값이다.
母平均 (母平均, population mean) μ는 母集團 의 平均 이다. 모두 더한 後(後) 全體 데이터 數 n으로 나눈다. 確率變數 의 期待값 이다. 標集分布 (標集分布)에서 平均으로 $\mu _{\overline {x}}$ 를 使用할 수(數) 있다.
標本平均 (標集平均, sample mean) ${\overline {X}}$ 는 標本의 平均 이다. 모두 더한 後 n으로 나눈다.
모分散 (母分散, population variance) σ ²은 母集團의 分散이다. 觀測값에서 母平均 을 빼고 그것을 제곱 한 값을 모두 더하여 全體 데이터 數 n으로 나눈 것이다.
標本分散 (標本分散, sample variance) s ²은 標本의 分散이다. 觀測값에서 標本平均 을 빼고 제곱 한 값을 모두 더한 것을 n-1로 나눈 것이다.
某標準偏差 (母標準偏差, population standard deviation) σ는 母集團 의 標準偏差 이다. 모分散 σ ²에 제곱根 을 씌워서 救한다. 標集分布 에서 標準偏差로 $\sigma _{\overline {x}}$ 를 使用할 수 있다.
標本標準偏差 (標本標準偏差, sample standard deviation) s는 標本 의 標準偏差 이다. 標本分散 s ²에 제곱根을 씌워서 救한다.
平均絶對偏差 ((平均絶對偏差, average absolute deviation 또는 mean absolute deviation)는 觀測값에서 平均을 빼고, 그 差異값에 絶對값 을 取하고, 그 값들을 모두 더하여 全體 데이터 個數로 나눠준 것이다. 絶對값 偏差의 平均이라고 생각하면 된다.
中央값 絶對偏差 (中央값絶對偏差, median absolute deviation)는 觀測값에서 中央값을 빼고, 그 差異에 絶對값 을 取한 값들의 中央값을 救한다.
最小絶對偏差 (最小絶對偏差, least absolute deviation)는 回歸分析 (回歸分析, regression analysis)에 使用된다.
相關關係 (相關關係, correlation 또는 correlation analysis)는 두 個의 變量이 어느 程度規則的으로 同時에 變化되어 가는 性質이다. 母集團의 相關關係는 ρ , 標本의 相關關係는 r 을 記號로 使用한다.
信賴度 (信賴度, reliability) : 統計에서 어떠한 값이 알맞은 母平均이라고 믿을 수 있는 程度.
信賴區間 (信賴區間, confidence interval, CI) 또는 信賴水準(水準, confidence interval level): 1-α나 100(1-α)%의 信賴區間.
類의 水準 (有意水準, significance level): 普通 α로 標示한다. 95%의 信賴度를 基準으로 하면 1-0.95人 0.05街類의 水準 값이다.
p-값(p-value, probability value) 또는 留意確率 (significance probability, asymptotic significance): 귀무 假說 H ₀를 棄却할 수 있는 最小限의 類의 水準 이다.
臨界 값 (臨界값, critical value, threshold value): 검정 統計量의 分布에서 類의 水準 α값에 該當하는 線 위의 값이다.

變因 [ 編輯 ]

變因 (變因, variable): 變數 (變數)라고도 부르며, 硏究의 對象이 되고 있는 一連의 個體를 말한다.

獨立變因 (獨立變因): 다른 變因에게 作用하거나 다른 變因을 豫言하거나 說明해 주는 變因. 實驗硏究의 境遇는 獨立變因은 實驗者에 依하여 任意로 統制되고 造作된다. 따라서 實驗變因(experimental variable) 또는 處置變因(處置變因, treatment variable)이라고도 한다.
從屬變因 (從屬變因): 獨立變因의 造作結果(操作結果)에 依存하며 이의 效果를 判斷하는 準據가 되는 變因.

實驗의 基本的인 形態는 어떤 變因이 다른 어떤 變因에 어떠한 影響을 미치는지를 알아보고자 한다.

媒介變因 (媒介變因): 從屬變因에 影響을 주는 獨立變因以外의 變因으로서 硏究에 統制되어야 할 變因
量的變因 (量的變因): 量의 크기를 나타내기 위하여 數量으로 標示되는 變因
質的變因 (質的變因): 變因이 가지고 있는 屬性을 數量化 할 수 없는 變因
連續變因 (連續變因): 주어진 範圍內에서는 어떤 값도 가질 수 있는 變因
非連續變因 (非連續變因): 特定數値만을 가진 變因

調査와 尺度 [ 編輯 ]

調査對象을 基準으爐하면 對象이 되는 統計集團의 單位를 하나하나 全部調査하는 觀察方法인 全數調査(全數調査)와 母集團의 一部를 標本으로 抽出하여 調査한 結果로써 母集團全體의 性質을 推測하는 統計調査方法인 標本調査(標本調査)가 代表的인 調査方法이다.

全數調査 (全數調査): 調査의 對象이 되는 資料全體를 빠짐없이 調査하는 것이다.(모집단 全體를 調査). ^[6]
標本調査 (標本調査): 調査의 對象이 되는 資料의 一部만을 擇하여 調査함으로써 全體를 推測하는 調査이다. ^[6] 意識的으로 標本을 抽出하는 有意抽出法과 確率論에 立脚하여 標本을 抽出하는 任意抽出法이 있다.

이러한 調査를 통해 資料를 蒐集할 때에는 資料의 양질이 測定水準 (測定水準)에 따라 分類된다. 資料의 測定水準은 다음과 같이 分類된다. 測定水準에 따라 統計에 利用해야 할 要約統計量이나 統計檢定法이 다르게 된다.

分類資料 (分類資料): 數値로 測定이 不可能한 資料이다. 質的資料라고도 한다.
- 名目尺度 (名目尺度, nominal scale)：單純한 番號로 次例(次例)의 意味는 없다. (예: 電話番號 , 등番號 , 性別 , 血液型 (血液型), 住所等.)
- 順序尺度(序列尺度) (順序尺度, ordinal scale)：順序가 意味를 가지는 番號. (예: 階級, 順位 (順位), 等級 (等級) 等.)
數量資料 (數量資料): 數値로 測定이 可能한 資料이다. 量的資料라고도 한다.
- 區間尺度 (區間尺度, 燈竿尺度(燈竿尺度), interval scale)：順序뿐만 아니라 그 間隔에도 意味가 있으나, 0에 絶對的인 意味는 없다. (예: 溫度 , 知能指數 (知能指數) 等.)
- 比率尺度 (比率尺度, ratio scale)： 0을 基準으로 하는 絶對的尺度로, 間隔뿐만이 아니라 比率에도 意味가 있다. (예: 絶對溫度 (絶對溫度), 金額 , 몸무게 , 키 等.)

리커트法 [ 編輯 ]

리커트法(Likert法) 또는 리커트 尺度 (Likert scale)는 1932年 리커트(Likert, R.)가 考案한 態度 측정法이다. 應答者가 同意나 反對의 程度를 나타내도록 質問을 하는 形態이다.

統計的方法 [ 編輯 ]

實驗計劃 [ 編輯 ]

組織的인 統計調査가 이뤄지기 前까지는 質問書를 만들어 選定된 家口에 配布하는 方式을 利用했다. ^[7] 實驗計劃은 資料蒐集前에 미리 어떻게 實驗할것인지 計劃하여, 願하는 資料를 正確하게 蒐集하고 記錄할 수 있도록 하는 過程이다. 資料蒐集의 規模와 對象, 割當方法을 바르게 決定하고 正當한 資料를 蒐集할 수 있도록 檢討한다. 設問紙作成法等도 여기에 包含된다. ^[2]

設問紙作成 [ 編輯 ]

設問紙作成은 實驗計劃의 一部이기도 하지만, 大槪別個의 實習을 통해 體得하여야 한다. 設問紙는 "앙케이트(Enquete)"라고도 하며 統計資料에 必要한 資料를 蒐集하기 위해 必要한 質問들을 記錄하는 하나의 棲息이다. 이를 利用해 設問紙作成者, 應答者들의 客觀的인 생각, 各自의 價値와 信念, 態度等과 같은 여러 情報를 蒐集할 수 있다. 設問紙는 可能한 標準化 되도록 作成해야한다. 必要한 情報를 더욱 包括的으로 獲得하기 위해 設問紙는 다섯 가지 要素應答者에 對한 協助要請, 識別資料, 指示事項, 設問問項, 應答者의 分類를 위한 資料로 構成된다. 設問紙는 여러 番修正, 檢討過程을 거쳐야 意圖한 資料의 蒐集이 可能하다. 設問紙를 利用한 統計資料蒐集은 比較的費用이 적게들고 큰 標本에도 쉽게 適用이 可能하다는 長點이 있다. 그러나 다른 資料蒐集方法에 비해 무응답률이 높은 便이며 應答에 對한 補充說明의 機會가 주어지지 않는다는 短點이 있다.

推論統計 [ 編輯 ]

推論統計 (statistical inference)는 技術統計로 어떤 母集團에서 求한 標本情報를 가지고 그 母集團의 特性 및 可能性等을 推論해내는 統計的方法이다. 普通蒐集된 資料는 어떻게 分析해야 할지 미리 定해져 있기도 하지만, 大部分獲得한 資料(母集團)을 가지고 여러 그래프를 그려보는 渦中에 또다른 別個의 分析方法을 追加로 採擇할 必要性을 느끼게 된다. 이러한 母集團에 對한 全體的鳥瞰을 해보고 또다른 分析方向을 摸索해 보는 過程에 該當한다. ^[2] 推論統計는 바탕인 技術統計量이 있어야 한다. 이 推論統計를 하는 理由는 모든 사람을 對象으로 檢査를 하는 것은 非合理的이고 大規模集團을 가지고 硏究하는 것이 少數의 集團을 가지고 硏究하는 것보다 훨씬 經濟的이고 效率的이기 때문이다. 推論統計는 技術統計量의 正確性을 維持하는 作業으로서 使用한다. 普通一般的인 推論은 實驗結果가 旣存의 方式, 또는 다른 品種間比較等에서 差異點이 留意한지를 檢證하는 것이다.

技術統計 [ 編輯 ]

技術統計 (記述統計,descriptive statistics)는 測定 이나 實驗 에서 蒐集한 資料의 整理, 表現, 要約, 解釋等을 통해 資料의 特性을 糾明하는 統計的方法이다. 技術統計에는 分析方向에 따라 여러가지가 있다. 單純한 平均分散等의 기초적인 分析以外에, 母集團에서 어떤因子들이 있는지 뽑아내보는 因子分析과, 特定標本이 어떤母集團에 屬하는지(원 母集團을 어떻게 여러 集團으로 나눠야 하는지) 判斷하는 判別分析, 두 人者間의 相互關係에 對한 定準相關分析, 因子들의 數字를 줄여 單純化하는 主成分分析, 그 外群集分析等, 다양한 分析方法이 存在한다. ^[2]

統計分析 소프트웨어 [ 編輯 ]

SAS (Statistical Analysis System) - 企業體에서 主로 쓰는 代表的 프로그램이다. 큰 規模의 資料를 便利하게 다룰 수 있으나 各種統計分析結果를 歪曲해서 보여준다는 批判을 받기도 한다. ^[8]
R 은 無料公開統計 프로그래밍 및 開發環境이다. S 言語에 바탕을 두고 開發되었으며, 學術的目的으로 널리 使用된다. 새로 開發된 分析方法들이 擴張 패키지를 通해 公開되고 있다.
SPSS (Statistical Package for the Social Sciences)는 1995年 윈도 버전이 出市되었다. IBM에서 開發하고있다.

다양한 統計分析을 할 수 있고 社會科學, 醫學等全分野에서 다양하게 쓰이는 프로그램이나 計算速度가 느려 큰 規模의 資料를 다루기에는 便利하지 않다.

PSPP - 샘플 데이터 分析 및 統計(統計)를 위한 無料 및 公開 소프트웨어 애플리케이션으로 IBM SPSS와 大部分互換된다
MINITAB - 學校와 企業에서 品質管理와 統計學敎育用으로 많이 使用되는 프로그램이다.
RevMan - 코크란 리뷰 메니저(Cochrane Review Manager)인 RevMan은 코크란 (Cochrane)에서 提供하는 醫療保健分野의 無料 메타分析 프로그램이다.

統計學關聯學問 [ 編輯 ]

統計學은 컴퓨터 科學 , 프로그래밍 言語 , 線型代數學 , 解析學 , 분포론 , 數値解析 , 確率論等 여러 學問과 關聯되어 있다.

統計學과 社會科學의 發展에 따라 分散分析 , 回歸分析 , 要因分析等과 같은 評價模型들이 發展되고, 이들이 政策評價에 應用됨으로써 政策影響의 評價에 貢獻을 하고 있으며, 아직도 繼續發展되어 가는 過程에 있다.

特히 情報化社會와 빅데이터 時代를 맞아 다양한 社會情報의 蒐集·分析·活用을 擔當하는 새로운 職種으로 企業, 正當, 地方自治團體, 中央政府等各種團體의 市場調査 및 輿論調査等에 對한 計劃을 樹立하고 調査를 遂行하며 그 結果를 體系的으로 分析, 報告書를 作成하는 關聯學問이 必要하게 되어 社會調査分析學이 登場하게 된다.

社會調査分析士 란 企業이나 政黨, 地自體, 中央政府等各種團體가 必要로 하는 調査를 遂行해 分析, 報告하는 專門人力群이다. 主로 經營, 調査企劃, 資料分析, 마케팅 分野에서 일하므로 調査方法論, 社會統計, SPSS 統計分析實務等의 知識을 必要로 한다.

統計學의 變化 [ 編輯 ]

現代에 들어와 데이터 科學者들로 構成된 統計組織은 機關과 團體 그리고 企業의 收益에 影響을 미치는 다양한 데이터를 立體的으로 分析하고 結論을 얻어낸다. 未來를 豫測해 더 나은 結果物을 處方한다. 수많은 데이터 가운데 意味 있는 데이터 를 찾아냄으로써 더 나은 意思決定을 돕는 作業이 있는데 데이터 클리닝, 데이터 마이닝 等이다.

企業과 機關마다 부르는 이름은 다르지만, 生産·販賣와 서비스 等核心職務에서 營業力改善과 社員福祉等全領域에 걸쳐 이같은 데이터 科學組織의 役割은 全方位로 擴大되고 있다. 業界에서는 主要 데이터 에 對한 分析과 統計가 이뤄지는 비즈니스인텔리전스(BI) 組織이라 부른다. 데이터 分析組織을 運營하는 IT 組織은 시스템에서 나오는 各種 데이터 를 分析해 企業의 核心領域에 價値를 더하는 組織으로 變貌中이다.

戰士資源管理 ( ERP ) · 顧客關係管理 ( CRM ) · 生産管理시스템 ( MES ) · 經營情報 시스템 ( MIS ) · 戰略的企業經營 ( SEM ) 等各種 시스템에서 쏟아지는 수많은 데이터 에 對한 分析能力이 未來를 豫測하는 核心競爭力인 時代, 이른바 `데이터 經營` 時代의 開幕이 始作되었다. 이러한 時代를 ‘ 빅 데이터 ’ 技術의 時代라고 하는데 美國 의 有名經濟出版 및 미디어 企業인 포브스 도 未來의 有望職業中 하나로 '데이터 마이너(情報蒐集分析家)'를 選定하기도 했다.

포브스 에 依하면 빅 데이터 (Big Data) 데이터 마이닝 이란 旣存 데이터베이스 管理道具의 데이터 蒐集·貯藏·管理·分析의 力量을 넘어서는 大量의 整形 또는 非定型 데이터 세트 및 이러한 데이터 로부터 價値를 抽出하고 結果를 分析하는 技術로되는 ‘ 빅 데이터 ’를 補完, 마케팅, 視聽率調査, 經營等으로부터 體系化해 分類, 豫測, 聯關分析等의 데이터 마이닝 을 거쳐 統計學的으로 結果를 導出해 내고 있다. ^[2]^[9]^[10]

大韓民國 에서는 2000年 부터 情報通信部 의 傘下團體로 社團法人韓國BI데이터마이닝學會 가 設立되어 데이터 마이닝 에 關한 學術과 技術을 發展, 普及, 應用하고 있다. 또한 國內·外統計分野에서 徐徐히 빅 데이터 活用에 對한 關心과 必要性이 커지고 있는 가운데 國家統計業務를 計劃하고 厖大한 統計資料를 處理하는 國家機關인 統計廳 이 빅 데이터 를 硏究하고 活用方案을 摸索하기 위한 '빅 데이터 硏究會'를 發足하였다. ^[11] 하지만 業界에 따르면, 美國 과 英國 , 日本等先進國들은 이미 빅 데이터 를 多角的으로 分析해 組織의 戰略方向을 提示하는 데이터科學者養成에 死活을 걸고 있다. 그러나 韓國은 政府와 一部企業이 데이터科學者養成을 위한 프로그램을 進行中에 있어 아직 걸음마 段階인 것으로 알려져 있다. ^[12]

같이 보기 [ 編輯 ]

各州 [ 編輯 ]

↑ “名著 새로 읽기, 이언 해킹 "偶然을 길들이다 " ” . 京鄕新聞. 2013年 1月 18日 . 2013年 3月 5日에 確認함 .
↑ ^가 ^나 ^다 ^라 ^마 ^바 ^社 ^아 정상윤, 오경환 (2012). 《알기 쉬운 基礎統計學》. 螢雪出版社. ISBN 9788947271820 .
↑ Moore, David (1992). 〈Teaching Statistics as a Respectable Subject〉. F. Gordon and S. Gordon. 《Statistics for the Twenty-First Century》. Washington, DC: The Mathematical Association of America. 14?25쪽. ISBN 978-0-88385-078-7 .
↑ Chance, Beth L.; Rossman, Allan J. (2005). 〈Preface〉. 《Investigating Statistical Concepts, Applications, and Methods》 (PDF) . Duxbury Press. ISBN 978-0-495-05064-3 .
↑ https://www.stat.go.jp/teacher/c2epi2.html 　「「統計」という言葉の起源」統計?習の指導のために（先生向け）　日本??務省統計局　2010年　2019年11月20日??
↑ ^가 ^나 ^다 槪念原理積分科統計, 이홍섭
↑ 윤석범. 《새巨視經濟學》 . 144쪽.
↑ Exegeses on Linear Models
↑ (韓國語) 統計廳 안내 參照
↑ (韓國語) 社會調査分析士 Archived 2014年 8月 29日 - 웨이백 머신 안내 參照
↑ “統計廳 `빅데이터 硏究會` 發足, 統計情報局職員中心自體結成… 動向分析ㆍ活用方案摸索” . 디지털타임스. 2012年 11月 8日 . 2013年 3月 20日에 確認함 .
↑ ““빅테이터가 企業未來左右”” . CNB저널. 2013年 2月 12日. 2013年 10月 29日에 原本文書 에서 保存된 文書 . 2013年 3月 20日에 確認함 .

外部 링크 [ 編輯 ]

위키미디어 公用에 統計學關聯 미디어 分類가 있습니다.
위키배움터에 統計學關聯資料가 있습니다.
(韓國語) 統計廳 홈페이지
(韓國語) 韓國統計學會 홈페이지
(韓國語) 韓國調査硏究學會 홈페이지
(韓國語) 統計分析硏究會

[1] “名著 새로 읽기, 이언 해킹 "偶然을 길들이다 " ” . 京鄕新聞. 2013年 1月 18日 . 2013年 3月 5日에 確認함 .

[통계학-2] 가 ^나 ^다 ^라 ^마 ^바 ^社 ^아 정상윤, 오경환 (2012). 《알기 쉬운 基礎統計學》. 螢雪出版社. ISBN 9788947271820 .

[3] Moore, David (1992). 〈Teaching Statistics as a Respectable Subject〉. F. Gordon and S. Gordon. 《Statistics for the Twenty-First Century》. Washington, DC: The Mathematical Association of America. 14?25쪽. ISBN 978-0-88385-078-7 .

[4] Chance, Beth L.; Rossman, Allan J. (2005). 〈Preface〉. 《Investigating Statistical Concepts, Applications, and Methods》 (PDF) . Duxbury Press. ISBN 978-0-495-05064-3 .

[5] ttps://www.stat.go.jp/teacher/c2epi2.html 　「「統計」という言葉の起源」統計?習の指導のために（先生向け）　日本??務省統計局　2010年　2019年11月20日??

[개념원리_적분과통계,_이홍섭-6] 가 ^나 ^다 槪念原理積分科統計, 이홍섭

[yun-7] 윤석범. 《새巨視經濟學》 . 144쪽.

[8] Exegeses on Linear Models

[9] (韓國語) 統計廳 안내 參照

[10] (韓國語) 社會調査分析士 Archived 2014年 8月 29日 - 웨이백 머신 안내 參照

[11] “統計廳 `빅데이터 硏究會` 發足, 統計情報局職員中心自體結成… 動向分析ㆍ活用方案摸索” . 디지털타임스. 2012年 11月 8日 . 2013年 3月 20日에 確認함 .

[12] ““빅테이터가 企業未來左右”” . CNB저널. 2013年 2月 12日. 2013年 10月 29日에 原本文書 에서 保存된 文書 . 2013年 3月 20日에 確認함 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

v t e 數學 의 主要分野
數論	代數的數論解釋的數論
代數學	線型代數學抽象代數學群論環論可換代數學 호몰로지 代數學
解析學	微積分學 실解釋學複素解釋學數値解析學測度론 函數解析學調和解釋學非標準解析學
幾何學	代數幾何學計算幾何學解析幾何學微分幾何學 리만 幾何學
位相數學	一般位相數學代數的位相數學微分位相數學 매듭 理論
數學基礎論	數理論理學模型理論證明理論計算可能性理論集合論範疇論
離散數學	計算理論計算複雜度理論暗號學組合론 그래프 理論
確率과 統計	確率論統計學確率微積分學 게임 理論決定理論

典據統制
國家	프랑스 BnF 데이터 獨逸 이스라엘 美國 라트비아 日本 체코 韓國
기타	스위스 歷史事前國立文書記錄管理廳 2