統計學

위키百科, 우리 모두의 百科事典.
( 統計 에서 넘어옴)

統計學 (統計學, 英語 : statistics )은 算術的 方法을 基礎로 하여, 州로 多量의 데이터 를 觀察하고 整理 및 分析하는 方法을 硏究하는 數學 의 한 分野이다. 近代 科學으로서의 統計學은 19世紀 中盤 벨기에 케틀레 가 獨逸의 "國狀學(國狀學, Staatenkunde, 넓은 意味의 國家學)"과 英國의 "政治 算術(政治算術, Political Arithmetic, 政治 社會에 對한 數量的 硏究 方法)"을 自然科學의 "確率 理論"과 結合하여, 樹立한 學問에서 發展되었다. [1] [2]

槪要 [ 編輯 ]

統計學은 觀察 및 調査로 얻을 수 있는 데이터 로부터, 應用 數學의 技法을 利用해 數値上의 性質, 規則性 또는 不規則性을 찾아낸다. 統計的 技法은, 實驗 計劃, 데이터 의 要約이나 解釋을 實施하는데 있어서의 根據를 提供하는 學問이며, 폭넓은 分野에서 應用되어 實生活에 適用되고 있다. [2] 統計學은 實證的인 뿌리를 가지고 있으며 實質的 活用에 焦點을 맞추고 있기 때문에, 흔히 純粹數學과는 多少 區分되는 應用數學 의 一種으로 여겨진다. 統計學의 方法을 통해, 實際의 數値들을 歪曲하여 解釋하는 것을 막고 硏究를 바탕으로 合理的인 意思決定을 할 수 있다. [3] [4] 統計學은 科學, 産業, 또는 社會의 問題에 適用되며 母集團을 硏究하는 過程이 우선시된다. 母集團은 "漢나라 안에 사는 모든 사람" 또는 "크리스탈을 構成하는 모든 原子"와 같이 일정한 特性을 지닌 集團이면 어느 것이든 可能하다. 統計學者들은 全體人口(人口調査를 하는 企業)에 對한 데이터를 編輯한다. 이것은 政府의 統計關聯 法律要約集같은 組織化된 方法으로 遂行될 수도 있다. 記述統計學은 母集團의 데이터를 要約하는데 使用된다. 度數 및 比率 (慶州 等) 範疇 兄 데이터를 說明하는 側面에서 더 有用할 동안 數値 技術者는 連續的인 데이터 類型 (所得 等)에 對한 平均과 標準 偏差를 包含한다. 데이터 分析 方法 엄청난 資料가 硏究되는 現代 社會에서 經濟指標硏究, 마케팅, 輿論調査, 農業, 生命科學, 醫療의 臨床硏究 等 多樣한 分野에서 應用되고 있는 統計는 斷然 우리 社會에서 가장 必要하고 實用的인 學問이라고 할 수 있다.

數理統計學 [ 編輯 ]

數理統計學은 數學의 方法을 統計學에 適用한 것이다. 統計學은 元來 國家에 對한 科學으로 생각되었는데 卽, 國家의 땅, 經濟, 軍力, 人口 等에 關한 事實을 蒐集하고 分析하는 것이었다. 使用되는 數學的 方法은 解釋學, 線型 代數學, 確率分析, 微分 方程式과 側도 理論的 確率理論 等을 包含한다.

어원 [ 編輯 ]

英語 의 스태티스틱스(statistics ← 統計學, 統計)는 ‘確率’을 뜻하는 라틴語 statisticus (確率) 또는 statisticum (狀態), 이탈리아語 statista (나라, 政治가) 等에서 由來했다고 한다. 特히 ‘國家’라는 意味가 담긴 이탈리아語 statista 의 影響을 받아, 國家의 人力, 財力 等 國家的 資料를 比較 檢討하는 學問을 의미하게 되었다. 近代에서의 統計學은 벨기에 의 天文學者이자 社會學者이며 近代 統計學을 確立한 人物로 評價 받는 케틀레 가 벨기에의 브뤼셀에서 統計學者들로 構成된 9個의 會議를 召集한 것을 起源으로 하고 있다. [2] 蒐集되고 分類된 數字 데이터"라는 意味로 使用된 것은 1829年부터이고, 略字로 stats가 처음 記錄된 것은 1961年부터이다. 또, 統計學者의 意味인 statistician이 使用된 것은 1825年부터이다.

漢字 文化圈에서 使用되는 統計(統計)라는 單語의 起源은 明確하게 알려진 바는 없지만, 幕府 末期에서 메이지 天皇 初年에 걸쳐 洋學者人 야나가와 슌親 (柳川春三)李 現在의 意味로 이 單語를 처음 使用했다고 여겨진다. 그가 1869年에 編纂한 冊子에서 統計가 現在의 用法으로 使用되었다는 記錄이 남아있다. 그 後 1871年에는 大藏省 에 統計社(統計司)와 統計요(統計寮)가 設置되면서 統計라는 單語의 使用이 大衆化되었다. [5]

役割 [ 編輯 ]

매우 다양한 分野의 硏究에서 주어진 問題에 對하여 適切한 情報 를 蒐集하고 分析하여 解答을 求하는 過程은 아주 重要하다. 이런 方法을 硏究하는 科學의 한 分野가 統計學이다. 統計學을 必要로 하는 硏究分野는 農業, 生命科學, 環境科學, 産業硏究, 品質保證, 市場調査 等 매우 많다. 또한 이러한 硏究方式은 企業體와 政府의 意思決定過程에서 顯著하게 나타난다. 주어진 問題에 對하여 必要한 資料의 形態, 資料를 蒐集하는 方法, 問題에 對한 最善의 答을 求하기 위한 分析方法을 決定하는 것이 統計學者의 役割이다.

資料는 어떤 특정한 現象(주제, 事實)을 調査하기 위하여 設計하고 計劃한 實驗에서 나온다. 이런 種類의 資料, 卽 實驗資料는 農業硏究와 같은 分野에 흔히 있다. 統計學者들은 이미 나온 實驗資料를 分析하는데만 關心이 있지않고, 資源을 效果的으로 使用하고 주어진 問題를 實驗으로 解決하기 위하여 처음부터 實驗을 計劃하는데 關心이 있다.또 다른 形態의 資料를 觀測으로부터 얻는다. 調査者들은 硏究室 밖으로 나가서 實際로 存在하는 것을 調査한다. 이런 例로는 人口 및 住宅센서스와 같은 全數調査, 輿論調査, 交通量調査 等等이 있다. 이 境遇 調査方法과 設問紙 作成은 매우 重要한 問題가 된다. 設問紙 調査에 있어서 가장 核心的인 部分은 設問紙 作成 要領이다. 묻고자 하는 質問을 짧고 明確하게 물어야 하고 應答者가 苦悶을 하지 않고 바로 對答할 수 있도록 構成해야 한다. 設問紙는 묻고자 하는 質問이면 무엇이든지 다 물을 수 있는 것이 아니라 問題의 核心的 內容을 담고 있어야 한다.

基本 用語 [ 編輯 ]

  • 母集團 (母集團, population)은 觀測 對象이 되는 全體 集團이다. 調査의 對象이 되는 資料 全體이다. [6] 母集團과 關聯해서 記號는 그리스文字를 使用하는 것이 慣例이다.
  • 標本 (標本, sample) 또는 標本集團(標本集團)은 某 集團에서 一部만 調査한 것이다. 母集團에서 抽出된 資料의 集合이다. 標本과 關聯해서 記號로는 英語 알파벳이 慣例로 使用된다.
  • 代表값 (代表값, representative value)은 어떤 데이터를 代表하는 값이다. 平均, 中央값, 최빈(最頻)값이 있다.
  • 平均 (平均, mean)은 데이터를 모두 더한 後 데이터의 個數로 나눈 값이다.
  • 中央값 (中央값, median)은 全體 데이터 中 가운데에 있는 數이다. 職員이 100名인 會社에서 職員들 年俸 平均은 5千萬원인데 社長의 年俸이 100億인 境遇, 會社 全體의 年俸 平均 은 1億 4,851萬원이 된다. 이처럼 極端的인 값이 있는 境遇 中央값이 平均값 보다 有用하다.
  • 最頻값 (最頻값, mode)은 가장 자주 나오는 값이다.
  • 期待값 (期待값, expected value)은 統計에서는 平均과 같다고 생각하면 된다. 可能한 값마다 確率을 곱해서 모두 더한 것이다.
  • 散布度 (散布度, degree of scattering) 또는 便山城(variability)은 資料가 흩어져 있는 程度를 나타낸다. 範圍 , 分散 , 標準偏差 等. [2]
  • 偏差 (偏差, deviation)는 觀測값 에서 平均 또는 中央값 을 뺀 것이다. 卽, 資料값 들이 特定값으로부터 떨어진 程度를 나타내는 數値이다.
  • 分散 (分散, variance)은 觀測값에서 平均을 뺀 값 卽 偏差(deviation)를 제곱 하고, 그것을 모두 더한 後 全體 個數로 나눠서 救한다. 卽, 偏差들(deviations)의 제곱合 (SS,sum of square)에서 平均값이다. 觀測값들에서 平均을 뺀 값인 偏差를 모두 더하면 0이 나오는 平均의 屬性으로 인해서 偏差제곱들을 더하게 된다.
  • 標準 偏差 (標準偏差, standard deviation)는 分散(分散)을 제곱根 한 것이다. 제곱해서 얻은 값이 된 分散의 性質로부터 이를 제곱根해서 다시 元來 크기의 單位로 標準化되도록 만들어준다.
  • 絶對 偏差 (絶對偏差, absolute deviation)는 觀測값에서 平均 또는 中央값을 빼고, 그 差異에 絶對값 을 取하고 그 값들의 代表값 을 求한 것이다.
  • 範圍 (範圍): 가장 큰 測定값에서 가장 작은 測定값을 뺀 값이다.
  • 母平均 (母平均, population mean) μ는 母集團 平均 이다. 모두 더한 後(後) 全體 데이터 數 n으로 나눈다. 確率 變數 期待값 이다. 標集分布 (標集分布)에서 平均으로 를 使用할 수(數) 있다.
  • 標本 平均 (標集平均, sample mean) 는 標本의 平均 이다. 모두 더한 後 n으로 나눈다.
  • 모分散 (母分散, population variance) σ 2 은 母集團의 分散이다. 觀測값에서 母平均 을 빼고 그것을 제곱 한 값을 모두 더하여 全體 데이터 數 n으로 나눈 것이다.
  • 標本分散 (標本分散, sample variance) s 2 은 標本의 分散이다. 觀測값에서 標本平均 을 빼고 제곱 한 값을 모두 더한 것을 n-1로 나눈 것이다.
  • 某標準偏差 (母標準偏差, population standard deviation) σ는 母集團 標準偏差 이다. 모分散 σ 2 제곱根 을 씌워서 救한다. 標集分布 에서 標準偏差로 를 使用할 수 있다.
  • 標本標準偏差 (標本標準偏差, sample standard deviation) s는 標本 標準偏差 이다. 標本分散 s 2 에 제곱根을 씌워서 救한다.
  • 平均 絶對 偏差 ((平均絶對偏差, average absolute deviation 또는 mean absolute deviation)는 觀測값에서 平均을 빼고, 그 差異값에 絶對값 을 取하고, 그 값들을 모두 더하여 全體 데이터 個數로 나눠준 것이다. 絶對값 偏差의 平均이라고 생각하면 된다.
  • 中央값 絶對 偏差 (中央값絶對偏差, median absolute deviation)는 觀測값에서 中央값을 빼고, 그 差異에 絶對값 을 取한 값들의 中央값을 救한다.
  • 最小 絶對 偏差 (最小絶對偏差, least absolute deviation)는 回歸 分析 (回歸分析, regression analysis)에 使用된다.
  • 相關關係 (相關關係, correlation 또는 correlation analysis)는 두 個의 變量이 어느 程度 規則的으로 同時에 變化되어 가는 性質이다. 母集團의 相關關係는 ρ , 標本의 相關關係는 r 을 記號로 使用한다.
  • 信賴度 (信賴度, reliability) : 統計에서 어떠한 값이 알맞은 母平均이라고 믿을 수 있는 程度.
  • 信賴 區間 (信賴區間, confidence interval, CI) 또는 信賴 水準(水準, confidence interval level): 1-α나 100(1-α)%의 信賴 區間.
  • 類의 水準 (有意水準, significance level): 普通 α로 標示한다. 95%의 信賴度를 基準으로 하면 1-0.95人 0.05街 類의 水準 값이다.
  • p-값(p-value, probability value) 또는 留意 確率 (significance probability, asymptotic significance): 귀무 假說 H 0 를 棄却할 수 있는 最小限의 類의 水準 이다.
  • 臨界 값 (臨界값, critical value, threshold value): 검정 統計量의 分布에서 類의 水準 α값에 該當하는 線 위의 값이다.

變因 [ 編輯 ]

變因 (變因, variable): 變數 (變數)라고도 부르며, 硏究의 對象이 되고 있는 一連의 個體를 말한다.

  • 獨立 變因 (獨立變因): 다른 變因에게 作用하거나 다른 變因을 豫言하거나 說明해 주는 變因. 實驗硏究의 境遇는 獨立變因은 實驗者에 依하여 任意로 統制되고 造作된다. 따라서 實驗變因(experimental variable) 또는 處置變因(處置變因, treatment variable)이라고도 한다.
  • 從屬 變因 (從屬變因): 獨立變因의 造作結果(操作結果)에 依存하며 이의 效果를 判斷하는 準據가 되는 變因.

實驗의 基本的인 形態는 어떤 變因이 다른 어떤 變因에 어떠한 影響을 미치는지를 알아보고자 한다.

  • 媒介 變因 (媒介變因): 從屬變因에 影響을 주는 獨立變因 以外의 變因으로서 硏究에 統制되어야 할 變因
  • 量的 變因 (量的變因): 量의 크기를 나타내기 위하여 數量으로 標示되는 變因
  • 質的 變因 (質的變因): 變因이 가지고 있는 屬性을 數量化 할 수 없는 變因
  • 連續 變因 (連續變因): 주어진 範圍 內에서는 어떤 값도 가질 수 있는 變因
  • 非連續 變因 (非連續變因): 特定 數値만을 가진 變因

調査와 尺度 [ 編輯 ]

調査對象을 基準으爐하면 對象이 되는 統計 集團의 單位를 하나하나 全部 調査하는 觀察 方法인 全數調査(全數調査)와 母集團의 一部를 標本으로 抽出하여 調査한 結果로써 母集團 全體의 性質을 推測하는 統計 調査 方法인 標本調査(標本調査)가 代表的인 調査 方法이다.

  • 全數調査 (全數調査): 調査의 對象이 되는 資料 全體를 빠짐없이 調査하는 것이다.(모집단 全體를 調査). [6]
  • 標本調査 (標本調査): 調査의 對象이 되는 資料의 一部만을 擇하여 調査함으로써 全體를 推測하는 調査이다. [6] 意識的으로 標本을 抽出하는 有意 抽出法과 確率論에 立脚하여 標本을 抽出하는 任意 抽出法이 있다.

이러한 調査를 통해 資料를 蒐集할 때에는 資料의 양질이 測定水準 (測定水準)에 따라 分類된다. 資料의 測定水準은 다음과 같이 分類된다. 測定水準에 따라 統計에 利用해야 할 要約 統計量이나 統計 檢定法이 다르게 된다.

리커트法 [ 編輯 ]

리커트法(Likert法) 또는 리커트 尺度 (Likert scale)는 1932年 리커트(Likert, R.)가 考案한 態度 측정法이다. 應答者가 同意나 反對의 程度를 나타내도록 質問을 하는 形態이다.

統計的 方法 [ 編輯 ]

實驗 計劃 [ 編輯 ]

組織的인 統計 調査가 이뤄지기 前까지는 質問書를 만들어 選定된 家口에 配布하는 方式을 利用했다. [7] 實驗計劃은 資料蒐集前에 미리 어떻게 實驗할것인지 計劃하여, 願하는 資料를 正確하게 蒐集하고 記錄할 수 있도록 하는 過程이다. 資料 蒐集의 規模와 對象, 割當 方法을 바르게 決定하고 正當한 資料를 蒐集할 수 있도록 檢討한다. 設問紙 作成法 等도 여기에 包含된다. [2]

設問紙 作成 [ 編輯 ]

設問紙 作成은 實驗計劃의 一部이기도 하지만, 大槪 別個의 實習을 통해 體得하여야 한다. 設問紙는 "앙케이트(Enquete)"라고도 하며 統計 資料에 必要한 資料를 蒐集하기 위해 必要한 質問들을 記錄하는 하나의 棲息이다. 이를 利用해 設問紙 作成者, 應答者들의 客觀的인 생각, 各自의 價値와 信念, 態度 等과 같은 여러 情報를 蒐集할 수 있다. 設問紙는 可能한 標準化 되도록 作成해야한다. 必要한 情報를 더욱 包括的으로 獲得하기 위해 設問紙는 다섯 가지 要素 應答者에 對한 協助要請, 識別資料, 指示事項, 設問問項, 應答者의 分類를 위한 資料로 構成된다. 設問紙는 여러 番 修正, 檢討 過程을 거쳐야 意圖한 資料의 蒐集이 可能하다. 設問紙를 利用한 統計資料 蒐集은 比較的 費用이 적게들고 큰 標本에도 쉽게 適用이 可能하다는 長點이 있다. 그러나 다른 資料蒐集 方法에 비해 무응답률이 높은 便이며 應答에 對한 補充說明의 機會가 주어지지 않는다는 短點이 있다.

推論 統計 [ 編輯 ]

推論 統計 (statistical inference)는 技術統計로 어떤 母集團에서 求한 標本情報를 가지고 그 母集團의 特性 및 可能性 等을 推論해내는 統計的 方法이다. 普通 蒐集된 資料는 어떻게 分析해야 할지 미리 定해져 있기도 하지만, 大部分 獲得한 資料(母集團)을 가지고 여러 그래프를 그려보는 渦中에 또다른 別個의 分析方法을 追加로 採擇할 必要性을 느끼게 된다. 이러한 母集團에 對한 全體的 鳥瞰을 해보고 또다른 分析方向을 摸索해 보는 過程에 該當한다. [2] 推論 統計는 바탕인 技術 統計量이 있어야 한다. 이 推論 統計를 하는 理由는 모든 사람을 對象으로 檢査를 하는 것은 非合理的이고 大規模 集團을 가지고 硏究하는 것이 少數의 集團을 가지고 硏究하는 것보다 훨씬 經濟的이고 效率的이기 때문이다. 推論 統計는 技術 統計量의 正確性을 維持하는 作業으로서 使用한다. 普通 一般的인 推論은 實驗 結果가 旣存의 方式, 또는 다른 品種間 比較 等에서 差異點이 留意한지를 檢證하는 것이다.

技術 統計 [ 編輯 ]

技術統計 (記述統計,descriptive statistics)는 測定 이나 實驗 에서 蒐集한 資料의 整理, 表現, 要約, 解釋 等을 통해 資料의 特性을 糾明하는 統計的 方法이다. 技術統計에는 分析方向에 따라 여러가지가 있다. 單純한 平均 分散 等의 기초적인 分析 以外에, 母集團에서 어떤因子들이 있는지 뽑아내보는 因子分析과, 特定標本이 어떤母集團에 屬하는지(원 母集團을 어떻게 여러 集團으로 나눠야 하는지) 判斷하는 判別分析, 두 人者間의 相互關係에 對한 定準相關分析, 因子들의 數字를 줄여 單純化하는 主成分分析, 그 外 群集分析 等, 다양한 分析方法이 存在한다. [2]

統計分析 소프트웨어 [ 編輯 ]

  • SAS (Statistical Analysis System) - 企業體에서 主로 쓰는 代表的 프로그램이다. 큰 規模의 資料를 便利하게 다룰 수 있으나 各種 統計 分析 結果를 歪曲해서 보여준다는 批判을 받기도 한다. [8]
  • R 은 無料 公開 統計 프로그래밍 및 開發環境이다. S 言語에 바탕을 두고 開發되었으며, 學術的 目的으로 널리 使用된다. 새로 開發된 分析 方法들이 擴張 패키지를 通해 公開되고 있다.
  • SPSS (Statistical Package for the Social Sciences)는 1995年 윈도 버전이 出市되었다. IBM에서 開發하고있다.

다양한 統計分析을 할 수 있고 社會科學, 醫學 等 全 分野에서 다양하게 쓰이는 프로그램이나 計算 速度가 느려 큰 規模의 資料를 다루기에는 便利하지 않다.

  • PSPP - 샘플 데이터 分析 및 統計(統計)를 위한 無料 및 公開 소프트웨어 애플리케이션으로 IBM SPSS와 大部分 互換된다
  • MINITAB - 學校와 企業에서 品質管理와 統計學 敎育用으로 많이 使用되는 프로그램이다.
  • RevMan - 코크란 리뷰 메니저(Cochrane Review Manager)인 RevMan은 코크란 (Cochrane)에서 提供하는 醫療保健分野의 無料 메타分析 프로그램이다.

統計學 關聯 學問 [ 編輯 ]

統計學은 컴퓨터 科學 , 프로그래밍 言語 , 線型代數學 , 解析學 , 분포론 , 數値解析 , 確率論 等 여러 學問과 關聯되어 있다.

統計學과 社會科學의 發展에 따라 分散分析 , 回歸分析 , 要因分析 等과 같은 評價模型들이 發展되고, 이들이 政策評價에 應用됨으로써 政策影響의 評價에 貢獻을 하고 있으며, 아직도 繼續 發展되어 가는 過程에 있다.

特히 情報化社會와 빅데이터 時代를 맞아 다양한 社會情報의 蒐集·分析·活用을 擔當하는 새로운 職種으로 企業, 正當, 地方自治團體, 中央政府 等 各種 團體의 市場調査 및 輿論調査 等에 對한 計劃을 樹立하고 調査를 遂行하며 그 結果를 體系的으로 分析, 報告書를 作成하는 關聯 學問이 必要하게 되어 社會調査分析學이 登場하게 된다.

社會調査分析士 란 企業이나 政黨, 地自體, 中央政府 等 各種 團體가 必要로 하는 調査를 遂行해 分析, 報告하는 專門 人力群이다. 主로 經營, 調査企劃, 資料分析, 마케팅 分野에서 일하므로 調査方法論, 社會統計, SPSS 統計分析 實務 等의 知識을 必要로 한다.

統計學의 變化 [ 編輯 ]

現代에 들어와 데이터 科學者들로 構成된 統計 組織은 機關과 團體 그리고 企業의 收益에 影響을 미치는 다양한 데이터를 立體的으로 分析하고 結論을 얻어낸다. 未來를 豫測해 더 나은 結果物을 處方한다. 수많은 데이터 가운데 意味 있는 데이터 를 찾아냄으로써 더 나은 意思決定을 돕는 作業이 있는데 데이터 클리닝, 데이터 마이닝 等이다.

企業과 機關마다 부르는 이름은 다르지만, 生産·販賣와 서비스 等 核心 職務에서 營業力 改善과 社員 福祉 等 全 領域에 걸쳐 이같은 데이터 科學 組織의 役割은 全方位로 擴大되고 있다. 業界에서는 主要 데이터 에 對한 分析과 統計가 이뤄지는 비즈니스인텔리전스(BI) 組織이라 부른다. 데이터 分析 組織을 運營하는 IT 組織은 시스템에서 나오는 各種 데이터 를 分析해 企業의 核心 領域에 價値를 더하는 組織으로 變貌 中이다.

戰士資源管理 ( ERP · 顧客關係管理 ( CRM · 生産管理시스템 ( MES · 經營 情報 시스템 ( MIS · 戰略的 企業 經營 ( SEM ) 等 各種 시스템에서 쏟아지는 수많은 데이터 에 對한 分析能力이 未來를 豫測하는 核心 競爭力인 時代, 이른바 `데이터 經營` 時代의 開幕이 始作되었다. 이러한 時代를 ‘ 빅 데이터 ’ 技術의 時代라고 하는데 美國 의 有名 經濟 出版 및 미디어 企業인 포브스 도 未來의 有望職業 中 하나로 '데이터 마이너(情報蒐集 分析家)'를 選定하기도 했다.

포브스 에 依하면 빅 데이터 (Big Data) 데이터 마이닝 이란 旣存 데이터베이스 管理道具의 데이터 蒐集·貯藏·管理·分析의 力量을 넘어서는 大量의 整形 또는 非定型 데이터 세트 및 이러한 데이터 로부터 價値를 抽出하고 結果를 分析하는 技術로되는 ‘ 빅 데이터 ’를 補完, 마케팅, 視聽率調査, 經營 等으로부터 體系化해 分類, 豫測, 聯關分析 等의 데이터 마이닝 을 거쳐 統計學的으로 結果를 導出해 내고 있다. [2] [9] [10]

大韓民國 에서는 2000年 부터 情報通信部 의 傘下團體로 社團法人 韓國BI데이터마이닝學會 가 設立되어 데이터 마이닝 에 關한 學術과 技術을 發展, 普及, 應用하고 있다. 또한 國內·外 統計分野에서 徐徐히 빅 데이터 活用에 對한 關心과 必要性이 커지고 있는 가운데 國家統計 業務를 計劃하고 厖大한 統計資料를 處理하는 國家機關인 統計廳 빅 데이터 를 硏究하고 活用方案을 摸索하기 위한 '빅 데이터 硏究會'를 發足하였다. [11] 하지만 業界에 따르면, 美國 英國 , 日本 等 先進國들은 이미 빅 데이터 를 多角的으로 分析해 組織의 戰略方向을 提示하는 데이터科學者 養成에 死活을 걸고 있다. 그러나 韓國은 政府와 一部 企業이 데이터科學者 養成을 위한 프로그램을 進行 中에 있어 아직 걸음마 段階인 것으로 알려져 있다. [12]

같이 보기 [ 編輯 ]

各州 [ 編輯 ]

  1. “名著 새로 읽기, 이언 해킹 "偶然을 길들이다 " . 京鄕新聞. 2013年 1月 18日 . 2013年 3月 5日에 確認함 .  
  2. 정상윤, 오경환 (2012). 《알기 쉬운 基礎統計學》. 螢雪出版社. ISBN   9788947271820 .  
  3. Moore, David (1992). 〈Teaching Statistics as a Respectable Subject〉. F. Gordon and S. Gordon. 《Statistics for the Twenty-First Century》. Washington, DC: The Mathematical Association of America. 14?25쪽. ISBN   978-0-88385-078-7 .  
  4. Chance, Beth L.; Rossman, Allan J. (2005). 〈Preface〉. 《Investigating Statistical Concepts, Applications, and Methods》 (PDF) . Duxbury Press. ISBN   978-0-495-05064-3 .  
  5. https://www.stat.go.jp/teacher/c2epi2.html  「「統計」という言葉の起源」統計?習の指導のために(先生向け) 日本??務省統計局 2010年 2019年11月20日??
  6. 槪念原理 積分科統計, 이홍섭
  7. 윤석범. 《새巨視經濟學》 . 144쪽.  
  8. Exegeses on Linear Models
  9. (韓國語) 統計廳 안내 參照
  10. (韓國語) 社會調査分析士 Archived 2014年 8月 29日 - 웨이백 머신 안내 參照
  11. “統計廳 `빅데이터 硏究會` 發足, 統計情報局 職員 中心 自體 結成… 動向 分析ㆍ活用方案 摸索” . 디지털타임스. 2012年 11月 8日 . 2013年 3月 20日에 確認함 .  
  12. ““빅테이터가 企業未來 左右”” . CNB저널. 2013年 2月 12日. 2013年 10月 29日에 原本 文書 에서 保存된 文書 . 2013年 3月 20日에 確認함 .  

外部 링크 [ 編輯 ]