한국   대만   중국   일본 
箱子 鬚髥 그림 - 위키百科, 우리 모두의 百科事典 本文으로 移動

箱子 鬚髥 그림

위키百科, 우리 모두의 百科事典.

技術 統計學 에서 ' 箱子 鬚髥 그림' (box-and-whisker plot, box-and-whisker diagram) 또는 ' 箱子 그림' (box plot, boxplot)은 數値的 資料를 表現하는 그래프이다. 이 그래프는 加工하지 않은 資料 그대로를 利用하여 그린 것이 아니라, 資料로부터 얻어낸 統計量人 5가지 要約 數値 ( 다섯 數字 要約 , five-number summary)를 가지고 그린다. 이 때 5가지 要約 數値란 最小값, 第 1私紛委( ), 第 2私紛委( ), 第 3私紛委( ), 最大값을 일컫는 말이다. 히스토그램 과는 다르게 集團이 여러個인 境遇에도 한 空間에 수월하게 나타낼수 있다.

用語 [ 編輯 ]

  1. 百分位 수 : 데이터를 百等分 한 것
  2. 私紛委 수 : 데이터를 4等分 한 것
  3. 中位數 : 데이터의 正 가운데 順位에 該當하는 값.(觀測値의 折半은 크거나 같고 나머지 折半은 작거나 같다.)
  4. 第 3私紛委 수 (Q3) : 中央값 基準으로 上位 50% 中의 中央값, 全體 데이터 中 上位 25%에 該當하는 값
  5. 第 1私紛委 수 (Q1) : 中央값 基準으로 下位 50% 中의 中央값, 全體 데이터 中 下位 25%에 該當하는 값
  6. 私紛委 範圍 수(IQR) : 데이터의 中間 50% (Q3 - Q1)

類型 [ 編輯 ]

箱子와 鬚髥은 第4奔慰數를 標示하고 箱子 안의 밴드는 恒常 第2分衛戍(中間값)을 標示한다. 그러나 鬚髥의 끝은 여러 가지 可能한 代案 값을 나타낼 수 있다.

  1. 모든 데이터의 最小값과 最大값
  2. 如前히 1.5內의 最低 데이터 IQR 下部의 分位, 및 上部 分衛戍 1.5 IQR 內에 如前히 最高 데이터
  3. 데이터 平均 以上 標準偏差 1個
  4. 9 百分位 數 및 91 百分位 수
  5. 2百分位 數 및 98 百分位 수

鬚髥 사이에 包含되지 않은 모든 데이터는 點, 작은 圓 또는 별이 있는 異常値로 構成되어야하지만 때론 完成되지 않는다.

一部 박스 플롯에는 데이터의 平均을 나타내는 追加 文字가 包含된다.

一部 박스 플롯에서는 鬚髥이 끝나기 前에 各 鬚髥에 크로스 해치가 配置된다.

드물게 박스 플롯에는 鬚髥이 標示되지 않는다.

一般的으로 2 %, 9 %, 91 %, 98 %의 非正常的인 百分位 鬚髥은 7 個 囚衣 要約을 標示하기 위해 鬚髥 模樣의 해치 및 鬚髥面에 使用된다. 데이터가 正常的으로 分配 되면 箱子 플롯의 7 個 表示가 같은 間隔으로 配置된다.

變形 [ 編輯 ]

數學者 John W. Tukey가 1969年에 이러한 類型의 視覺的 데이터 디스플레이를 導入한 以來로 傳統的인 箱子 그림의 여러 變形이 說明되었다. 가장 一般的인 두 가지는 可變 幅 箱子 그림과 노치 箱子 그림이다.

可變 幅 箱子 그림은 箱子의 너비를 그룹의 크기에 比例하게 하여 데이터가 그려지는 各 그룹의 크기를 보여준다. 箱子 너비를 그룹크기의 제곱根에 比例하게 만드는 것이 一般的이다.

노치 箱子 鬚髥 그림은 中央에 “노치”디자인을 넣거나 좁게 만든다. 노치는 中央값의 差異에 對한 大力的인 指針을 提供하는 데 有用하다. 두 箱子의 노치가 겹치지 않으면 中央값間에 統計的으로 留意한 差異가 있다는 證據가 된다. 노치의 너비는 飼料의 私紛委範圍(IQR)에 比例하며 試料 크기의 제곱根에 反比例한다. 그러나 가장 適切한 勝數에 對한 不確實性이 있다.(샘플의 分散의 類似性에 따라 달라질 수 있음.)

視覺化 [ 編輯 ]

箱子 鬚髥 그림을 使用하면 하나 以上의 데이터 세트를 빠르게 그래픽으로 檢査할 수 있다. 箱子 鬚髥 그림은 히스토그램 또는 커널 密度 推定보다 原始的인 것처럼 보일 수 있지만 利點이 있다. 箱子 鬚髥그림은 적은 空間을 차지하므로 여러 그룹 또는 데이터 세트 사이의 分布를 比較할 때 特히 有用하다. 貯藏所의 數와 幅을 選擇하면 히스토그램의 模樣에 크게 影響을 줄 수 있으며 帶域幅을 選擇하면 커널 密度 推定의 模樣에 크게 影響을 미칠 수 있다. 箱子 鬚髥 그림을 보는 것보다 統計 分布를 보는 것이 더 平凡하기 때문에 箱子 鬚髥 그림을 一般 分布에 對한 確率 密度 函數와 比較하면 箱子 鬚髥 그림을 理解하는 데 有用한 道具가 될 수 있다.

그리는 方法 [ 編輯 ]

  1. 주어진 데이터에서 各 四分位數를 計算한다.
  2. 그래프에서 第1 私紛委와 第3 私紛委를 밑邊으로 하는 直四角形을 그리고, 제 2私紛委에 該當하는 位置에 線分을 긋는다.
  3. 四分位數 範圍(IQR, Interquartile range, )를 計算한다.
  4. 과 差異가 1.5IQR 以內인 값 中에서 最大값을 과 直線으로 連結하고, 마찬가지로 과 差異가 1.5IQR 以內인 값 中에서 最小값을 과 連結한다.
  5. 보다 1.5IQR 以上 超過하는 값과 보다 1.5IQR 以上 未達하는 값은 點이나, 원, 別表 等으로 따로 標示한다(이상치 點).

같이 보기 [ 編輯 ]

外部 링크 [ 編輯 ]