데이터 레이크

데이터 레이크 (data lake)는 一般的으로 個體 Blob 또는 파일과 같은 自然(natural)/遠視(raw) 形式으로 貯藏된 데이터의 시스템 또는 貯藏所이다. 데이터 레이크는 一般的으로 소스 시스템 데이터, 센서 데이터, 소셜 데이터 等의 遠視複寫本과 보고, 視覺化 , 高級分析 및 機械學習과 같은 作業에 使用되는 變換된 데이터를 包含하는 單一 데이터 貯藏所이다. 데이터 레이크에는 關係形 데이터베이스(行 및 熱), 反鼎形 데이터( CSV , 로그, XML , JSON ), 非定型 데이터 (이메일, 文書, PDF) 및 바이너里 데이터(이미지, 오디오, 비디오)의 整形 데이터 가 包含될 수 있다. 데이터 레이크는 " 온프레미스 "(組織의 데이터 센터 內) 또는 "클라우드"( 아마존 (企業) , 마이크로소프트 , 오라클 클라우드 또는 구글 과 같은 供給業體의 클라우드 서비스 使用)에 構築될 수 있다.

背景 [ 編輯 ]

當時 펜타號(Pentaho)의 最高技術責任者였던 제임스 딕슨은 原始 데이터에서 派生된 興味로운 屬性을 貯藏하는 小規模貯藏所인 데이터 마트 와 對照하기 위해 2011年에 이 用語를 만들었다. 데이터 레이크를 弘報하면서 그는 데이터 마트에는 情報 사일로 火와 같은 몇 가지 固有한 問題가 있다고 主張했다. 프라이스워터하우스쿠퍼스 (PwC)는 데이터 레이크가 "데이터 사일로를 종식시킬 수 있다"고 말했다. 데이터 레이크에 對한 硏究에서 그들은 企業이 "分析을 위한 데이터를 抽出하여 單一 하둡 基盤貯藏所에 配置하기 始作했다"고 言及했다.

예 [ 編輯 ]

많은 企業에서는 구글 클라우드 스토리지 및 아마존 S3 와 같은 클라우드 스토리지 서비스나 아파치 하둡 分散 파일 시스템(HDFS)과 같은 分散 파일 시스템을 使用한다. 데이터 레이크 槪念에 對한 學問的關心이 漸次 높아지고 있다. 例를 들어 카디프 大學의 퍼스널 데이터레이크(Personal DataLake)는 個人 데이터를 蒐集, 整理, 共有하는 單一地點을 提供하여 個別使用者의 빅 데이터를 管理하는 것을 目標로 하는 새로운 類型의 데이터 레이크이다.

移轉 데이터 레이크(Hadoop 1.0)는 配置中心處理( 맵리듀스 ) 機能이 制限되어 있었고 이와 關聯된 唯一한 處理 패러다임이었다. 데이터 레이크와 相互作用하려면 地圖縮小 및 아파치 피그 , 아파치 스파크 및 아파치 하이브 (元來는 配置志向的임)와 같은 上位水準道具를 使用하여 자바에 對한 專門知識이 있어야 했다.