한국   대만   중국   일본 
빅데이터 플랫폼 戰略 : 네이버 知識百科

提供處 情報

빅데이터 플랫폼 戰略 : 빅데이터가 바꾸는 未來 비즈니스 플랫폼 革命 2013. 2. 11. 冊보러가기

황승구 外 7人 韓國電子通信硏究院(ETRI), 전자신문사

『빅데이터 플랫폼 戰略』은 스마트 비즈니스 플랫폼化에 담긴 戰略을 담은 冊이다. 漠然하게 생각하고 있던 빅데이터의 槪念과 技術을 쉽게 풀어냈다. 빅데이터가 무엇이며, 어떻게 活用하고 무엇을 할 수 있는지 배울 수 있다. 더불어 비즈니스 觀點에서 빅데이터를 理解할 수 있는 背景 知識을 提供함으로써 깊이 있는 內容 理解가 可能하다. 仔細히보기

  • 知音 황승구 硏究機關團體인

    著者 황승구는 ETRI 소프트웨어硏究部門 所長. 全體 企劃 및 監修. 仔細히보기

  • 知音 최완

    著者 최완은 ETRI 클라우드컴퓨팅硏究部 部長. 企劃, 빅데이터 플랫폼 戰略 總括. 仔細히보기

  • 知音 허성진

    著者 허성진은 ETRI 實時間分析인프라硏究팀 팀長. 빅데이터 플랫폼 技術, 企業 및 센싱 데이터 分析 서비스 技術. 仔細히보기

  • 知音 장명길

    著者 장명길은 ETRI 知識마이닝硏究팀 責任硏究員. 빅데이터 分析 技術, 소셜 및 音聲言語 데이터 分析 서비스 技術. 仔細히보기

  • 知音 이미영

    著者 이미영은 ETRI 實時間分析인프라硏究팀 責任硏究員. 빅데이터 플랫폼 技術, 企業 및 센싱 데이터 分析 서비스 技術. 仔細히보기

  • 知音 박종열

    ETRI 소셜컴퓨팅硏究팀 팀長 빅데이터 槪要 및 社會에 미치는 影響, 소셜 데이터 分析 技術

  • 知音 원희선

    ETRI BigData시스템構造硏究팀 先任硏究員 빅데이터 비즈니스 動向

  • 知音 김달

    電子新聞 未來技術硏究센터 記者 빅데이터 活用 動向

  • 빅데이터 分析이란 소셜 빅데이터, 實時間 事物知能通信(M2M:Machine to Machine) 센서 데이터, 企業 顧客關係 데이터 等 到處에 存在하는 다양한 性格의 빅데이터를 效果的으로 分析하는 것을 말한다. 빅데이터 時代에는 單純히 데이터베이스에 잘 整理된 整形 데이터뿐 아니라 인터넷, 소셜 네트워크 서비스, 모바일 環境에서 暴發的으로 生成되는 웹 文書, 이메일, 소셜 데이터(소셜 네트워크 서비스 텍스트 데이터, 유튜브 비디오 데이터 等) 等 非定型 빅데이터를 效果的으로 分析하는 것이 무엇보다 重要해졌다. 2012年 2.8제타바이트에 이른 빅데이터는 2020年에는 40제타바이트로 急激히 增加할 것이며, 그 中 20%는 整形 데이터, 나머지 80%는 非定型 데이터가 될 것으로 豫想하고 있다. 그림 12. 빅데이터 分析

  • 빅데이터 分析을 위해서는 基本的으로 하둡, NoSQL 等의 빅데이터 分析 인프라 技術이 必要하고, 그 위에 다양한 統計處理, 데이터 마이닝, 텍스트 마이닝, 오피니언 마이닝, 그래프 마이닝 等 다양한 分析 方法 및 機械學習, 人工知能 技法을 適用해야 한다. 이 中에서 非定型 텍스트 빅데이터에 內在한 價値를 效果的으로 알아내는 텍스트 마이닝, 오피니언 마이닝, 소셜네트워크 分析 技術들이 最近 큰 注目을 받고 있다. • 텍스트 마이닝(Text Mining):텍스트 마이닝은 빅데이터 分析에서 텍스트 分析과 비슷하게 일컬어지는데, 人間의 言語로 쓰인 非定型 텍스트에서 自然語處理 技術을 利用하여 有用한 情報를 抽出하거나, 連繫性 把握, 分類 或은 群集化, 要約 等 빅데이터에 숨겨진 意味 있는 情報를 發見하는 것을 말한다. • 오피니언 마이닝(Opinion Mining):소셜미디어의 텍스트 文章을 對象으로 自然語處理 基盤 感性分析 技術을 適用하여 使用者의 意見을 分析하는 것을...

  • 빅데이터는 ‘큰 데이터’를 말한다. 單純히 큰 데이터가 아니라 부피가 크고, 變化의 速度가 빠르며, 屬性이 매우 다양한 데이터라는 세 가지 特徵을 가진 큰 데이터를 빅데이터로 定義하고 있다. 빅데이터를 이야기할 때 데이터베이스를 함께 說明하는 境遇가 많다. 데이터베이스는 많은 데이터를 效果的으로 貯藏하기 위한 ‘잘 만들어진’ 시스템이다. 잘 만들어졌다는 이야기는 必要한 境遇에 쉽고 빠르게 찾아 使用할 수 있고, 데이터를 比較 分析해서 必要한 情報를 쉽게 뽑아낼 수 있다는 것을 意味한다. 例를 들면, 家計簿를 作成하는데 콩나물 1,000원어치는 ‘2012年 12月 15日, 빅데이터 마트, 콩나물, 1,000원, 購買, 副食費(菜蔬, 국거리)’라고 적을 수 있다. 데이터베이스는 이 情報를 시스템에 貯藏하고 ‘2012年에 副食費로 支拂한 金額은?’이라는 質問에 對해서 2012年 部分과 마지막의 副食費 部分이 一致하는 데이터를 따로 모아서 答을 提供하는 技術이다. 그런데 가지고

  • 빅데이터는 多樣한 分野에서 活用되고 있으며 分野別로 固有한 特性이 있다. 맥킨지의 2011年 報告書에 따르면 빅데이터 活用價値는 公共 · 行政, 醫療 · 健康, 個人情報, 流通 · 소매, 製造業 等의 分野에서 22.3兆 달러에 達하고, 2018年까지 美國에서만 14~19萬 名의 專門人力과 150萬 名의 데이터 管理人力이 必要할 것으로 豫測하고 있다. 公共, 科學, 醫療, 도 · 소매, 製造, 情報通信 等 6個 分野別로 活用 特性을 整理하면 다음과 같다. [表 05. 主要國 빅데이터 活用 現況] || 企業 || 活用分野 || 內容 || 비고 || | 美國 | 國土保安 | • 9.11 以後 美國은 國土安保部를 中心으로 테러 · 犯罪 防止를 위한 汎政府的 빅데이터 蒐集, 分析 및 豫測 體系를 導入 - 부시 行政府의 國土安保部 長官인 마이클 처토프(Michael Chertoff)는 國土保安을 위한 빅데이터 推進現況 言及 - 國內外 金融 시스템을 對象으로 個人 · 機關의 金融 去來

  • R은 統計處理를 위한 公開 소프트웨어 패키지로, 最近 가장 注目받는 빅데이터 分析 道具이다. R은 旣存의 統計 소프트웨어인 S를 바탕으로 만들어졌는데, 다양한 統計技法과 視覺化 道具들이 提供되고 있다. R은 그동안 學界에서 硏究用으로 많이 使用해왔는데, 빅데이터 分析을 위해 最近 紹介되는 다양한 分析 方法들이 追加되면서, 2012年 現在는 4,000個 以上의 프로그램이 패키지 形態로 提供되고 있다. R 패키지는 R프로젝트 웹 사이트(https://www.r-project.org/)에서 내려받아 쉽게 設置하여 使用할 수 있다. R은 자바(Java), C, C++, 파이썬(Python) 等 다른 프로그램 言語와도 쉽게 聯動할 수 있으며, 윈도, 리눅스 · 유닉스, 맥(Mac) OS 等 大部分의 開發 環境을 支援한다. 또한, 하둡 分散處理 環境을 支援하는 라이브러리가 提供되기 때문에 구글, 페이스북, 아마존 等도 빅데이터 分析에 R을 活用하고 있다. R은 빅데이터 分析에 가장

  • 過去에는 不可能했던 엄청난 量의 情報가 量産되고 있고 컴퓨터 技術의 發展으로 이들 데이터에 對한 分析이 可能해졌다. 스마트폰이 우리가 어디쯤 있는지를 實時間으로 記錄하고, 地下鐵과 버스 안 料金정산기는 얼마를 支拂하는지, 언제 어느 場所에 있는지에 關한 情報를 記錄하고 있다. 네이버나 다음, 구글에 檢索語를 入力할 때도, 페이스북이나 트위터에 點心은 무엇을 먹었는지 오늘 氣分은 어떤지에 關한 짧은 글을 남기는 瞬間에도, 우리의 位置情報는 勿論 趣向이나 習慣, 檢索패턴, 購買記錄, 그날의 氣分까지 알아낼 수 있는 莫大한 量의 데이터들이 쌓이고 있다. 다양한 데이터 소스에서 蒐集한 데이터를 處理 · 分析하여 知識을 抽出하고, 이를 基盤으로 知能化된 서비스를 提供하는 데 必要한 IT 環境을 빅데이터 플랫폼이라 한다. 빅데이터 플랫폼은 擴張性 있는 大容量 處理 能力, 이기종 데이터 蒐集 및 統合 處理 能力, 빠른 데이터 接近 및 處理 能力, 大量의 데이터를 貯藏 管理할...

  • 빅데이터 處理 技術이란 말 그대로 엄청난 量의 데이터를 處理하는 技術을 意味한다. 過去에는 데이터를 生成하고 使用하는 主體가 主로 企業이나 官公署였지만 現在는 스마트폰과 같이 周邊에서 흔히 볼 수 있는 다양한 IT 機器를 利用하여 누구든지 데이터를 生成하고 必要한 內容에 接近하고 있다. 이렇게 빅데이터는 特定 團體만이 利用하는 서비스가 아닌 누구나 利用하는 서비스에 活用되고 있기 때문에 그 데이터 生成 量은 暴發的이다. 따라서, 招待容量으로 生成되는 데이터를 適時에 加工하고 分析을 支援하는 빅데이터 處理 技術은 빅데이터 産業에 매우 重要한 部分이다. 요즘 많이 使用하는 代表的 소셜 네트워크 서비스인 트위터나 페이스북을 살펴보자. 트위터는 使用者 間에 주고받는 데이터가 하루에만 7테라바이트에 이르며, 페이스북은 每日 10테라바이트 以上의 데이터를 生産하고 있다. 하지만 트위터나 페이스북의 立場에서는 使用者들이 全 世界 모든 곳에서 메시지를...

  • 빅데이터 時代에서는 데이터 生成 速度 및 處理 速度가 重要한 技術的인 이슈가 되고 있고, 이를 解決하는 方案으로 高性能 컴퓨팅과 印메모리 컴퓨팅이 重要한 자리를 차지하고 있다. 高性能 컴퓨팅을 위해서는 多數의 프로세서 或은 노드들을 連結하여 高度의 年産 能力을 갖춘 컴퓨터 시스템을 構成하고 이를 最大限 活用하여 高速 處理를 提供하기 위한 分散 · 竝列 컴퓨팅이 重要하다. 高性能 컴퓨팅을 위한 컴퓨터 시스템 構成은 클러스터 컴퓨터처럼 各 노드의 役割이 辭典에 定義되지 않은 汎用 노드들을 連結하여 構成할 수도 있고, 컴퓨트 노드, 스토리지 노드, 管理 노드 等 노드의 役割을 事前에 定하고 이에 따라 하드웨어를 最適으로 構成하기도 한다. 또한 여러 노드들을 統合하여 하나의 시스템인 것처럼 提供하기 爲해 多樣한 技術을 活用하여 構成할 수도 있다. 竝列 컴퓨팅은 業務를 나누어 여러 프로세서가 同時에 일을 遂行함으로써 더 빨리 處理할 수 있게 해주는 方式이다. 分散...

  • 센싱 데이터 基盤 實時間 서비스 技術은 實時間으로 發生하는 大量의 센싱 데이터 스트림으로부터 現象을 感知하고 意味 있는 狀況 情報를 提供하거나 이에 對한 反應으로 서비스를 聯動하는 技術이다. 센싱 데이터 基盤 서비스를 위한 核心技術은 連續的으로 發生하는 外部 센싱 데이터 스트림을 蒐集하고 處理하여 狀況을 判斷하는 複合이벤트處理 技術로, 온라인 金融 去來 情報 스트림, 센싱 데이터 스트림, GPS 基盤 位置 情報처럼 작은 크기의 定型 데이터가 持續的으로 發生하는 應用 分野에 많이 活用된다. 外部 現象을 代辯하는 센싱 데이터는 大體로 스트림 形態라서 連續的인 質疑 處理 技術이 必要하다. 複合이벤트處理 시스템은 이종의 센서에서 받은 저레벨의 이벤트 스트림을 分析하고 加工해 狀況인지 데이터로 變換하며, 使用者 또는 다른 시스템에서 狀況인지 데이터가 必要할 때 이를 傳達하는 구실을 한다. 複合이벤트處理 시스템 技術은 主로 整形 데이터 스트림 處理 應用을...

  • 빅데이터에서 가장 먼저 問題가 되는 게 데이터의 規模이다. 데이터가 年平均 35%로 增加하고 있어, 이를 貯藏하고 處理하는 데 必要한 컴퓨터 容量이 持續的으로 擴大되어야 한다. 데이터 增加에 따라 가장 손쉽게 컴퓨터 容量을 擴大하여 利用하는 方法은 클러스터 基盤의 分散 컴퓨팅을 利用하는 것이다. 컴퓨터 클러스터는 같은 空間 內의 서버들을 네트워크 裝備로 連結하여 構成한 컴퓨터 시스템으로, 容量 擴張이 必要할 때마다 쉽게 노드 追加가 可能하다. 그러므로 컴퓨터 클러스터 基盤 分散 컴퓨팅은 네트워크에 連結된 여러 노드의 處理 能力을 利用하여 大規模 問題를 解決하려는 分散處理 모델이다. 分散 컴퓨팅은 容量 擴張뿐만 아니라 시스템의 可溶性을 提供하기 위해서도 重要한 技術이다. 特定 노드에 障礙가 發生해도 다른 노드를 利用해 繼續 서비스할 수 있으며, 障礙 復舊도 障礙 노드에서 擔當하던 業務로 限定되므로 復舊 時間이 相對的으로 줄어든다. 例를 들어...

  • 一括 處理 技術은 厖大한 量의 데이터를 빨리 處理하는 것이 重要하기 때문에 單純히 빠른 서버에서 좋은 알고리즘으로 處理하는 데는 限界가 있다. 앞서 言及한 것처럼 빅데이터는 그 規模가 엄청나서 아무리 高價의 서버라도 單一 시스템에서 處理하면 處理하는 羊보다 오히려 새로 生成되어 쌓이는 데이터가 더 많다. 따라서, 데이터를 適時에 處理하기 위해서는 쌓인 빅데이터를 여러 서버로 分散해 各 서버에서 나눠서 處理하고, 이를 다시 모아서 結果를 整理하는 分散 · 竝列 技術 方式을 取한다. 代表的인 技術로는 구글의 맵리듀스, 하둡의 맵리듀스, 마이크로소프트의 드라이애드(Dryad)가 있다. 구글이 發表한 맵리듀스 技術은 빅데이터 處理 技術 中에서 가장 널리 使用되며 다른 處理 技術의 基盤이 된 技術이다. 이 技術은 單語에서 의미하듯이 빅데이터를 分散 處理하는 맵(Map)이라는 機能과 分散 處理된 中間 結果를 모아서 整理하는 리듀스(Reduce)라는 機能을 利用해서 데이터를...

  • 最近 비즈니스 인텔리전스를 넘어 비즈니스 애널리틱스(BA:Business Analytics)가 膾炙되고 있다. 비즈니스 인텔리전스가 過去 데이터 및 整形 데이터를 基盤으로 무엇이 發生했는지를 分析하여 비즈니스 意思決定을 돕는 道具라면, 비즈니스 애널리틱스는 過去뿐만 아니라 現在 實時間으로 發生하는 데이터에 對하여 連續的이고 反復的인 分析을 통해 未來를 豫測하는 洞察力을 提供하는 데 活用된다. 한便으로는 비즈니스 인텔리전스가 企業 내 部署別로 所有하고 있는 데이터를 分析對象으로 삼았다면, 비즈니스 애널리틱스는 實時間으로 未來 豫測的인 分析을 하기 위해 企業 全體 데이터를 統合 分析하는 形態로 發展하고 있다고 볼 수도 있다. 이런 點에서 비즈니스 애널리틱스 分野는 데이터의 量이 엄청나게 늘어나게 되고 여기에 덧붙여 記事, 블로그, 이메일, 소셜 데이터 等을 통해 트렌드나 感性을 分析하여 企業 비즈니스 計劃에 反映하기 위해 非定型 데이터 分析 亦是 큰...

  • 近來에 우리의 對話 속에 스마트, 모바일, 소셜이라는 單語들이 많이 使用되고 있다. 우리가 삶을 營爲하는 環境이 다양한 情報 機器를 통해 스마트해지면서 醫療, 金融, 敎育, 科學, 交通, 製造 等 社會 全 分野에서 以前에는 想像하지도 못했던 다양한 類型의 많은 데이터가 끊임없이 生成되고 있다. 또한, 다양한 分野의 스마트한 機器들은 모바일 技術이 適用되어 언제 어디서나 인터넷에 連結될 수 있다. 그뿐만 아니라 이러한 스마트 機器와 모바일 環境의 普及으로 인해 인터넷上에서 個人 또는 集團 間 相互依存的인 關係에 따라 새로운 社會關係 構造가 形成되었다. 그런 點에서 우리는 情報의 홍수라 불릴 程度로 다양하고 巨大하며 整理되지 않은 수많은 데이터 속에서 一部 데이터만을 活用하는 빅데이터 時代에 살아가고 있다. 이러한 빅데이터 時代에 빅데이터에 숨겨진 知識과 智慧를 찾아서 우리 삶이 潤澤해지도록 活用하기 위해서는 데이터에 對한 確保가 先行되어야 하는데 이를 위한...

  • 빅데이터 時代가 到來하면서 빅데이터를 分析하는 技術에 對한 關心이 뜨겁다. 特히 幾何級數的으로 데이터를 生産하는 페이스북, 트위터, 구글 等에서 오픈 소스 統計分析 프로그램인 ‘R’를 核心 分析 엔진으로 活用하면서 ‘R’는 分析 業界 最大 이슈로 떠오르고 있다. 美國 等에서는 데이터 分析 엔진으로 ‘R’가 大學 敎育의 標準으로 자리를 잡았다. 구글에서는 ‘구글 R 스타일 가이드’나 구글의 各種 API 等을 ‘R’ 패키지 製品을 통해 使用 可能하게 하고 있다. 오라클度 오라클 데이터 分析 專用 어플라이언스에 ‘R’를 適用했다. 이처럼 ‘R’는 빅데이터 時代 分析 소프트웨어의 標準으로 자리를 잡아가고 있다. 只今까지 統計分析 소프트웨어로는 IBM에 合倂된 SPSS와 비즈니스 인텔리전스 業界의 最强者인 SAS가 代表的이다. ‘R’는 最近 이들 業體까지 威脅할 만큼 强力해졌다는 게 業界 專門家들의 評價다. 더욱 흥미로운 것은 ‘R’가 世界的으로 큰 關心을 얻자...

  • 빅데이터 技術은 旣存 技術과 比較해 데이터 處理에 들어가는 費用은 줄여주면서 빠르고 正確한 結果를 보여줄 뿐만 아니라 데이터를 바라보는 視角을 변화시키고 있다. 過去에도 끊임없이 硏究했지만 제대로 具現하지 못하던 技術을 생각의 轉換으로 可能하게 한 것이다. 人工知能은 知能이 없는 機械에 사람처럼 知能을 갖게 하는 것이다. 이를 위해서 過去 硏究에서는 機械가 사람처럼 動作하기 爲한 技術을 開發하였다. 例를 들면 사람처럼 推論하는 機械, 사람처럼 事物을 理解하는 機械, 사람처럼 認識하기 위해 狀況이나 情報를 複合的으로 表現하는 技術에 對해서 硏究해왔다. 하지만 最近의 빅데이터 硏究에서는 다른 視角의 接近이 試圖되고 있다. 代表的인 例가 IBM의 왓슨(Watson)과 구글의 飜譯 시스템, 구글의 毒感豫報시스템인데, 이에 對해서는 뒤에 알아보기로 하고 人工知能에 어떤 變化가 있었는지 살펴보자. IBM의 왓슨은 퀴즈쇼에서 사람과 競合한다. 사람이 말하는 質問을...

位로가기