•  


“個人情報 保護하면서 빅데이터 活用, 先進國은 다 한다”|신동아

플라톤아카데미와 함께하는 ‘人文을 科學하다’②

“個人情報 保護하면서 빅데이터 活用, 先進國은 다 한다”

심규석 서울대 電氣情報工學部 敎授

  • 허문명 記者

    angelhuh@donga.com

    入力 2019-12-27 14:00:01

  • 글字크기 설정 닫기
    • 모든 學問이 빅데이터 分析으로 바뀌고 있다

    • 데이터가 많을수록 豫測은 正確해진다

    • 私生活 保護하면서 빅데이터 活用할 技術 있다

    • 코딩이 아니라 컴퓨터的 想像力이 重要

    • 4次 産業革命은 ‘데이터가 支配하는 革命’

    ‘신동아’는 人文學財團 플라톤아카데미와 함께 ‘人文을 科學하다’ 시리즈를 進行한다. 플라톤아카데미는 2010年 11月 設立된 國內 最初 人文學 支援 財團으로 人類의 오랜 知識과 智慧를 바탕으로 우리가 當面한 삶의 根源的 물음을 새롭게 傳한다는 趣旨로 硏究 支援, 大衆 講演, 온라인 포털 等 다양한 事業을 進行하고 있다. 2019年 플라톤 아카데미 設立 10周年을 맞아 新東亞와 함께 企劃한 ‘人文을 科學하다’는 人文學과 科學이라는 언뜻 멀어 보이지만, 우리 삶에 깊이 들어와 섞여 있는 두 世界의 깊이 있는 疏通을 推進하는 프로젝트다. 專門家들과의 깊이 있는 인터뷰를 통해 AI 빅데이터 等 4次 産業革命의 實體를 分析하고 技術이 무엇을 할 수 있을지 따져보는 同時에 技術이 무엇을 해야 하는지, 人間은 무엇을 苦悶해야 하는지 省察하는 契機를 만들고자 한다. [編輯者 週]

    플라톤아카데미와 함께하는 ‘人文을 科學하다’ 두 番째 主題는 빅데이터다. 인터뷰 主人公은 심규석 서울대 電氣情報工學部 敎授. 그는 서울대 電氣工學科를 卒業하고 美國 메릴랜드주립대에서 데이터베이스 分野로 博士 學位를 받았다. 大學院 時節 휴렛팩커드 硏究所에서 인턴을 했고, 博士 學位를 받은 後에는 美國 聯邦準備委員會, IBM 알마든 硏究所, 벨 硏究所, 마이크로소프트 硏究所 等에서 빅데이터 關聯 다양한 硏究 經驗을 쌓았다. 

    빅데이터를 分析하고 處理하기 위한 데이터마이닝과 데이터베이스 分野에서 深度 있는 硏究 活動을 해왔다. 現在 구글 스칼라 基準으로 그가 쓴 論文들은 總 1萬8900件 以上의 被引用 回數를 記錄하고 있다. 2013年 컴퓨터 科學 分野에서 世界 最高 權威를 가진 國際컴퓨터學會(ACM)의 碩學會員(Fellow), 2019年 國際電氣電子工學會(IEEE) 碩學會員으로 選定됐다. 

    인터뷰는 2019年 12月 6日 서울대 그의 硏究室에서 進行됐다. 于先 가장 기초적인 質問부터 던졌다.

    데이터가 많을수록 豫測은 正確해진다

    2019년 12월 6일 ‘신동아’와 대담하는 심규석(오른쪽) 서울대 교수. [조영철 기자]

    2019年 12月 6日 ‘신동아’와 大膽하는 심규석(오른쪽) 서울大 敎授. [조영철 記者]

    -빅데이터란 무엇인가. 

    “거기에 答하기 前에 데이터마이닝에 對해 말하고 싶다. 처음에 컴퓨터가 나왔을 때는 어떻게 하면 데이터를 安全하게 貯藏할 것인지가 話頭였다. 電氣가 나가거나 컴퓨터가 망가져도, 같은 데이터를 여러 사람이 同時에 修正하려 해도 데이터가 毁損되지 않는 게 重要했다. 그러다 인터넷과 컴퓨터 技術의 急激한 發展으로 데이터가 大擧 쌓이기 始作했고, 1990年代 末이 되면서 데이터를 가지고 무엇을 할지에 對한 關心이 생기면서 ‘데이터마이닝’ 硏究가 始作됐다.” 



    -마이닝(mining)이란 게 辭典的 意味로 採掘, 採光 아닌가. 

    “그렇다. 石油를 뽑아내고 石炭을 캐내는 것처럼 데이터라는 巨大 鑛山에서 뭔가를 찾아낸다는 뜻이다. 땅속에 뭐가 묻혀 있을지 모르지만 一旦 캐보는 것처럼 巨大한 데이터를 모두 뒤져 그 안에 들어 있는 有用한 패턴이나 知識을 캐낸다는 意味다. 여기서 말하는 巨大한 데이터가 바로 빅데이터다. 

    처음엔 샘플 데이터 一部만 갖고도 패턴 分析이 可能한데 왜 데이터를 無條件 많이 쓰느냐는 攻擊을 받기도 했지만 只今은 데이터가 많으면 많을수록 이를 利用해 豫測하는 것이 더 正確하다는 點이 一般的으로 받아들여지고 있다. 

    흔한 例인데 美國에서 ‘아기 기저귀를 사는 사람은 麥酒를 같이 산다’는 패턴이 있다. 過去에는 아기 기저귀를 사면 麥酒를 살 것이란 假說을 먼저 세운 다음 데이터를 통해 立證했는데, 데이터마이닝은 各種 物件을 산 顧客들의 데이터를 통해 이런 結論을 얻어내는 거다.”

    人類 歷史 以來 이렇게 많은 빅데이터는 처음

    [GettyImage]

    [GettyImage]

    -어찌 보면 常識일 것 같은데. 

    “初盤에는 그렇게 생각하지 않았다. 내가 大學院에 다니던 時期만 해도 데이터가 別로 없어 制限된 데이터로 여러 가지 可能性에 對해 平均的으로 어떻게 答할지에 汨沒했다. 只今은 데이터가 워낙 많아 이를 土臺로 實際 들어 있는 패턴을 分析하기에 더 正確한 結果가 나온다. 

    데이터에 숨은 意味를 把握하려면 컴퓨터 等의 專門 分析 道具와 專門家가 必要하다. 問題는 데이터 量이 많아지면 많아질수록 分析 速度가 느려지는 거다. 컴퓨터 科學 하는 사람들이 每日 하는 게 바로 데이터가 많아져도 어떻게 하면 빨리 分析하느냐에 關한 일이다. 

    美國 大學願 時節 美國 大企業들이 IBM에 많은 돈을 내고 自己네 데이터를 土臺로 分析 報告書를 써달라고 했다. IBM은 이런 컨설팅 事業을 통해 많은 돈을 벌었다. 그때만 해도 데이터가 적으니까 사람이 分析하는 手作業이 可能했는데 漸漸 데이터가 많아져 사람이 할 수 없게 됐다. 大企業들은 소프트웨어가 그 일을 代身할 수 있는지 與否를 IBM 데이터베이스 硏究員들에게 打診했다. 데이터마이닝 分野 硏究는 그때 始作되고 急成長했다. IBM에서 이러한 硏究를 하기 前에는 데이터마이닝이란 單語도 없었다.” 

    -인터넷이나 모바일 使用者가 늘어나니 데이터 量은 幾何級數的으로 늘어날 텐데. 

    “可히 暴發的이다. 電話 通話, 文字, 인터넷 檢索, 旅行, 物件 購買 等으로 最近 몇 年 동안 사람이 만들어낸 데이터가 그 以前 人間이 모든 歷史를 통해 만들어낸 量보다 많다. 이런 時代는 人類 歷史上 처음이다. 한마디로 21世紀 最高 資源이 데이터라고 할 수 있다.” 

    -이제는 빅데이터가 活用되는 分野가 너무 많아지지 않았나. 

    “一一이 列擧하기가 힘들 程度다. 유튜브나 넷플릭스 動映像 推薦은 말할 것도 없고 信用카드 會社에서 하는 消費 行態 分析, 旅行社, 金融業, 醫療, 製造業 分野에 이르기까지 導入되지 않은 곳이 거의 없다고 해도 過言이 아니다. 커피 會社인 네슬레나 스타벅스도 빅데이터 分析을 통해 新製品을 開發한다. 오렌지주스를 파는 코카콜라의 境遇 人工衛星을 통해 얻은 데이터를 土臺로 作況, 降水量, 햇빛의 量 等을 分析해 해마다 어느 地域 오렌지를 사야 一貫된 맛을 維持할 수 있는지 알아낸다. 特히 製造業 分野를 이끄는 革命的 變化에 注目할 必要가 있다.” 

    그는 低費用航空社(LCC)를 먼저 例로 들었다. 

    “요즘에 LCC가 可能해진 理由가 보잉 같은 製造會社에서 飛行機를 팔 때 部品에 센서를 附着한 뒤 빅데이터 分析을 통해 交替 時點을 알려주는 方式으로 事故나 故障을 미리 豫防해 經費를 大幅 節減해주는 데 있다. 

    自動車 리콜도 事故 나기 前에 미리 한다. 이 亦是 自動車에 設置한 센서를 通한 빅데이터 分析을 통해 뭐가 잘못됐는지 事前에 把握한다. 世界的 엘리베이터 會社인 쉰들러度 販賣하는 엘리베이터에 센서를 附着해 데이터 分析을 하고 있다. 굳이 機械 專門家가 아니더라도 여기 여기를 미리 고치라고 얘기해줄 수 있다. 

    耕耘機 트랙터 等을 파는 존디어라는 美國의 農器具 會社가 있는데 그 會社에도 구글 職員들이 들어가서 裝備에 附着한 센서를 통해 빅데이터 分析을 한다. 언제 씨를 뿌리면 收穫이 第一 많이 나오는지까지 分析해 알려준다. 作況 失敗 리스크를 줄여주고 燃料도 적게 쓰게 하고 있다. 이러니 이런 機械를 사지 않을 수가 있겠나.” 

    -犯罪 豫防에도 適用된다고 들었다. 

    “代表的인 곳이 美國 로스앤젤레스다. 地震이 發生하면 餘震이 어떻게 퍼져나가는지 알 수 있는 分析 方式을 利用해 强力事件이 일어나면 다음에 어느 地域에서 犯罪가 일어날지 豫測하는 것이다. 犯罪者들의 行動, 心理 패턴까지 알아야 하니까 人類學者, 心理學者까지 協業한다. 銀行에서 現金引出機를 어디에 놓아야 할지 位置를 定할 때도 周邊 狀況을 分析해 强盜나 도둑으로부터 安全한 位置를 決定한다. 

    모든 學問이 빅데이터 分析으로 다 바뀌고 있다고 보면 된다. 天文學의 境遇만 해도 數百 年 동안 天文學者들이 天體를 觀測하며 별의 움직임이나 相對的인 位置를 蒐集해왔다. 그런데 요즘은 南아메리카에 設置된 수많은 天體望遠鏡이 各各 秒當 30테라바이트의 데이터를 蒐集하고 있다. 歷代 最大 規模다. 前代未聞의 厖大한 情報가 쌓이니 天文學의 새로운 패러다임이 나오고 있다. 

    醫學界도 마찬가지다. 保險會社는 加入者들이 病院을 덜 가야 利益을 늘릴 수 있기 때문에 患者 데이터 分析을 통해 意思를 도와주고 있다. 놀이동산 같은 곳에서도 利用者 動線을 把握해 쉬는 놀이器具는 없는지 點檢하고 사람이 많이 모인 곳에 安全要員을 재빨리 配置한다든지 한다. 

    工場 在庫 管理, 公正 分析 等을 통해 費用을 아끼는 會社는 셀 수 없이 많고, 위스키 製造會社가 甁마개에 큐 마크를 달아 僞造를 防止하고 顧客 스마트폰 履歷 情報를 통해 어디서 어떤 술이 많이 販賣되는지 把握하는 것은 이미 古典的 이야기가 돼버렸다. 畜産業에서는 動物들의 發情期를 놓치지 않고 繁殖을 많이 하도록 하는 데 빅데이터 分析을 利用하고 있다.”

    디퍼렌셜 프라이버시 技術로 個人情報 保護

    노웅래 국회 과학기술방송정보통신위원장과 위원들이 2019년 12월 4일 서울 여의도 국회에서 열린 전체회의에서 ‘데이터3법’ 정보통신망법을 부대 의견을 달아 의결하고 있다. [뉴스1]

    盧雄來 國會 科學技術放送情報通信委員長과 委員들이 2019年 12月 4日 서울 汝矣島 國會에서 열린 全體會議에서 ‘데이터3法’ 情報通信網法을 部隊 意見을 달아 議決하고 있다. [뉴스1]

    -빅데이터 活用이 4次 産業革命을 先導하는 技術임에는 틀림없지만 個人情報가 包含돼 있다는 點에서 私生活 侵害라는 逆機能이 있다. ‘데이터 3法’(個人情報保護法, 情報通信網法, 信用情報法 改正案)李 國會 門턱도 넘지 못하고 있어 이래서는 새로운 未來를 對備할 수 있을지 걱정이 많다. 

    “個人情報 保護와 데이터 活用은 우리만의 問題가 아니라 全 世界 各國이 當面한 課題다. 데이터 大量 生産 및 活用, 컴퓨터 技術 發達에 따라 旣存에는 全혀 생각하지 못했던 問題들이 發生하면서 ‘빅데이터 活用’과 ‘個人情報保護’라는 두 마리 토끼를 잡는 技術이 活潑하게 開發되고 있다. 個人情報 保護 技術 開發은 相當히 進陟을 보이고 있기 때문에 글로벌 스탠더드에 맞춰 趨勢를 따라가면 쉽게 解決된다고 본다.” 

    -그래서 韓國 政府도 個人情報 侵害 問題를 匿名 處理 方式을 써서 막아보려고 한 걸로 아는데. 

    “데이터에 包含된 各種 身上 情報를 통해 누구인지 把握할 수 없도록 匿名化韓 後 活用하겠다는 것인데 ‘마사지한다’고도 表現한다. 그런데 이게 力不足이라는 게 이미 드러났다. 2006年 美國 最大 인터넷 포털이자 檢索엔진인 AOL에서 벌어진 個人 檢索 情報 公開 事件이 代表的 事例다. 當時 AOL은 學問 硏究에 寄與하겠다며 總 2000餘萬 件에 達하는 利用者 65萬餘 名의 檢索 記錄을 個人情報 匿名化 作業을 한 後 學術誌에 公開했다. 그런데 뉴욕타임스를 비롯한 言論이 匿名化된 複數의 情報를 交叉 組合·分析해 ‘어떤 病’ ‘어떤 淫亂物’ 等의 銳敏한 情報를 檢索한 사람들이 누구인지 찾아내 발칵 뒤집혔다. 結局 AOL 最高 任員陣이 물러나는 일까지 벌어졌다. 

    國內에서도 通信 情報·信用 情報·카드決濟 情報·醫療 情報 等을 交叉·結合하면 이름, 住所, 住民登錄番號 等이 없더라도 個人을 特定할 수 있고 實際로 이런 비슷한 試圖도 있었다. 匿名化만으로는 個人情報 保護에 限界가 있다는 이야기다. 요즘 國際的인 趨勢는 데이터를 아예 다른 方式으로 변화시키는 ‘차분 프라이버시’, 英語로는 ‘디퍼렌셜 프라이버시(differential privacy)’ 技術이 大勢다. 빅데이터 關聯 國際學會에 가보면 關聯된 基調演說을 흔히 들을 수 있다. 美國은 이미 2020年 人口 센서스 調査할 때도 이걸 통해 結果를 發表하기로 했다고 한다. 

    우리도 世界的 先進 技術 開發 흐름을 재빨리 받아들여 個人의 私生活을 保護하면서도 데이터를 자유롭게 活用할 수 있는 우리만의 體系를 새롭게 만들어야 한다. 方法이 있는데도 外面하는 것이야말로 未來를 거스르는 것이다.” 

    -韓國은 하드웨어가 宏壯히 發達해 있다. 半導體도 世界 1位이고 인터넷 網도 엄청 일찍 깔았다. 그런데 왜 이렇게 빅데이터 活用에 뒤처졌을까. 

    “무엇보다 데이터에 對한 問題意識과 創意的 想像力이 重要한데 이게 모자라다. 요즘 다들 코딩 코딩 하는데 事實 코딩이 重要한 게 아니라 알고리즘이 重要하다. 알고리즘을 만들면 그걸 코드로 바꾸는 건 쉬운 일이다.” 

    -알고리즘의 正確한 意味는 뭔가. 

    “음…. 어떤 例를 들 수 있을까. 내가 특정한 主題로 演說한다고 할 때 무엇을 어떻게 論理的으로 演說하겠다고 생각하는 게 바로 알고리즘이다. 韓國語 或은 英語로 演說文을 쓰는 作業이 코딩이다. 建築物로 比喩하면 一旦 設計한 뒤 甓돌을 쌓고 타일을 붙이고 시멘트를 쓰고 門을 달지 않나? 設計 作業이 바로 알고리즘이다. 알고리즘을 만드는 건 宏壯히 어렵다. 어떻게 하느냐에 따라 遂行 時間이 달라지고 내가 願하는 일을 해주는 프로그램인지 證明도 해야 하고 게다가 빨라야 한다. 사람이 참고 기다릴 만한 時間 안에 結果가 나와야 된다는 뜻이다 ” 

    그는 “이 대목에서 가장 重要한 게 ‘컴퓨팅 事故’ 바로 ‘컴퓨테이셔널 싱킹(computational thinking)’이라고 했다. 

    “사람이나 機械가 效果的으로 일을 遂行할 수 있도록 問題를 定義하고 그에 對한 答을 記述하는 것이 包含된 思考 過程 一切가 컴퓨테이셔널 싱킹이다. 例를 들면 學生들에게 同一한 規模의 컨테이너 박스를 하나씩 준 뒤 ‘百貨店에 가서 物件들을 박스에 다 채우되 가장 빠른 時間 안에 物件의 總 金額이 가장 크게 하려면 어떤 物件들로 채워야 할까?’ 같은 質問에 答하게 하는 것이다. 物件의 價格과 부피가 데이터라고 할 수 있고 이를 위해 채울 物件들을 選擇하는 方法이 알고리즘이라고 할 수 있다.

    코딩보다 重要한 게 컴퓨터的 想像力

    컴퓨터를 수천, 수만 대 연결하는 병렬 분산 알고리즘이 주목받고 있다. [GettyImage]

    컴퓨터를 數千, 數萬 臺 連結하는 竝列 分散 알고리즘이 注目받고 있다. [GettyImage]

    우리는 物理, 數學 한 科目만 잘하면 뭐든 된다고 생각하는데 컴퓨터 프로그래밍은 全혀 다른 하나의 學問이다. 學生들이 大學에 와서 프로그래밍을 잘 못하고 두려워하는 理由는 中·高等學校 때 해본 물리나 數學科 달리, 난生처음 接하기 때문이다. 하지만 美國 아이들은 어릴 때부터 컴퓨팅적 事故로 敎育을 받아 全혀 두려워하지 않는다.” 

    -最新 빅데이터 技術 發展 動向에 對해 說明한다면. 

    “컴퓨터 自體 性能을 高度化하는 것보다 값싼 컴퓨터를 數千 臺, 數만 臺 連結해 竝列處理하는 技術이 大勢다. 아마존이건 마이크로소프트件 페이스북이건 다들 이렇게 處理하고 있다. 어떤 文書를 韓國語로 飜譯한다고 할 때 飜譯機 하나를 쓰는 것보다 1萬 臺에 文書를 1萬分의 1씩 나눠 넣고 各各 飜譯을 시키면 速度가 1萬 倍 빨라지는 것과 같은 理致다. 專門用語로는 竝列 分散處理라고 한다. 竝列分散 알고리즘을 디자인하는 것도 내 硏究 分野다. 機械마다 處理 順序가 다르기 때문에 어떤 式으로 竝列處理를 해도 機械 하나로 했을 때랑 똑같은 結果가 나온다는 걸 證明해야 한다. 한 代에만 해야 할 일이 몰리지 않고 모든 컴퓨터가 비슷한 量의 일을 하게 해야 한다. 또 各 컴퓨터에서 處理가 아주 빠르게 되도록 알고리즘을 만들어야 한다. 그걸 알고리즘 디자인이라고 말한다.” 

    -요즘엔 디지털 포렌식 分野도 脚光받던데. 

    “컴퓨터에서 파일을 削除해도 그게 다 디스크에 남아 있다. 그걸 가지고 알아내는 거다. 그런데 搜査官이 일부러 파일을 고쳐 어떤 사람을 犯罪者로 沒收도 있지 않겠는가. 그런 일이 일어나지 않게 오리지널 데이터를 毁損하지 않았다는 걸 證明할 수도 있어야 한다.” 

    -클라우드 컴퓨팅은 무슨 뜻인가. 

    “個人이 물이나 電氣를 쓸 때 自體 發電機 없이도 물값이나 電氣값만 내고 쓰는 것을 생각하면 좋겠다. 例를 들면 서울대 같은 境遇에 컴퓨터를 第一 많이 쓸 때가 受講 申請하는 날인데 그날 한番 쓴다고 비싼 컴퓨터를 사놓으면 浪費 아닌가. 클라우드 컴퓨팅을 쓰면 그때만 費用을 支拂하고 쓸 수 있으니까 經費가 훨씬 節約된다. 保安도 專門家들이 代身 해주니 걱정할 必要가 없다. 아마존이 只今 莫大한 收益을 올리는 分野다.” 

    -데이터도 重要하지만 데이터를 對하는 態度도 重要해 보인다. 基本的으로 率直해야 되겠다. 

    “重要한 指摘이다. 머릿속에 뭔가를 가둬놓고 틀을 만들어 놓으면 안 된다. 데이터가 말하는 것에 注目해야 한다. 政府 政策을 내놓을 때도 過去 데이터를 活用해 패턴을 分析하면 어떤 結果가 나왔는지 알 수 있어서 쓸데없는 리스크와 費用을 줄일 수 있다. 政治人들이 알고리즘만 배웠어도 政治를 이렇게 엉망으로 안 할 텐데(웃음).” 

    -4次 産業革命을 한 單語로 定義한다면? 

    “데이터가 主導하는 世上.”



    댓글 0
    닫기

    매거진東亞

    • youtube
    • youtube
    • youtube

    에디터 推薦記事

    - "漢字路" 한글한자자동변환 서비스는 교육부 고전문헌국역지원사업의 지원으로 구축되었습니다.
    - "漢字路" 한글한자자동변환 서비스는 전통문화연구회 "울산대학교한국어처리연구실 옥철영(IT융합전공)교수팀"에서 개발한 한글한자자동변환기를 바탕하여 지속적으로 공동 연구 개발하고 있는 서비스입니다.
    - 현재 고유명사(인명, 지명등)을 비롯한 여러 변환오류가 있으며 이를 해결하고자 많은 연구 개발을 진행하고자 하고 있습니다. 이를 인지하시고 다른 곳에서 인용시 한자 변환 결과를 한번 더 검토하시고 사용해 주시기 바랍니다.
    - 변환오류 및 건의,문의사항은 juntong@juntong.or.kr로 메일로 보내주시면 감사하겠습니다. .
    Copyright ⓒ 2020 By '전통문화연구회(傳統文化硏究會)' All Rights reserved.
     한국   대만   중국   일본