•  


完璧한 데이터는 없다, 情報 流出, 偏向 等 副作用도 注意해야 | 마케팅/세일즈 | DBR
Top

SR5. MIT Sloan Management Review

完璧한 데이터는 없다
情報 流出, 偏向 等 副作用도 注意해야

페르난도 루치니(Fernado Lucini) | 345號 (2022年 05月 Issue 2)
  • 전체 메뉴보기 메뉴 닫기
  • 이벤트
  • 顧客센터
  • DBR SNS
  • PDF 다운로드
  • 폰트 사이즈 조절
  • 스크랩

    스크랩

    메모入力

  • 編輯者註

    이 글은 MIT 슬론 매니지먼트 리뷰(SMR) 2022年 겨울 號에 실린 ‘The Real Deal About Synthetic Data’를 飜譯한 것입니다.

    Article at a Glance

    合成 데이터의 뚜렷한 利點에도 不拘하고 實際 利用하는 건 까다롭다. 合成 데이터 生成 프로세스가 極度로 어렵고 AI 分野의 最新 知識으로 武裝한 專門家들을 必要로 하기 때문이다. 또한 合成 데이터를 評價하는 일도 매우 複雜하고, 데이터에 어떤 變數가 包含돼 있는지에 따라 評價 基準이 모두 달라져야 한다. 合成 데이터의 正確性을 評價하는 데 道具, 體系, 基準이 必要한 理由다. 不正確한 合成 데이터를 使用할 境遇 深刻한 副作用이 생길 수 있다. 規制當局이 問題 삼을 餘地도 있고, 惡意的 主體가 脆弱點을 파고들어 願데이터에 담긴 特定 人物 情報를 識別할 수 있으며, 데이터의 偏向이 오히려 强化될 수도 있다.


    人工知能 모델을 訓鍊하거나 인사이트를 얻기 위해 데이터가 必要할 때 現實의 데이터에 接近하는 게 늘 쉽지만은 않다. 하지만 願데이터를 꼭 빼닮은 데이터세트를 生成하는 新技術을 利用하면 이런 어려움을 解消할 수 있다.

    데이터는 高級 애널리틱스와 머신러닝 이니셔티브의 發展을 이끄는 核心 燃料다. 하지만 個人情報 保護와 프로세스 問題를 둘 다 考慮해야 하기 때문에 必要한 데이터를 손에 넣는 게 決코 쉬운 일은 아니다. 그런데 여기 合成 데이터라는 새로운 突破口가 열렸다. 合成 데이터는 實際 世界에서 얻은 데이터와는 다른 方式으로 共有되고 活用된다. 勿論 合成 데이터 利用에는 여러 危險이 따르고, 短點도 없지 않다. 또한 會社의 資源을 어디에, 어떻게 投資할지도 深思熟考해야 한다.

    合成 데이터란 무엇인가?

    合成 데이터는 現實의 데이터로 學習하던 AI 알고리즘을 活用해 人爲的으로 生成한 데이터를 가리킨다. 이는 願데이터와 同一한 豫測力을 자랑하지만 願데이터를 單純히 흉내 내고 變形하는 것을 넘어 完全히 代替해버린다. 合成 데이터는 確率 分布를 모델링하고 샘플링해서 旣存 데이터의 統計的 特性과 패턴을 그대로 再現하기 위해 登場했다. 이 알고리즘을 利用하면 基本的으로 願데이터의 모든 特徵을 간직하고 있는 새로운 데이터를 生成할 수 있기 때문에 願데이터를 使用했을 때와 똑같은 答을 導出해낼 수 있다. 하지만 알고리즘을 利用하든, 알고리즘이 만든 合成 데이터를 利用하든 이를 통해 個人 識別 情報 等 願데이터를 再構成하는 것은 不可能하다.

    061


    合成 데이터는 專門家들에게 祝福이나 다름없다. 한 例로, 美 國立保健院(NIH)李 IT 서비스 스타트業인 ‘신테그라(Syntegra)’와 어떤 共同 프로젝트를 進行하고 있는지 살펴보자. 신테그라는 自體 合成 데이터 生成 엔진을 活用해 270萬 名이 넘는 코로나19 檢査者, 41萬3000名이 넘는 코로나19 確診者에 關한 患者 記錄 데이터베이스로부터 비식별화된 複製本을 生成하고 檢證했다. 合成 데이터세트는 願데이터세트의 統計的 特性을 正確하게 複製하지만 元來의 情報와 關聯해 識別 可能한 痕跡은 남기지 않는다. 이런 特性 德分에 合成 데이터는 全 世界 專門家 사이에서 널리 共有되고 活用될 수 있으며, 이는 疾病에 對해 더 많은 情報를 알게 해줄 뿐만 아니라 治療나 백신 開發에도 큰 進展을 가져올 수 있다.

    合成 데이터 技術은 다양한 産業에서 應用될 수 있다. 데이터 使用과 顧客 情報 保護 規制가 特히 嚴格한 金融 서비스業의 境遇 많은 金融機關이 個人情報 保護 規制를 違反하지 않고서도 顧客 서비스에서 偏向을 찾아 除去하는 데 合成 데이터를 活用하고 있다. 또한 리테일 業界는 合成 데이터 販賣가 새로운 收益 創出院이 될 潛在力이 있다고 보고 있다. 顧客의 個人情報를 流出하지 않으면서도 顧客의 購買 行態에 關한 有用한 情報를 提供한다면 市場 價値가 있을 수 있기 때문이다.

    비즈니스的 價値 3가지: 保安•速度•스케일

    合成 데이터의 가장 明白한 이點은 核心 情報를 流出할 危險이나 企業 및 消費者의 私生活 및 保安을 侵害할 危險을 遮斷할 수 있다는 것이다. 暗號化(encryption), 匿名化(anonymization), 同型 暗號(homomorphic encryption)나 安全한 多者 間 演算(secure multiparty computation) 等의 個人情報 保護 技法은 願데이터와 데이터에 담긴 情報를 保護하고, 이를 利用해 特定 個人을 찾아내지 못하도록 한다. 하지만 願데이터가 存在하는 以上 어떤 技法을 쓰든 間에 데이터가 毁損되거나 流出될 危險이 常時的으로 도사리고 있다.

    그런데 合成 데이터는 이렇게 時間을 잡아먹는 골칫덩이인 個人情報 保護와 保安 프로토콜들의 制約을 받지 않는다. 이 때문에 合成 데이터를 쓸 境遇 企業은 더 빠르게 데이터에 接近할 수 있게 된다. 어떤 金融機關이 엄청난 量의 데이터를 保有하고 있고, 이 데이터가 經營陣이 다양한 會社의 問題를 解決하는 데 큰 보탬이 된다고 하자. 하지만 이 데이터는 保安 水位가 宏壯히 높아서 純全히 社內用임에도 不拘하고 데이터에 接近하기까지 至難한 過程을 거쳐야 한다. 어떤 때는 아주 적은 量의 데이터를 손에 넣기까지 6個月이 걸리기도 하고, 업데이트에만 追加로 6個月을 더 기다려야 하기도 한다. 이제 이 會社는 願데이터를 바탕으로 合成 데이터를 만든다. 擔當 部署에서 合成 데이터를 利用해 꾸준한 업데이트와 모델링을 進行하고 있고 自社 實績 向上에 必要한 인사이트度 持續해서 만들고 있다.

    여기서 끝이 아니다. 合成 데이터가 있으면 會社는 大量의 데이터세트를 利用해 머신러닝 모델의 學習 時間을 短縮할 수 있어 AI 솔루션의 學習, 테스트, 配布 프로세스도 덩달아 빨라진다. 이렇게 되면 現在 많은 企業이 直面한 問題, 卽 AI 모델 學習에 必要한 데이터 不足이라는 問題가 解決된다. 大量의 데이터세트에 接近할 수 있게 되면 머신러닝 엔지니어와 데이터 사이언티스트 立場에서는 모델 開發의 여러 段階에서 나오는 結果物을 더 信賴할 수 있게 된다. 新製品과 新規 서비스를 市場에 보다 빨리 선보일 수 있다는 뜻이다.

    保安課 速度가 保障되면 스케일도 確保된다. 分析에 쓸 수 있는 데이터의 量이 많아진다. 只今은 第3者에게서 데이터를 사들일 수는 있지만 大槪 지나칠 程度로 비싸다. 그런데 合成 데이터를 第3者로부터 購買할 境遇 會社의 問題를 解決하면서 더 正確한 答을 얻을 수 있는 많은 데이터를 쉽고 低廉하게 確保할 수 있다. 이를테면 모든 銀行은 金融 不貞行爲를 把握해 除去할 義務를 지닌다. 이는 各 銀行이 單獨으로 遂行해야 하는 自願 集約的인 課題다. 왜냐하면 規制當局이 의심스러운 活動을 感知하더라도 該當 銀行의 自體 데이터만 檢討할 수 있도록 銀行 間 칸막이를 치고 있기 때문이다. 그런데 銀行이 合成 데이터세트의 풀을 確保하면 該當 銀行 안에서만 일어나는 일이 아니라 그 國家의 모든 銀行에서 일어나는 社會 活動을 全體的으로 眺望할 수 있게 된다. 그 結果 金融 詐欺 探知 프로세스를 迅速化 및 簡素化할 수 있고, 무엇보다 적은 資源으로 더 많은 不貞行爲를 無力化할 수 있다.

    그렇다면 왜 모든 會社가 쓰지 않을까?

    合成 데이터의 뚜렷한 利點에도 不拘하고 實際 利用하기는 어려울 수 있다. 合成 데이터 生成 프로세스가 極度로 複雜하고, 제대로 生成하기 위해서는 單純히 AI 알고리즘을 데이터세트에 連結하는 것 以上의 作業이 要求되기 때문이다. 一旦 AI 分野의 最新 知識으로 武裝한 專門家들이 必要하다. 또한 元來 目標한 대로 데이터가 만들어졌는지 檢證할 수 있는 具體的이고 精巧한 會社 시스템 및 測定 基準이 마련돼야 하는데 이 部分이 特히 어렵다.

    潛在的 活用 事例(use case)가 워낙 다양하다 보니 合成 데이터를 評價하는 일은 매우 複雜하다. 豫測이나 統計 分析 等 作業 類型別로 서로 다른 形態의 合成 데이터가 必要하고 이때의 成果를 測定하는 指標와 要件, 個人情報 保護 規制 水位도 各其 다르기 때문이다. 더구나 이런 데이터 類型마다 要求되는 條件과 解決해야 할 問題도 다르다. 이를테면 날짜와 場所 情報가 包含된 데이터를 評價하고 있다고 假定해보자. 날짜와 場所라는 두 가지 變數는 서로 다른 方式으로 作動하며, 이 變數들을 제대로 追跡하려면 各自 다른 評價 基準이 있어야 한다. 그런데 여기서 한발 나아가 數百 個의 變數가 包含된 데이터가 있고 데이터마다 다른 基準을 바탕으로 評價해야 한다고 假定해보자. 이제 이 問題가 얼마나 複雜하고 어려운지 感이 올 것이다. 現在 우리는 合成 데이터의 正確性을 評價하고 ‘保證(guarantee)’하는 데 必要한 道具, 體系, 基準을 만드는 段階의 初入에 있다. 只今 같은 時期에 社會의 모든 構成員이 受容하고 信賴할 수 있는 標準 프로세스에 따라 正確한 合成 데이터를 生成하기 위해서는 産業化되고 反復 可能한 接近法을 導入하는 것이 重要하다.

    合成 데이터 受容의 또 다른 걸림돌로는 많은 企業에서 나타나는 文化的 抵抗(cultural resistance)이 있다. “우리 會社에서는 안 통한다” “믿을 수가 없다. 全혀 安全해 보이지 않는다” “規制當局이 絶對 許容하지 않을 것이다” 等이 이런 抵抗의 例다. 이런 抵抗을 딛고 合成 데이터를 더 잘 受容하게 하려면 企業의 高位 任員은 勿論 리스크 및 法務팀을 교육시키고 合成 데이터가 얼마나 잘 作動하는지 說得해야 한다.

    어떤 副作用이 생길 수 있을까?

    關鍵은 合成 데이터의 正確性을 證明하는 일이다. 이 任務를 맡은 팀은 人爲的으로 生成된 合成 데이터가 願데이터를 正確히 代表한다는 것을 立證할 수 있어야 한다. 이와 同時에 合成 데이터가 願데이터와 關聯이 없고, 願데이터를 露出하지 않는다는 點도 立證할 수 있어야 한다. 이는 무척이나 어려운 일이다. 이 三拍子가 正確히 맞아떨어지지 않는 限 合成 데이터는 有效한 데이터가 아니고, 潛在的으로 수많은 問題를 惹起할 수 있다.

    064


    例를 들어, 어떤 新製品을 開發할지 情報를 얻기 위해 合成 데이터세트를 生成했다고 해보자. 그런데 旣存에 가지고 있던 顧客 데이터세트를 合成 데이터가 제대로 代表하지 못한다면 어떤 問題가 생길까? 顧客이 어떤 商品에 關心이 있는지, 어떤 商品을 購買하는 傾向이 있는지에 對한 잘못된 購買 시그널이 데이터에 담길 것이다. 이 境遇 購買하려는 사람이 아무도 없는 製品을 開發하는 데 莫大한 돈을 쏟아붓는 失手를 犯할 수 있다.

    또 다른 副作用도 있을 수 있다. 合成 데이터가 不正確하면 規制當局이 問題 삼을 餘地가 있다. 잘못된 데이터를 바탕으로 開發한 製品 때문에 被害가 생기거나 製品이 廣告限 대로 作動하지 않는다면? 이런 컴플라이언스나 其他 法的 問題가 惹起되면 莫大한 金額을 물어줘야 한다. 나아가 以後 規制當局으로부터 集中 調査를 當하게 될 수도 있다. 規制當局은 이제 合成 데이터의 生成 및 測定 方式은 勿論 共有 方式까지 檢討하기 始作했다. 이 部分에서 規制當局이 큰 役割을 하게 될 것은 自明하다.

    不正確한 合成 데이터를 만드는 境遇는 아직까지 登場하지는 않았지만 앞으로는 分明히 副作用이 登場할 수 있다. 바로 ‘推論 攻擊(inference attack)’이다. 合成 데이터의 콘셉트는 이 合成 데이터가 오리지널 데이터와 어떤 形態로든 無關하다는 點이다. 하지만 不正確한 데이터에서 惡意的 主體(malicious actor)가 脆弱點을 찾아내 一部 데이터 포인트를 바탕으로 願데이터를 追跡하면 特定 人物을 推測할 수가 있다. 그다음 이 惡意的 主體가 該當 情報를 利用해 合成 데이터세트를 끈질기게 調査하고 파고들면 나머지 情報도 結局 손에 넣을 수 있게 된다. 그리고 結局 오리지널 데이터가 全部 流出되고 만다. 技術的인 側面에서 이런 攻擊이 成功하기는 極度로 어려운 게 事實이다. 그러나 適切한 資源이 있다면 반드시 不可能한 것만은 아니다. 그리고 成功한다면 致命的인 副作用이 惹起될 수 있다.

    完璧한 데이터세트를 만들었더라도 問題가 생길 수 있다. 바로, 偏向이다. 사람이 만든 데이터세트에 內在的 偏向(inherent bias), 歷史的 偏向(historical bias)李 包含돼 있기 때문에 이를 學習한 AI 모델에도 이런 偏向이 너무 쉽게 스며들 可能性이 있다. 事前에 合意된 公正性에 對한 定義에 맞춰 데이터세트를 만들 때 合成 데이터를 利用할 수 있다. 이 基準을 最適化 모델의 制約 條件으로 活用하면 새로운 데이터는 오리지널 데이터를 正確하게 代表할 뿐만 아니라 그 過程 亦是 공정하게 進行될 것이다. 하지만 會社가 AI 모델에 偏向을 修正하기 위한 複雜한 調整 過程을 거치지 않고 單純히 願데이터의 패턴을 模倣하는 데 그친다면 合成 데이터에 온갖 偏向이 고스란히 담기게 될 수 있다. 甚至於 偏向을 助長하고 擴散시킬 수 있다.

    發展을 위해 무엇이 必要할까?

    關聯 力量, 體制, 指標, 技術이 나날이 發展하고 있는 만큼 앞으로 우리가 合成 데이터에 對한 이야기를 들을 일이 갈수록 많아질 것이다. 合成 데이터가 우리 企業에 맞는지 苦悶하고 있다면 다음 네 가지 質問을 던져보라.

    1. 사람들이 우리 會社가 直面한 狀況에 對해 잘 알고 있는가? 大部分의 構成員에게 合成 데이터란 새롭고 어려운 槪念이다. 合成 데이터 프로그램 出市에 앞서 全體 經營陣과 리스크 對應 및 法務팀 모두 이 프로그램이 무엇이며, 어떻게 使用할 것인지, 우리 會社에 어떤 利得을 줄 수 있는지 熟知하고 있어야 한다.

    2. 必要한 力量을 活用할 수 있는가? 合成 데이터 生成은 매우 複雜한 프로세스이므로 會社에서는 데이터 사이언티스트와 엔지니어들이 合成 데이터 生成 方法을 學習할 수 있는 力量을 所有하고 있는지 把握할 必要가 있다. 이러한 合成 데이터를 얼마나 자주 만들지도 考慮해야 한다. 그 頻度에 따라 時間과 돈을 들여 職員 力量을 强化할 것인지, 아니면 必要할 때마다 外部 專門家와 契約을 맺을 것인지가 決定된다.

    3. 분명한 目標가 있는가? 合成 데이터를 生成할 때는 具體的인 目標를 念頭에 둬야 한다. 어떤 用途를 意圖하는지에 따라 어떻게 合成 데이터를 만들지, 願데이터의 어떤 屬性을 남겨둘지를 定할 수 있기 때문이다. 合成 데이터 販賣를 새로운 收益 創出원으로 삼을 수도 있다면 이에 對한 비즈니스 모델을 計劃하는 것도 매우 重要하다.

    4. 얼마나 野心 찬 目標인가? 웬만한 剛斷만으로 合成 데이터를 만들겠다고 나서서는 안 된다. 合成 데이터를 제대로 만드는 일은 高度로 複雜하고, 자칫하면 잘못된 데이터를 만들 리스크가 크기 때문이다. 하지만 그만큼 成功했을 때의 反對給付도 엄청날 것이다.

    合成 데이터는 最近 登場한 尖端 데이터 사이언스 技術이다. 하지만 갈수록 많은 會社가 合成 데이터를 좁은 實驗室이 아니라 드넓은 實際 비즈니스 世界에 適用하기 위해 實驗室 밖으로 나서고 있다. 앞으로 이 分野가 어떻게 發展되고, 어떤 成長 타임라인을 그려 나갈지는 未知數다. 그러나 데이터 基盤 企業의 리더라면 合成 데이터 狀況을 銳意注視해야 한다. 그리고 適切한 時期가 왔을 때 바로 適用할 萬般의 態勢를 갖추고 있어야 한다.


    페르난도 루치니(Fernado Lucini) 는 액센츄어 어플라이드 인텔리전스(Accenture Applied Intelligence) 所屬으로 專門 分野는 글로벌 데이터 사이언스와 머신러닝 엔지니어링이다.

    飜譯 |노이재
    whodoneit@naver.com


    DBR mini box : 醫療 分野에서의 可能性과 限界

    코로나 診斷 補助 技術 開發에도 ‘合成 데이터’ 效驗

    人間의 生命을 다루는 醫療 分野의 境遇, 患者의 身上 및 診療 情報 等 個人의 敏感 情報를 담고 있어 充分한 量의 데이터를 確保하기가 어렵다. 그뿐만 아니라 여러 데이터를 結合하는 過程에서 完全한 匿名化가 아니라 다시 識別할 수 있게 될 念慮가 있어 個人情報의 오•濫用 可能性이 存在한다. 2020年 8月, 데이터 3法 및 保健醫療 데이터 活用 가이드라인이 마련되면서 假名 情報를 活用할 수 있는 法的 根據가 생겼으나 데이터 保安 및 프라이버시 이슈 等 다양한 問題로 인해 實質的으로 데이터 活用에는 如前히 어려움이 많다. 이에 따라 個人情報 이슈를 解決하는 同時에 적은 量으로도 AI 學習에 利用할 수 있는 ‘合成 데이터(Synthetic Data)’가 代案으로 浮上하고 있다.

    醫療 分野에서 合成 데이터는 ‘存在하지 않으나 그럴듯한 假짜 데이터’로 診療 情報, 遺傳體, 라이프로그 等 實際 데이터를 基盤으로 만들어진 데이터다. 이렇게 實際와 類似한 假짜 데이터를 生成하면 醫療 데이터의 敏感 情報 識別 問題를 解決할 수 있다. 또한 學習된 데이터가 充分하지 않고 데이터 蒐集 費用이 높은 境遇에 더욱 有用하다.

    066

    醫療 合成 데이터 活用 事例

    코로나 診斷 補助 技術 開發 i : 醫療 AI 모델을 開發할 때는 大量의 데이터 確保가 必須的이지만 데이터 前處理에 普通 너무 많은 時間과 費用이 所要된다. AI 開發의 80% 以上이 데이터 誤謬 除去와 라벨링으로 優秀 材料를 만드는 데 들어간다고 해도 過言이 아니다. 特히 코로나19처럼 寸刻을 다투는 狀況에서는 데이터 不均衡 問題가 더 深刻할 수밖에 없다. 이럴 때 合成 데이터가 對案이 될 수 있다. 實際로 國內에서 코로나가 急激하게 擴散될 때 안경희 서울여대 敎授팀은 딥러닝으로 코로나19 胸部 X선 判讀 모델을 開發하기 위해 大量의 合成 데이터를 生成하고, 이를 患者 데이터와 正常 데이터로 分類했다. 그 結果 診斷을 위한 AI 判讀 모델의 性能이 98% 改善됐다.

    新藥 候補 物質 探索 : 新約이 最終的으로 開發되는 데는 平均的으로 約 10年, 1兆 원의 費用이 所要된다. 이를 短縮하기 위해 最近에는 新藥 候補 物質 發掘부터 藥물 承認에 이르기까지 全 過程에 AI가 活用되고 있다. 게다가 最近에는 사람이 一一이 分子를 合成하는 게 아니라 AI를 活用해 合成 分子를 만드는 方式이 登場했다. 新藥 開發 스타트業인 ‘人室리코 메디슨’의 境遇 AI로 新藥 候補 物質을 選別, 合成하고, 檢證하는 全 過程을 46日 以內에 끝내는 시스템을 開發했다. 이 시스템은 數百萬 個의 샘플과 다양한 類型의 疾病 特性을 利用해 抗癌 屬性을 가진 새로운 分子를 合成하고, 이 分子가 旣存 治療法과 比較해 어떤지를 判別해 抗癌 候補 物質 探索 速度를 높인다. 實際로 人室리코 메디슨은 이 合成 데이터를 活用해 只今까지 7200萬 가지 化學 物質에서 新藥 候補를 發掘한 것으로 알려져 있다.

    醫療 合成 데이터의 可能性

    如前히 醫療 分野에서 合成 데이터는 妥當性이 充分히 檢討되지 않아 臨床에 活潑히 活用되진 못하고 있다. 다만 美國 조지메이슨大 硏究팀이 오픈소스로 公開된 合成 데이터 生成機 ‘身世아(Synthea)’로 生成한 120萬 名의 매사추세츠 患者들에 關한 合成 데이터 品質을 測定한 結果 信賴性이 높다고 評價한 바 있다. 身世아란 美國 CMS(Center for Medicare and Medicaid Services)에서 醫療 機關들이 合成 醫療 데이터를 자유롭게 活用하도록 公開한 AI 알고리즘으로 患者들의 壽命 週期, 人口 統計, 1次 診療 記錄, 應急室 診療 記錄, 症狀 記錄 等의 情報로 構成돼 있다.

    마찬가지로 皮膚 病變을 合成해 만든 데이터와 實際 데이터를 區分하기 어려웠다는 有效性 檢證 結果도 있다. ii 이 硏究에 따르면 3名의 皮膚科 專門醫와 5名의 딥러닝 專門家가 一種의 ‘튜링 테스트(Visual Turing Test)’를 遂行한 結果 假짜와 眞짜를 區分할 수 없었다. 合成된 이미지와 實際 이미지가 랜덤으로 混合된 狀態에서 醫師도, AI 專門家도 무엇이 眞짜이고 假짜인지 제대로 再分類해내지 못했던 것이다.

    醫療 合成 데이터의 限界

    067


    只今까지의 合成 데이터 硏究는 主로 MRI, CT, X-ray 等 이미지 生成, 映像 間의 變換, 解像度 向上 等에 使用돼 왔다. 하지만 이런 醫療 映像만 본다고 患者의 病名을 正確히 診斷하고 治療法을 提示할 수 있는 것은 아니다. 이에 따라 患者 狀態를 實時間으로 把握할 수 있는 診療 記錄, 臨床 데이터 等 다양한 變數의 時系列 데이터도 生成하고 實際 데이터와 얼마나 類似한지를 評價해야 한다.

    또한 데이터가 醫療 行爲의 臨床的 根據로 使用되는 만큼 잘못된 醫療 情報 活用은 豫想치 못한 結果로 이어질 수 있어 신중해야 한다. 딥페이크 等 假짜 醫療 데이터 生成이 醫療 事故 等 深刻한 副作用을 招來할 危險도 排除할 수 없다. 國內에서도 이런 AI 生成 모델과 合成 데이터 品質의 臨床的 有效性을 綿密하게 檢證하는 實證 硏究가 뒷받침돼야만 實際 바이오 헬스케어 企業들이나 病院 等 醫療 機關이 合成 데이터를 醫療 AI에 廣範圍하게 適用하고 患者 診斷 및 治療에 意味 있는 結果를 가져올 수 있을 것이다.


    김보라 韓國保健産業振興院 硏究院 bora.kim@khidi.or.kr
    김보라 硏究員은 韓國保健産業振興院 硏究開發革新本部(R&D) 所屬이다. 現在 韓國保健産業振興院은 敏感 情報인 醫療 데이터의 情報 保護 및 活用性 提高를 위해 再識別 可能性을 낮춘 ‘合成 데이터 生成 및 臨床 活用 實證硏究 事業’을 支援하고 있다.


    • 페르난도 루치니(Fernado Lucini) | 액센츄어 어플라이드 인텔리전스(Accenture Applied Intelligence) 所屬으로 專門 分野는 글로벌 데이터 사이언스와 머신러닝 엔지니어링

      이 筆者의 다른 記事 보기
    人氣記事
Good Content Service kocca
- "漢字路" 한글한자자동변환 서비스는 교육부 고전문헌국역지원사업의 지원으로 구축되었습니다.
- "漢字路" 한글한자자동변환 서비스는 전통문화연구회 "울산대학교한국어처리연구실 옥철영(IT융합전공)교수팀"에서 개발한 한글한자자동변환기를 바탕하여 지속적으로 공동 연구 개발하고 있는 서비스입니다.
- 현재 고유명사(인명, 지명등)을 비롯한 여러 변환오류가 있으며 이를 해결하고자 많은 연구 개발을 진행하고자 하고 있습니다. 이를 인지하시고 다른 곳에서 인용시 한자 변환 결과를 한번 더 검토하시고 사용해 주시기 바랍니다.
- 변환오류 및 건의,문의사항은 juntong@juntong.or.kr로 메일로 보내주시면 감사하겠습니다. .
Copyright ⓒ 2020 By '전통문화연구회(傳統文化硏究會)' All Rights reserved.
 한국   대만   중국   일본