한자로 한글한자자동변환기

完璧한 데이터는 없다, 情報流出, 偏向等副作用도 注意해야 | 마케팅/세일즈 | DBR

로그인 | 會員加入 | 顧客센터

DBR의 敎育솔루션

로그인

SR5. MIT Sloan Management Review

完璧한 데이터는 없다
情報流出, 偏向等副作用도 注意해야

페르난도 루치니(Fernado Lucini) | 345號 (2022年 05月 Issue 2)

로그인을 해주세요
로그인 會員加入

사이드메뉴 닫기
全體서비스 MY서비스
에디터가 强力推薦하는

Special Report

Case Study

Graphic DBR

아티클
經營戰略 마케팅/세일즈 人事/組織財務會計經營一般 리더십 自己啓發 글로벌 리포트 스타트업 IT 醫療金融流通建設/製造 서비스 戶數別連載物別筆陣別 그래픽 DBR PDF 全體보기

PREMIUM

購讀
이벤트
이벤트 當籤者公知
顧客센터
公知事項 FAQ 1:1門의 提携&廣告文의 利用券/商品券引證購讀引證
DBR SNS
Facebook 카카오톡 블로그

共有
스크랩

+ 새로운 폴더 生成
폴더名

메모入力

스크랩

編輯者註

이 글은 MIT 슬론 매니지먼트 리뷰(SMR) 2022年 겨울 號에 실린 ‘The Real Deal About Synthetic Data’를 飜譯한 것입니다.

Article at a Glance

合成 데이터의 뚜렷한 利點에도 不拘하고 實際利用하는 건 까다롭다. 合成 데이터 生成 프로세스가 極度로 어렵고 AI 分野의 最新知識으로 武裝한 專門家들을 必要로 하기 때문이다. 또한 合成 데이터를 評價하는 일도 매우 複雜하고, 데이터에 어떤 變數가 包含돼 있는지에 따라 評價基準이 모두 달라져야 한다. 合成 데이터의 正確性을 評價하는 데 道具, 體系, 基準이 必要한 理由다. 不正確한 合成 데이터를 使用할 境遇深刻한 副作用이 생길 수 있다. 規制當局이 問題 삼을 餘地도 있고, 惡意的主體가 脆弱點을 파고들어 願데이터에 담긴 特定人物情報를 識別할 수 있으며, 데이터의 偏向이 오히려 强化될 수도 있다.

人工知能 모델을 訓鍊하거나 인사이트를 얻기 위해 데이터가 必要할 때 現實의 데이터에 接近하는 게 늘 쉽지만은 않다. 하지만 願데이터를 꼭 빼닮은 데이터세트를 生成하는 新技術을 利用하면 이런 어려움을 解消할 수 있다.

데이터는 高級 애널리틱스와 머신러닝 이니셔티브의 發展을 이끄는 核心燃料다. 하지만 個人情報保護와 프로세스 問題를 둘 다 考慮해야 하기 때문에 必要한 데이터를 손에 넣는 게 決코 쉬운 일은 아니다. 그런데 여기 合成 데이터라는 새로운 突破口가 열렸다. 合成 데이터는 實際世界에서 얻은 데이터와는 다른 方式으로 共有되고 活用된다. 勿論合成 데이터 利用에는 여러 危險이 따르고, 短點도 없지 않다. 또한 會社의 資源을 어디에, 어떻게 投資할지도 深思熟考해야 한다.

合成 데이터란 무엇인가?

合成 데이터는 現實의 데이터로 學習하던 AI 알고리즘을 活用해 人爲的으로 生成한 데이터를 가리킨다. 이는 願데이터와 同一한 豫測力을 자랑하지만 願데이터를 單純히 흉내 내고 變形하는 것을 넘어 完全히 代替해버린다. 合成 데이터는 確率分布를 모델링하고 샘플링해서 旣存 데이터의 統計的特性과 패턴을 그대로 再現하기 위해 登場했다. 이 알고리즘을 利用하면 基本的으로 願데이터의 모든 特徵을 간직하고 있는 새로운 데이터를 生成할 수 있기 때문에 願데이터를 使用했을 때와 똑같은 答을 導出해낼 수 있다. 하지만 알고리즘을 利用하든, 알고리즘이 만든 合成 데이터를 利用하든 이를 통해 個人識別情報等願데이터를 再構成하는 것은 不可能하다.

合成 데이터는 專門家들에게 祝福이나 다름없다. 한 例로, 美國立保健院(NIH)李 IT 서비스 스타트業인 ‘신테그라(Syntegra)’와 어떤 共同 프로젝트를 進行하고 있는지 살펴보자. 신테그라는 自體合成 데이터 生成 엔진을 活用해 270萬名이 넘는 코로나19 檢査者, 41萬3000名이 넘는 코로나19 確診者에 關한 患者記錄 데이터베이스로부터 비식별화된 複製本을 生成하고 檢證했다. 合成 데이터세트는 願데이터세트의 統計的特性을 正確하게 複製하지만 元來의 情報와 關聯해 識別可能한 痕跡은 남기지 않는다. 이런 特性德分에 合成 데이터는 全世界專門家 사이에서 널리 共有되고 活用될 수 있으며, 이는 疾病에 對해 더 많은 情報를 알게 해줄 뿐만 아니라 治療나 백신 開發에도 큰 進展을 가져올 수 있다.

合成 데이터 技術은 다양한 産業에서 應用될 수 있다. 데이터 使用과 顧客情報保護規制가 特히 嚴格한 金融 서비스業의 境遇 많은 金融機關이 個人情報保護規制를 違反하지 않고서도 顧客 서비스에서 偏向을 찾아 除去하는 데 合成 데이터를 活用하고 있다. 또한 리테일 業界는 合成 데이터 販賣가 새로운 收益創出院이 될 潛在力이 있다고 보고 있다. 顧客의 個人情報를 流出하지 않으면서도 顧客의 購買行態에 關한 有用한 情報를 提供한다면 市場價値가 있을 수 있기 때문이다.

비즈니스的價値 3가지: 保安•速度•스케일

合成 데이터의 가장 明白한 이點은 核心情報를 流出할 危險이나 企業 및 消費者의 私生活 및 保安을 侵害할 危險을 遮斷할 수 있다는 것이다. 暗號化(encryption), 匿名化(anonymization), 同型暗號(homomorphic encryption)나 安全한 多者間演算(secure multiparty computation) 等의 個人情報保護技法은 願데이터와 데이터에 담긴 情報를 保護하고, 이를 利用해 特定個人을 찾아내지 못하도록 한다. 하지만 願데이터가 存在하는 以上 어떤 技法을 쓰든 間에 데이터가 毁損되거나 流出될 危險이 常時的으로 도사리고 있다.

그런데 合成 데이터는 이렇게 時間을 잡아먹는 골칫덩이인 個人情報保護와 保安 프로토콜들의 制約을 받지 않는다. 이 때문에 合成 데이터를 쓸 境遇企業은 더 빠르게 데이터에 接近할 수 있게 된다. 어떤 金融機關이 엄청난 量의 데이터를 保有하고 있고, 이 데이터가 經營陣이 다양한 會社의 問題를 解決하는 데 큰 보탬이 된다고 하자. 하지만 이 데이터는 保安水位가 宏壯히 높아서 純全히 社內用임에도 不拘하고 데이터에 接近하기까지 至難한 過程을 거쳐야 한다. 어떤 때는 아주 적은 量의 데이터를 손에 넣기까지 6個月이 걸리기도 하고, 업데이트에만 追加로 6個月을 더 기다려야 하기도 한다. 이제 이 會社는 願데이터를 바탕으로 合成 데이터를 만든다. 擔當部署에서 合成 데이터를 利用해 꾸준한 업데이트와 모델링을 進行하고 있고 自社實績向上에 必要한 인사이트度持續해서 만들고 있다.

여기서 끝이 아니다. 合成 데이터가 있으면 會社는 大量의 데이터세트를 利用해 머신러닝 모델의 學習時間을 短縮할 수 있어 AI 솔루션의 學習, 테스트, 配布 프로세스도 덩달아 빨라진다. 이렇게 되면 現在 많은 企業이 直面한 問題, 卽 AI 모델 學習에 必要한 데이터 不足이라는 問題가 解決된다. 大量의 데이터세트에 接近할 수 있게 되면 머신러닝 엔지니어와 데이터 사이언티스트 立場에서는 모델 開發의 여러 段階에서 나오는 結果物을 더 信賴할 수 있게 된다. 新製品과 新規 서비스를 市場에 보다 빨리 선보일 수 있다는 뜻이다.

保安課速度가 保障되면 스케일도 確保된다. 分析에 쓸 수 있는 데이터의 量이 많아진다. 只今은 第3者에게서 데이터를 사들일 수는 있지만 大槪 지나칠 程度로 비싸다. 그런데 合成 데이터를 第3者로부터 購買할 境遇會社의 問題를 解決하면서 더 正確한 答을 얻을 수 있는 많은 데이터를 쉽고 低廉하게 確保할 수 있다. 이를테면 모든 銀行은 金融不貞行爲를 把握해 除去할 義務를 지닌다. 이는 各銀行이 單獨으로 遂行해야 하는 自願集約的인 課題다. 왜냐하면 規制當局이 의심스러운 活動을 感知하더라도 該當銀行의 自體 데이터만 檢討할 수 있도록 銀行間 칸막이를 치고 있기 때문이다. 그런데 銀行이 合成 데이터세트의 풀을 確保하면 該當銀行 안에서만 일어나는 일이 아니라 그 國家의 모든 銀行에서 일어나는 社會活動을 全體的으로 眺望할 수 있게 된다. 그 結果金融詐欺探知 프로세스를 迅速化 및 簡素化할 수 있고, 무엇보다 적은 資源으로 더 많은 不貞行爲를 無力化할 수 있다.

그렇다면 왜 모든 會社가 쓰지 않을까?

合成 데이터의 뚜렷한 利點에도 不拘하고 實際利用하기는 어려울 수 있다. 合成 데이터 生成 프로세스가 極度로 複雜하고, 제대로 生成하기 위해서는 單純히 AI 알고리즘을 데이터세트에 連結하는 것 以上의 作業이 要求되기 때문이다. 一旦 AI 分野의 最新知識으로 武裝한 專門家들이 必要하다. 또한 元來目標한 대로 데이터가 만들어졌는지 檢證할 수 있는 具體的이고 精巧한 會社 시스템 및 測定基準이 마련돼야 하는데 이 部分이 特히 어렵다.

潛在的活用事例(use case)가 워낙 다양하다 보니 合成 데이터를 評價하는 일은 매우 複雜하다. 豫測이나 統計分析等作業類型別로 서로 다른 形態의 合成 데이터가 必要하고 이때의 成果를 測定하는 指標와 要件, 個人情報保護規制水位도 各其 다르기 때문이다. 더구나 이런 데이터 類型마다 要求되는 條件과 解決해야 할 問題도 다르다. 이를테면 날짜와 場所情報가 包含된 데이터를 評價하고 있다고 假定해보자. 날짜와 場所라는 두 가지 變數는 서로 다른 方式으로 作動하며, 이 變數들을 제대로 追跡하려면 各自 다른 評價基準이 있어야 한다. 그런데 여기서 한발 나아가 數百個의 變數가 包含된 데이터가 있고 데이터마다 다른 基準을 바탕으로 評價해야 한다고 假定해보자. 이제 이 問題가 얼마나 複雜하고 어려운지 感이 올 것이다. 現在 우리는 合成 데이터의 正確性을 評價하고 ‘保證(guarantee)’하는 데 必要한 道具, 體系, 基準을 만드는 段階의 初入에 있다. 只今 같은 時期에 社會의 모든 構成員이 受容하고 信賴할 수 있는 標準 프로세스에 따라 正確한 合成 데이터를 生成하기 위해서는 産業化되고 反復可能한 接近法을 導入하는 것이 重要하다.

合成 데이터 受容의 또 다른 걸림돌로는 많은 企業에서 나타나는 文化的抵抗(cultural resistance)이 있다. “우리 會社에서는 안 통한다” “믿을 수가 없다. 全혀 安全해 보이지 않는다” “規制當局이 絶對許容하지 않을 것이다” 等이 이런 抵抗의 例다. 이런 抵抗을 딛고 合成 데이터를 더 잘 受容하게 하려면 企業의 高位任員은 勿論 리스크 및 法務팀을 교육시키고 合成 데이터가 얼마나 잘 作動하는지 說得해야 한다.

어떤 副作用이 생길 수 있을까?

關鍵은 合成 데이터의 正確性을 證明하는 일이다. 이 任務를 맡은 팀은 人爲的으로 生成된 合成 데이터가 願데이터를 正確히 代表한다는 것을 立證할 수 있어야 한다. 이와 同時에 合成 데이터가 願데이터와 關聯이 없고, 願데이터를 露出하지 않는다는 點도 立證할 수 있어야 한다. 이는 무척이나 어려운 일이다. 이 三拍子가 正確히 맞아떨어지지 않는 限合成 데이터는 有效한 데이터가 아니고, 潛在的으로 수많은 問題를 惹起할 수 있다.

例를 들어, 어떤 新製品을 開發할지 情報를 얻기 위해 合成 데이터세트를 生成했다고 해보자. 그런데 旣存에 가지고 있던 顧客 데이터세트를 合成 데이터가 제대로 代表하지 못한다면 어떤 問題가 생길까? 顧客이 어떤 商品에 關心이 있는지, 어떤 商品을 購買하는 傾向이 있는지에 對한 잘못된 購買 시그널이 데이터에 담길 것이다. 이 境遇購買하려는 사람이 아무도 없는 製品을 開發하는 데 莫大한 돈을 쏟아붓는 失手를 犯할 수 있다.

또 다른 副作用도 있을 수 있다. 合成 데이터가 不正確하면 規制當局이 問題 삼을 餘地가 있다. 잘못된 데이터를 바탕으로 開發한 製品 때문에 被害가 생기거나 製品이 廣告限 대로 作動하지 않는다면? 이런 컴플라이언스나 其他法的問題가 惹起되면 莫大한 金額을 물어줘야 한다. 나아가 以後規制當局으로부터 集中調査를 當하게 될 수도 있다. 規制當局은 이제 合成 데이터의 生成 및 測定方式은 勿論共有方式까지 檢討하기 始作했다. 이 部分에서 規制當局이 큰 役割을 하게 될 것은 自明하다.

不正確한 合成 데이터를 만드는 境遇는 아직까지 登場하지는 않았지만 앞으로는 分明히 副作用이 登場할 수 있다. 바로 ‘推論攻擊(inference attack)’이다. 合成 데이터의 콘셉트는 이 合成 데이터가 오리지널 데이터와 어떤 形態로든 無關하다는 點이다. 하지만 不正確한 데이터에서 惡意的主體(malicious actor)가 脆弱點을 찾아내 一部 데이터 포인트를 바탕으로 願데이터를 追跡하면 特定人物을 推測할 수가 있다. 그다음 이 惡意的主體가 該當情報를 利用해 合成 데이터세트를 끈질기게 調査하고 파고들면 나머지 情報도 結局 손에 넣을 수 있게 된다. 그리고 結局 오리지널 데이터가 全部流出되고 만다. 技術的인 側面에서 이런 攻擊이 成功하기는 極度로 어려운 게 事實이다. 그러나 適切한 資源이 있다면 반드시 不可能한 것만은 아니다. 그리고 成功한다면 致命的인 副作用이 惹起될 수 있다.

完璧한 데이터세트를 만들었더라도 問題가 생길 수 있다. 바로, 偏向이다. 사람이 만든 데이터세트에 內在的偏向(inherent bias), 歷史的偏向(historical bias)李包含돼 있기 때문에 이를 學習한 AI 모델에도 이런 偏向이 너무 쉽게 스며들 可能性이 있다. 事前에 合意된 公正性에 對한 定義에 맞춰 데이터세트를 만들 때 合成 데이터를 利用할 수 있다. 이 基準을 最適化 모델의 制約條件으로 活用하면 새로운 데이터는 오리지널 데이터를 正確하게 代表할 뿐만 아니라 그 過程亦是 공정하게 進行될 것이다. 하지만 會社가 AI 모델에 偏向을 修正하기 위한 複雜한 調整過程을 거치지 않고 單純히 願데이터의 패턴을 模倣하는 데 그친다면 合成 데이터에 온갖 偏向이 고스란히 담기게 될 수 있다. 甚至於偏向을 助長하고 擴散시킬 수 있다.

發展을 위해 무엇이 必要할까?

關聯力量, 體制, 指標, 技術이 나날이 發展하고 있는 만큼 앞으로 우리가 合成 데이터에 對한 이야기를 들을 일이 갈수록 많아질 것이다. 合成 데이터가 우리 企業에 맞는지 苦悶하고 있다면 다음 네 가지 質問을 던져보라.

1. 사람들이 우리 會社가 直面한 狀況에 對해 잘 알고 있는가? 大部分의 構成員에게 合成 데이터란 새롭고 어려운 槪念이다. 合成 데이터 프로그램 出市에 앞서 全體經營陣과 리스크 對應 및 法務팀 모두 이 프로그램이 무엇이며, 어떻게 使用할 것인지, 우리 會社에 어떤 利得을 줄 수 있는지 熟知하고 있어야 한다.

2. 必要한 力量을 活用할 수 있는가? 合成 데이터 生成은 매우 複雜한 프로세스이므로 會社에서는 데이터 사이언티스트와 엔지니어들이 合成 데이터 生成方法을 學習할 수 있는 力量을 所有하고 있는지 把握할 必要가 있다. 이러한 合成 데이터를 얼마나 자주 만들지도 考慮해야 한다. 그 頻度에 따라 時間과 돈을 들여 職員力量을 强化할 것인지, 아니면 必要할 때마다 外部專門家와 契約을 맺을 것인지가 決定된다.

3. 분명한 目標가 있는가? 合成 데이터를 生成할 때는 具體的인 目標를 念頭에 둬야 한다. 어떤 用途를 意圖하는지에 따라 어떻게 合成 데이터를 만들지, 願데이터의 어떤 屬性을 남겨둘지를 定할 수 있기 때문이다. 合成 데이터 販賣를 새로운 收益創出원으로 삼을 수도 있다면 이에 對한 비즈니스 모델을 計劃하는 것도 매우 重要하다.

4. 얼마나 野心 찬 目標인가? 웬만한 剛斷만으로 合成 데이터를 만들겠다고 나서서는 안 된다. 合成 데이터를 제대로 만드는 일은 高度로 複雜하고, 자칫하면 잘못된 데이터를 만들 리스크가 크기 때문이다. 하지만 그만큼 成功했을 때의 反對給付도 엄청날 것이다.

合成 데이터는 最近登場한 尖端 데이터 사이언스 技術이다. 하지만 갈수록 많은 會社가 合成 데이터를 좁은 實驗室이 아니라 드넓은 實際 비즈니스 世界에 適用하기 위해 實驗室 밖으로 나서고 있다. 앞으로 이 分野가 어떻게 發展되고, 어떤 成長 타임라인을 그려 나갈지는 未知數다. 그러나 데이터 基盤企業의 리더라면 合成 데이터 狀況을 銳意注視해야 한다. 그리고 適切한 時期가 왔을 때 바로 適用할 萬般의 態勢를 갖추고 있어야 한다.

페르난도 루치니(Fernado Lucini) 는 액센츄어 어플라이드 인텔리전스(Accenture Applied Intelligence) 所屬으로 專門分野는 글로벌 데이터 사이언스와 머신러닝 엔지니어링이다.

飜譯｜노이재
whodoneit@naver.com

DBR mini box : 醫療分野에서의 可能性과 限界

코로나 診斷補助技術開發에도 ‘合成 데이터’ 效驗

人間의 生命을 다루는 醫療分野의 境遇, 患者의 身上 및 診療情報等個人의 敏感情報를 담고 있어 充分한 量의 데이터를 確保하기가 어렵다. 그뿐만 아니라 여러 데이터를 結合하는 過程에서 完全한 匿名化가 아니라 다시 識別할 수 있게 될 念慮가 있어 個人情報의 오•濫用可能性이 存在한다. 2020年 8月, 데이터 3法 및 保健醫療 데이터 活用 가이드라인이 마련되면서 假名情報를 活用할 수 있는 法的根據가 생겼으나 데이터 保安 및 프라이버시 이슈 等 다양한 問題로 인해 實質的으로 데이터 活用에는 如前히 어려움이 많다. 이에 따라 個人情報 이슈를 解決하는 同時에 적은 量으로도 AI 學習에 利用할 수 있는 ‘合成 데이터(Synthetic Data)’가 代案으로 浮上하고 있다.

醫療分野에서 合成 데이터는 ‘存在하지 않으나 그럴듯한 假짜 데이터’로 診療情報, 遺傳體, 라이프로그 等實際 데이터를 基盤으로 만들어진 데이터다. 이렇게 實際와 類似한 假짜 데이터를 生成하면 醫療 데이터의 敏感情報識別問題를 解決할 수 있다. 또한 學習된 데이터가 充分하지 않고 데이터 蒐集費用이 높은 境遇에 더욱 有用하다.

醫療合成 데이터 活用事例

• 코로나 診斷補助技術開發 i : 醫療 AI 모델을 開發할 때는 大量의 데이터 確保가 必須的이지만 데이터 前處理에 普通 너무 많은 時間과 費用이 所要된다. AI 開發의 80% 以上이 데이터 誤謬除去와 라벨링으로 優秀材料를 만드는 데 들어간다고 해도 過言이 아니다. 特히 코로나19처럼 寸刻을 다투는 狀況에서는 데이터 不均衡問題가 더 深刻할 수밖에 없다. 이럴 때 合成 데이터가 對案이 될 수 있다. 實際로 國內에서 코로나가 急激하게 擴散될 때 안경희 서울여대 敎授팀은 딥러닝으로 코로나19 胸部 X선 判讀 모델을 開發하기 위해 大量의 合成 데이터를 生成하고, 이를 患者 데이터와 正常 데이터로 分類했다. 그 結果診斷을 위한 AI 判讀 모델의 性能이 98% 改善됐다.

• 新藥候補物質探索 : 新約이 最終的으로 開發되는 데는 平均的으로 約 10年, 1兆 원의 費用이 所要된다. 이를 短縮하기 위해 最近에는 新藥候補物質發掘부터 藥물 承認에 이르기까지 全過程에 AI가 活用되고 있다. 게다가 最近에는 사람이 一一이 分子를 合成하는 게 아니라 AI를 活用해 合成分子를 만드는 方式이 登場했다. 新藥開發 스타트業인 ‘人室리코 메디슨’의 境遇 AI로 新藥候補物質을 選別, 合成하고, 檢證하는 全過程을 46日以內에 끝내는 시스템을 開發했다. 이 시스템은 數百萬個의 샘플과 다양한 類型의 疾病特性을 利用해 抗癌屬性을 가진 새로운 分子를 合成하고, 이 分子가 旣存治療法과 比較해 어떤지를 判別해 抗癌候補物質探索速度를 높인다. 實際로 人室리코 메디슨은 이 合成 데이터를 活用해 只今까지 7200萬 가지 化學物質에서 新藥候補를 發掘한 것으로 알려져 있다.

醫療合成 데이터의 可能性

如前히 醫療分野에서 合成 데이터는 妥當性이 充分히 檢討되지 않아 臨床에 活潑히 活用되진 못하고 있다. 다만 美國 조지메이슨大硏究팀이 오픈소스로 公開된 合成 데이터 生成機 ‘身世아(Synthea)’로 生成한 120萬名의 매사추세츠 患者들에 關한 合成 데이터 品質을 測定한 結果信賴性이 높다고 評價한 바 있다. 身世아란 美國 CMS(Center for Medicare and Medicaid Services)에서 醫療機關들이 合成醫療 데이터를 자유롭게 活用하도록 公開한 AI 알고리즘으로 患者들의 壽命週期, 人口統計, 1次診療記錄, 應急室診療記錄, 症狀記錄等의 情報로 構成돼 있다.

마찬가지로 皮膚病變을 合成해 만든 데이터와 實際 데이터를 區分하기 어려웠다는 有效性檢證結果도 있다. ii 이 硏究에 따르면 3名의 皮膚科專門醫와 5名의 딥러닝 專門家가 一種의 ‘튜링 테스트(Visual Turing Test)’를 遂行한 結果假짜와 眞짜를 區分할 수 없었다. 合成된 이미지와 實際 이미지가 랜덤으로 混合된 狀態에서 醫師도, AI 專門家도 무엇이 眞짜이고 假짜인지 제대로 再分類해내지 못했던 것이다.

醫療合成 데이터의 限界

只今까지의 合成 데이터 硏究는 主로 MRI, CT, X-ray 等 이미지 生成, 映像間의 變換, 解像度向上等에 使用돼 왔다. 하지만 이런 醫療映像만 본다고 患者의 病名을 正確히 診斷하고 治療法을 提示할 수 있는 것은 아니다. 이에 따라 患者狀態를 實時間으로 把握할 수 있는 診療記錄, 臨床 데이터 等 다양한 變數의 時系列 데이터도 生成하고 實際 데이터와 얼마나 類似한지를 評價해야 한다.

또한 데이터가 醫療行爲의 臨床的根據로 使用되는 만큼 잘못된 醫療情報活用은 豫想치 못한 結果로 이어질 수 있어 신중해야 한다. 딥페이크 等假짜 醫療 데이터 生成이 醫療事故等深刻한 副作用을 招來할 危險도 排除할 수 없다. 國內에서도 이런 AI 生成 모델과 合成 데이터 品質의 臨床的有效性을 綿密하게 檢證하는 實證硏究가 뒷받침돼야만 實際 바이오 헬스케어 企業들이나 病院等醫療機關이 合成 데이터를 醫療 AI에 廣範圍하게 適用하고 患者診斷 및 治療에 意味 있는 結果를 가져올 수 있을 것이다.

김보라 韓國保健産業振興院硏究院 bora.kim@khidi.or.kr
김보라 硏究員은 韓國保健産業振興院硏究開發革新本部(R&D) 所屬이다. 現在韓國保健産業振興院은 敏感情報인 醫療 데이터의 情報保護 및 活用性提高를 위해 再識別可能性을 낮춘 ‘合成 데이터 生成 및 臨床活用實證硏究事業’을 支援하고 있다.

페르난도 루치니(Fernado Lucini) | 액센츄어 어플라이드 인텔리전스(Accenture Applied Intelligence) 所屬으로 專門分野는 글로벌 데이터 사이언스와 머신러닝 엔지니어링

이 筆者의 다른 記事 보기

移轉目錄 다음

人氣記事

DBR의 敎育솔루션

完璧한 데이터는 없다 情報 流出, 偏向 等 副作用도 注意해야

完璧한 데이터는 없다
情報流出, 偏向等副作用도 注意해야