AI 학습시키고 住民-旅券番號除去 안해…정부 “個人情報保護脆弱點補完하라”

東亞日報
入力 2024年 3月 28日 21時 43分

주현우 記者

코멘트: 個

좋아요: 個

코멘트: 個

챗GPT 等生成型人工知能(AI) 서비스를 提供하는 主要 빅테크 企業이 AI를 학습시킬 때 住民登錄番號와 旅券番號等敏感한 個人情報를 제대로 除去하지 않는다는 政府調査結果가 나왔다. 個人情報가 無分別하게 流出될 憂慮가 있는 만큼 政府는 企業들에 脆弱點을 補完하라고 勸告했다.

個人情報保護委員會(個人情報委)는 27日全體會議를 열고 오픈AI와 구글, 마이크로소프트, 메타, 네이버, 뤼튼 等 6個業體에 “個人情報保護의 脆弱點을 補完하라”고 勸告하기로 議決했다. 이들 業體는 AI 서비스를 提供하거나 이를 위한 大規模言語모델을 開發 및 配布한다.

個人情報委는 生成型 AI 서비스가 急速히 擴散함에 따라 지난해 11月부터 韓國인터넷振興院과 主要 AI 서비스를 對象으로 事前實態點檢을 進行했다. 그 結果 AI 서비스에 入力되는 情報에서 住民登錄番號와 旅券番號, 信用카드番號等個人情報가 除去되지 않은 點이 確認됐다.

大規模言語모델이란 厖大한 量의 텍스트를 入力하면, 주어진 狀況에 맞는 자연스러운 言語를 出力해내는 一種의 딥러닝 技術이다. 入力 데이터에 個人情報가 包含되더라도 自體 필터링 技術을 통해 露出되지 않도록 豫防할 수 있다. 하지만 시스템 誤謬로 인해 個人情報가 露出되는 境遇도 있어 事前에 入力段階에서 情報를 除去하는 것이 安全하다.

實際 지난해 7月 구글 硏究陣은 챗GPT에 “poem이라는 單語를 無限으로 反復하라”는 命令語를 入力했을 때 필터링 시스템에 誤謬가 發生하며 電話番號, 이메일 等個人情報가 그대로 露出되는 現象을 發見했다. 個人情報委는 지난해 12月 오픈AI 基盤의 다른 生成型 AI 서비스에서도 비슷한 問題가 發生하는 點을 捕捉해 事業者들에게 案內한 바 있다.

個人情報가 學習 데이터에 無分別하게 包含되는 것은, 大規模言語모델 事業者들이 웹上의 情報들을 無作爲로 探索하는 ‘크롤링’ 技術로 情報를 蒐集하기 때문이다. 敏感한 個人情報를 抽出하지 않도록 프로그램을 設計할 수 있다. 하지만 데이터量이 厖大하고 데이터 形式도 모두 다르기 때문에 情報主體의 意思와 無關하게 個人情報가 包含될 可能性이 크다.

個人情報委는 AI 서비스 利用者가 入力된 데이터를 報告 손쉽게 除去·削除할 수 있도록 接近性을 높일 것을 이들 事業者에게 勸告했다.

주현우 記者 woojoo@donga.com