•  


AI 학습시키고 住民-旅券番號 除去 안해…정부 “個人情報 保護 脆弱點 補完하라”|동아일보

AI 학습시키고 住民-旅券番號 除去 안해…정부 “個人情報 保護 脆弱點 補完하라”

  • 東亞日報
  • 入力 2024年 3月 28日 21時 43分


코멘트

챗GPT 等 生成型 人工知能(AI) 서비스를 提供하는 主要 빅테크 企業이 AI를 학습시킬 때 住民登錄番號와 旅券番號 等 敏感한 個人情報를 제대로 除去하지 않는다는 政府 調査 結果가 나왔다. 個人情報가 無分別하게 流出될 憂慮가 있는 만큼 政府는 企業들에 脆弱點을 補完하라고 勸告했다.

個人情報保護委員會(個人情報委)는 27日 全體 會議를 열고 오픈AI와 구글, 마이크로소프트, 메타, 네이버, 뤼튼 等 6個 業體에 “個人情報 保護의 脆弱點을 補完하라”고 勸告하기로 議決했다. 이들 業體는 AI 서비스를 提供하거나 이를 위한 大規模 言語모델을 開發 및 配布한다.

個人情報委는 生成型 AI 서비스가 急速히 擴散함에 따라 지난해 11月부터 韓國인터넷振興院과 主要 AI 서비스를 對象으로 事前 實態點檢을 進行했다. 그 結果 AI 서비스에 入力되는 情報에서 住民登錄番號와 旅券番號, 信用카드番號 等 個人情報가 除去되지 않은 點이 確認됐다.

大規模 言語모델이란 厖大한 量의 텍스트를 入力하면, 주어진 狀況에 맞는 자연스러운 言語를 出力해내는 一種의 딥러닝 技術이다. 入力 데이터에 個人情報가 包含되더라도 自體 필터링 技術을 통해 露出되지 않도록 豫防할 수 있다. 하지만 시스템 誤謬로 인해 個人情報가 露出되는 境遇도 있어 事前에 入力 段階에서 情報를 除去하는 것이 安全하다.

實際 지난해 7月 구글 硏究陣은 챗GPT에 “poem이라는 單語를 無限으로 反復하라”는 命令語를 入力했을 때 필터링 시스템에 誤謬가 發生하며 電話番號, 이메일 等 個人情報가 그대로 露出되는 現象을 發見했다. 個人情報委는 지난해 12月 오픈AI 基盤의 다른 生成型 AI 서비스에서도 비슷한 問題가 發生하는 點을 捕捉해 事業者들에게 案內한 바 있다.

個人情報가 學習 데이터에 無分別하게 包含되는 것은, 大規模 言語모델 事業者들이 웹上의 情報들을 無作爲로 探索하는 ‘크롤링’ 技術로 情報를 蒐集하기 때문이다. 敏感한 個人情報를 抽出하지 않도록 프로그램을 設計할 수 있다. 하지만 데이터量이 厖大하고 데이터 形式도 모두 다르기 때문에 情報 主體의 意思와 無關하게 個人情報가 包含될 可能性이 크다.

個人情報委는 AI 서비스 利用者가 入力된 데이터를 報告 손쉽게 除去·削除할 수 있도록 接近性을 높일 것을 이들 事業者에게 勸告했다.

주현우 記者 woojoo@donga.com
  • 좋아요
    0
  • 슬퍼요
    0
  • 火나요
    0
  • 推薦해요

댓글 0

只今 뜨는 뉴스

- "漢字路" 한글한자자동변환 서비스는 교육부 고전문헌국역지원사업의 지원으로 구축되었습니다.
- "漢字路" 한글한자자동변환 서비스는 전통문화연구회 "울산대학교한국어처리연구실 옥철영(IT융합전공)교수팀"에서 개발한 한글한자자동변환기를 바탕하여 지속적으로 공동 연구 개발하고 있는 서비스입니다.
- 현재 고유명사(인명, 지명등)을 비롯한 여러 변환오류가 있으며 이를 해결하고자 많은 연구 개발을 진행하고자 하고 있습니다. 이를 인지하시고 다른 곳에서 인용시 한자 변환 결과를 한번 더 검토하시고 사용해 주시기 바랍니다.
- 변환오류 및 건의,문의사항은 juntong@juntong.or.kr로 메일로 보내주시면 감사하겠습니다. .
Copyright ⓒ 2020 By '전통문화연구회(傳統文化硏究會)' All Rights reserved.
 한국   대만   중국   일본