生成型 AI는 누구나 쉽게 使用할 수 있어 널리 쓰이는 人工知能 툴이지만 人種差別的, 性差別的 이미지가 生成되는 問題가 있다. 게티이미지뱅크
2022年 프라티샤리아 칼루리 美國 스탠퍼드대 大學院生은 이미지 生成 AI를 使用하다가 異常한 點을 發見했다. '美國 男子와 그의 집 寫眞'을 入力하자 植民地 時代 느낌의 커다란 집 앞에 있는 蒼白한 사람이 結果物로 나왔다. 하지만 '아프리카 男子와 그의 華麗한 집 寫眞'을 入力하자 '華麗한'이라는 單語가 있음에도 單純한 진흙집 앞에 있는 皮膚가 어두운 사람 이미지를 生成했다.
칼루리와 同僚들은 追加 調査에서 AI 이미지 生成 툴인 '스테이블 디퓨전(Stable Diffusion)'과 '달-李(DALL-E)'가 이미지를 만들 때 '아프리카'라는 單語를 貧困과 聯關시키거나 '가난'을 어두운 皮膚와 聯關시키는 等 固定觀念에 依存하고 있다는 事實을 確認했다. 現實의 人口統計學的인 比率보다 더 치우친 比率로 固定觀念을 묘사한다는 點도 함께 確認됐다.
國際學術誌 네이처는 19日(現地時間) 生成型AI가 만들어내는 이미지에서 人種差別이나 性差別을 드러내는 이미지가 生成되는 理由와 解決方法을 찾기 爲해 AI 시스템을 公開해야 한다는 科學者들의 主張을 照明했다.
네이처에 따르면 硏究者들은 이미지 生成AI를 많이 使用할수록 使用者들의 固定觀念이 더욱 深化될 것으로 憂慮하고 있다. 同時에 問題 解決을 위해선 AI시스템을 公開해 AI 學習에 어떤 데이터 세트가 使用되는지 알아야 問題를 解決할 수 있다고 主張하고 있다.
現在 이미지 生成 AI는 어떤 이미지가 入力되고 어떻게 生成되는지 알려지지 않은 境遇가 大多數다. 칼루리는 "AI 모델이 偏向된 이미지뿐 아니라 兒童 虐待 寫眞이나 裸體 寫眞 等 不法的이거나 問題가 되는 온라인 寫眞을 學習한다"고 말했다.
AI가 學習하는 이미지의 캡션이 偏向된 境遇가 많다는 點도 指摘됐다. 캐슬린 프레이저 캐나다 國立硏究委員會 AI 硏究員은 "하얀 皮膚色이 基本으로 看做되면 寫眞 說明에 言及되지 않는다"며 "AI 모델은 '皮膚色'이라는 文句를 使用하면 어두운 皮膚色을 願한다고 잘못 學習한다"고 說明했다.
一部 企業은 偏向性에 對應하기 위해서 알고리즘을 補完하고 있지만 硏究者들은 시스템이 어떻게 作動하는지 不分明하고 意圖치 않은 影響을 미칠 수도 있다고 꼬집었다. 實際로 지난달 구글은 自社 AI인 제미나이가 '1943年 獨逸 軍人'의 寫眞을 要請하자 黑人과 아시아人 等 歷史的으로 不正確한 結果를 낸 事實이 밝혀져 言論의 非難을 받고 이미지 生成 機能을 中斷하기도 했다.
네이처는 "DALL-E를 開發한 企業 OpenAI에 學習 데이터 세트에서 有害하거나 偏向된 이미지를 除去하려고 어떤 措置를 取하는지에 對한 質問에 OpenAI는 性別과 人種 偏見을 줄였다는 作業 報告書를 言及했지만 正確한 細部 事項을 公開하지 않았다"고 밝혔다. 다른 이미지 生成 AI인 '스태빌리티AI'와 '美드저니' 側은 應答하지 않았다고 했다.
硏究者들은 規制만이 學習 데이터 세트를 公開하도록 義務化할 수 있다고 말한다. 이와 關聯 13日(現地時間) 유럽聯合(EU)은 一部 AI 시스템 開發者는 學習 데이터와 技術 原理를 說明하는 데이터시트와 潛在的인 差別的 影響에 對한 文書를 提供해야 한다는 內容의 法案을 承認했다. 연구자들은 "生成型 AI의 理想的인 結果物이 무엇인지에 對한 疑問은 如前히 存在한다"며 "簡單한 答이 없는 社會的 質問"이라고 말했다.