•  


[IT講義室] 生成型 AI의 最大 難題, '할루시네이션'

[IT講義室] 生成型 AI의 最大 難題, '할루시네이션'

남시현 sh@itdonga.com

[IT東亞 남시현 記者] 지난 3月 17日에서 21日 사이 美國 캘리포니아州 歲너제이에서 엔비디아의 年例 開發者 會議 ‘GTC 2024’가 열렸다. 젠슨 黃 엔비디아 最高經營者는 記者懇談會에서 5年 內에 人間 水準의 人工知能(以下 AI)李 現實化할 것이라고 말해 注目을 받았고, AI의 할루시네이션(幻覺)에 對해서도 開發者의 코딩 問題이기 때문에 檢索 强化 生成 節次로 解決될 것이라고 말했다.

‘인공지능의 모습과 AI 할루시네이션을 형상화’라는 프롬프트를 넣은 생성형 AI 이미지 결과 / 출처=MS 코파일럿, 어도비 파이어플라이 복합 사용
‘人工知能의 모습과 AI 할루시네이션을 形象化’라는 프롬프트를 넣은 生成型 AI 이미지 結果 / 出處=MS 코파일럿, 어도비 파이어플라이 複合 使用

앞서 GTC 2023에서 젠슨 黃과 일리야 鉏츠케버 오픈AI 共同創業者는 對談에서 ‘幻覺 問題가 2年 안에 크게 줄어들 것’이라고 얘기했는데, 1年이 지난 只今은 많이 나아졌지만 如前히 解決의 실마리는 잡지 못한 狀態다. 오늘날 AI 開發의 最大 難題로 떠오른 ‘할루시네이션’이란 무엇이며, 왜 AI는 幻覺을 일으킬까?

‘幻覺’ 意味하는 할루시네이션, 어떤 形態로 나타날까

할루시네이션은 幻覺 또는 妄想 等으로 불리며, AI가 生成한 情報에 虛僞 또는 捏造된 情報가 包含되는 現象이다. 할루시네이션은 實際 事實과 AI를 거친 情報가 다른 內在性 幻覺과 實際로 存在하지 않는 事實을 創作해서 提供하는 外在的 幻覺으로 나뉜다. 챗GPT에 質問을 했는데 歷史的 事實을 歪曲하거나, 이미지 生成 時 現實 法則에 違背된 이미지 等을 提供하는 게 할루시네이션의 影響이다.

빙 AI에 의류기업 갭(Gap)의 실적 보고서 요약을 부탁했으나, 할루시네이션으로 인해 사실과 다른 결과를 도출하는 사고가 있었다 / 출처=마이크로소프트
빙 AI에 衣類企業 갭(Gap)의 實績 報告書 要約을 付託했으나, 할루시네이션으로 인해 事實과 다른 結果를 導出하는 事故가 있었다 / 出處=마이크로소프트

例를 들어 지난해 2月 마이크로소프트가 빙 AI를 公開할 當時, 빙 AI에게 衣類企業 갭(Gap)의 收益 報告書를 分析하라고 要請했다. 빙 AI는 갭의 營業利益率이 5.9%라고 答했는데, 報告書에 5.9%라는 數値는 없으며 實際 利益率은 4.6%였다. 또한 稀釋 週當 純利益도 0.42달러라고 말하고, 賣出도 두 자릿數 增加할 수 있다고 말했다. 實際 報告書에는 0.42달러라는 單語가 없었고, 賣出도 한 자릿數 中盤으로 減少할 것이라는 內容이었다.

自然語 處理에서 할루시네이션이 發生하는 주된 理由는 데이터의 問題다. 蒐集한 데이터 自體가 잘못된 事實을 다루고 있거나, 데이터를 混合하는 過程에서 問題가 생긴다. 大多數 生成型 AI는 事前에 訓鍊된 데이터를 바탕으로 應答하지만, 統計的으로 不完全한 모델이 生成되면서 할루시네이션이 나타날 수 있다. 以外에도 文章의 相關關係를 잘못 學習하면서 생기기도 하고, 內藏된 知識 中 앞서 使用된 情報를 重複 使用하다가 꼬여서 생기기도 한다.

自然語 處理 넘어 어떤 分野든 發生하는 問題

할루시네이션은 自然語 處理를 넘어 거의 모든 AI 分野에서 發生한다. 例를 들어 사람이나 物體를 感知하는 AI가 사람을 全혀 다른 事物로 認知하거나, 第3의 事物을 사람으로 認識할 수 있다. 이런 問題는 單純히 誤謬에 가깝다. 反面 할루시네이션이 介入하면 存在하지 않는 客體를 認識한다거나, 被寫體를 全혀 다른 物體로 判斷해 誤作動을 일으킬 수 있다.

最近 公開된 오픈AI의 텍스트-비디오 生成 AI ‘소라’에서도 할루시네이션이 觀測된다. 該當 映像은 2層 지붕 위 1層을 내려다보며 登場人物들을 照明한다. 하지만 映像 初盤에 遠近法으로 層 數를 나눠놨지만, 物理的으로 區分되지 않아 主要 人物들이 市場 商人들보다 몇 倍나 큰 巨人이어야 可能한 映像이 만들어졌다. 아래 映像 亦是 左側 江邊의 道路가 最小 네 番 以上 바뀌고, 主要 人物들 앞에 걷다가 가게로 들어가는 사람들과의 遠近法도 맞지 않는다.

아직 오픈AI가 소라를 開發하는 段階라서 遠近法 計算의 誤謬일 수 있으나, 只今 狀況으로는 할루시네이션에 가깝다. 最近에는 動映像 生成型 AI로 學習 데이터를 만들어 비전 認識 AI를 高度化하려는 試圖도 始作됐는데, 여기에 할루시네이션이 介入하면 誤謬 데이터로 學習될 餘地도 있다. 그 自體로 豫測할 수 없는 結果를 낳는 셈이다.

할루시네이션 줄이려면 RAG 等 出處 基盤 作業해야

使用者 立場에서 外在性 幻覺은 區分하기 쉽지만, 巧妙하게 數字나 出處가 바뀐 內在性 幻覺은 區分이 어렵다. 앞서 갭 收益 報告書처럼 數字만 다르거나, 要約하라고 하면 元本 데이터와 對照해보지 않고서는 事實 與否를 判斷하기가 어렵다. 特히 GPT-3처럼 데이터가 限定된 生成型 AI일수록 할루시네이션 發生이 甚하다.

지난해 3月 美國 맨해튼 聯邦法院에서도 辯護士 두 名이 GPT로 調査한 判例를 提出했다가, 最小 6件이 實存하지 않는 事件인 게 드러나며 懲戒를 받았고, 한 美國의 應急醫學 專門醫는 챗GPT가 實存하는 學術誌와 實存人物의 이름을 빌려 디지털 認證 番號까지 僞造한 虛僞 論文을 生成해 提供한 事例를 公開했다. 專門家도 明白한 出處를 確認해야 할 程度다.

챗GPT4에 내장된 컨센서스 활용 예시. 할루시네이션을 방지하기 위해 논문 검색 시 출처가 확실한 정보만을 활용하는 게 특징이다 / 출처=IT동아
챗GPT4에 內藏된 컨센서스 活用 例示. 할루시네이션을 防止하기 위해 論文 檢索 時 出處가 確實한 情報만을 活用하는 게 特徵이다 / 出處=IT東亞

할루시네이션을 最大限 避하기 위해서는 데이터의 出處를 確實히 해야 한다. 有料 서비스인 GPT4는 웹 聯動 서비스를 통해 媒介變數를 包含한 웹 基盤 데이터도 檢索하는 機能이 있다. 또 GPT4에 內藏된 컨센서스 等의 툴을 活用하면 論文 檢索 時 實存하고 出處가 確實한 資料만으로 찾는다.

프롬프트를 精密하게 入力하는 것도 도움이 된다. AI의 答辯은 情報를 羅列했을 뿐, 理解하고 提供하는 게 아니다. 따라서 質問할 때 ‘公式 報告書나 論文 檢索 等을 引用해서’ 說明해 달라고 하거나, ‘最近 5年 間, 國內에서 記事로 確認할 수 있는 內容’ 같은 文章을 덧붙이면 正確性이 向上된다.

AI 處理 過程에서 發生, 앞으로도 큰 難題

안타깝게도 아직까지 AI에서 할루시네이션이 發生하는 原因은 完全히 把握되지 않았다. 甚至於는 AI가 結果를 導出하는 過程도 未知數다. 우리가 AI에 注文을 내리면, 컴퓨터가 學習한 데이터로 演算을 處理한 뒤 結論을 導出한다. 問題는 어떤 데이터가 어떻게 相互 影響을 미쳤는지 因果關係를 把握하기 어렵고, 이 過程에서 할루시네이션이 發生한다.

製藥 會社에서 AI를 活用해 革新的인 新藥 候補物質을 만들었다고 假定하자. 이때 新藥 物質을 만드는 修飾을 命令으로 내렸고, 新藥 候補 物質의 構造를 만드는 것까지는 確認할 수 있다. 하지만 AI 內部에서 어떤 데이터를 活用하고 組合했을지까지는 完璧하게 分析할 수 없다. 이 問題를 블랙박스 現象이라고 하며, 最近에는 導出 過程까지 明確하게 確認할 수 있는 說明 可能한 AI(Explainable AI)에 對한 硏究가 이어지고 있다.

엔비디아가 오픈소스로 공개한 ‘네모 가드레일’은 할루시네이션을 줄이기 위해 신뢰할 수 있는 출처만 결과에 쓸 수 있도록 하는 기능이 있다 / 출처=엔비디아
엔비디아가 오픈소스로 公開한 ‘네모 가드레일’은 할루시네이션을 줄이기 위해 信賴할 수 있는 出處만 結果에 쓸 수 있도록 하는 機能이 있다 / 出處=엔비디아

할루시네이션은 AI를 信賴하고 活用하기 위해 반드시 解決해야 할 課題다. 業界에서는 檢證된 데이터만 使用해 正確하게 狀況을 認識하고 應答하는 檢索 增强 生成(RAG)李 答이 될 것으로 보며, 또 엔비디아 네모 가드레일처럼 不正確한 結果를 除外해 正確性을 끌어올리는 方式도 注目한다

할루시네이션은 AI의 構造的 問題이므로 解決되지 않을 것이라는 視角도 있고, 데이터 整列과 收集을 통해 차츰 나아질 것이라는 視角도 있다. 確實한 것은 說明 可能한 AI가 發展해야 할루시네이션度 解決될 수 있다.

글 / IT東亞 남시현 (sh@itdonga.com)

IT東亞 의 모든 콘텐츠(技士)는 Creative commons 著作者標示-非營利-變更禁止 라이선스 에 따라 利用할 수 있습니다.
意見은 IT東亞(게임東亞) 페이스북 에서 덧글 또는 메신저로 남겨주세요.
- "漢字路" 한글한자자동변환 서비스는 교육부 고전문헌국역지원사업의 지원으로 구축되었습니다.
- "漢字路" 한글한자자동변환 서비스는 전통문화연구회 "울산대학교한국어처리연구실 옥철영(IT융합전공)교수팀"에서 개발한 한글한자자동변환기를 바탕하여 지속적으로 공동 연구 개발하고 있는 서비스입니다.
- 현재 고유명사(인명, 지명등)을 비롯한 여러 변환오류가 있으며 이를 해결하고자 많은 연구 개발을 진행하고자 하고 있습니다. 이를 인지하시고 다른 곳에서 인용시 한자 변환 결과를 한번 더 검토하시고 사용해 주시기 바랍니다.
- 변환오류 및 건의,문의사항은 juntong@juntong.or.kr로 메일로 보내주시면 감사하겠습니다. .
Copyright ⓒ 2020 By '전통문화연구회(傳統文化硏究會)' All Rights reserved.
 한국   대만   중국   일본