AI가 마음을 읽기 始作했다…무섭게 進化한 人工知能[딥다이브]

東亞日報
入力 2024年 5月 25日 10時 00分

한애란 記者

코멘트: 個

좋아요: 個

코멘트: 個

人工知能(AI)은 사람의 마음을 理解할 수 있을까요, 없을까요. 또는 마음을 理解하진 못하더라도 理解하는 것처럼 보일 수는 있을까요.

갑자기 웬 哲學的質問이냐고요? 이건 最近心理學界에서 뜨거운 論爭거리입니다. GPT-4 같은 大規模言語모델(LLM)李果然 사람의 마음을 理解하는 能力을 갖고 있는지 를 主題로 한 硏究가 이어지는데요. 萬若正말 AI가 사람처럼 마음을 理解하게 된다면 무슨 일이 생길까요. 오늘은 AI와 마음 論爭을 들여다보겠습니다.

인간의 마음을 읽는 인공지능이 오고 있을까. 게티이미지 — 人間의 마음을 읽는 人工知能이 오고 있을까. 게티이미지

*이 記事는 24日發行한 딥다이브 뉴스레터의 온라인 記事 버전입니다. ‘읽다 보면 빠져드는 經濟뉴스’ 딥다이브를 뉴스레터로 購讀하세요.
https://www.donga.com/news/Newsletter

마음 읽는 게 重要한 理由

먼저 心理學 이야기 좀 해볼게요. 人間은 다른 사람의 마음을 斟酌하는 놀라운 能力을 갖고 있습니다. 例를 들어 집에 놀러온 親舊가 ‘여기는 좀 덥네’라고 말하면, 그건 單純히 溫度 얘기를 하는 게 아니라 扇風機를 틀어달라는 要請이라는 걸 우린 알아차릴 수 있죠. 心理學에선 이런 能力을 ‘마음理論(Theory of 놀러 온d)’ 이라고 부릅니다. 사람마다 마음이 다르다는 것, 그리고 마음이 그 사람의 行動에 影響을 미친다는 걸 理解하는 能力이죠. 人間이 社會生活을 할 수 있게 만드는 決定的인 能力입니다.

發達心理學에 따르면 마음理論은 사람이 타고나는 게 아닙니다. 腦가 發達하면서 생겨나죠. 普通滿 4歲가 되어야 ‘내가 아는 걸 다른 사람은 모를 수 있다’는 걸 理解하기 始作하는데요. 有名한 ‘샐리(Sally)-앤(Anne) 테스트’ 라는 게 있습니다. 샐리라는 少女가 바구니에 구슬을 넣어두고 갑니다. 그리고 앤이란 少女는 샐리가 보지 않을 때 그 구슬을 꺼내 箱子로 옮깁니다. 以後 다시 돌아온 샐리는 어디에서 구슬을 찾을까요? 이에 對해 ‘바구니’라고 제대로 答할 수 있는 時期가 4-5歲인 겁니다.

인간은 뇌가 발달하면서 다른 사람의 마음을 이해하는 능력이 생긴다. 사람마다 다른 마음을 갖고 있다는 사실을 알고, 그 마음이 사람의 행동에 영향을 미친다는 걸 이해하는 게 ‘마음이론’이다. 게티이미지 — 人間은 腦가 發達하면서 다른 사람의 마음을 理解하는 能力이 생긴다. 사람마다 다른 마음을 갖고 있다는 事實을 알고, 그 마음이 사람의 行動에 影響을 미친다는 걸 理解하는 게 ‘마음理論’이다. 게티이미지

人智發達에 問題가 있는 境遇(예-자폐스펙트럼) 마음理論發達이 제대로 되지 않습니다(아예 안 되는 건 아니지만 不足합니다). 남의 立場을 잘 理解하지 못하기 때문에 社會的相互作用에 어려움을 겪죠. 緊張된 狀況에서 무슨 말을 해야 適切한지를 判斷하고, 運轉할 때 다른 車運轉者들이 어떤 行動을 할지 推測하고, 映畫 속 主人公에 共感하는 것. 모두 이 마음理論과 關聯 있습니다. 그만큼 社會生活에 있어 매우 重要한 能力이죠.

LLM이 人間을 追越했다

果然人工知能(AI)도 마음을 理解할 수 있을까요. 이 質問에 對해 오랫동안 學界에선 否定的이었습니다. 2018年美國의 認知神經科學子 바비 亞자리안은 이렇게 斷言했죠. “구글 알파고가 世界最高의 바둑 高手를 이기고, 보스턴 다이내믹스 로봇은 숲속을 달릴 수 있지만 마음理論의 基本機能은 갖추고 있지 않다. 딥러닝 같은 技術로는 充分하지 않기 때문이다. 處理能力과 速度가 向上한다고 해서 마음理論을 갖춘 컴퓨터가 갑자기 登場할 可能性은 거의 없다. ”

事實人間도 어떻게 해야 마음을 理解하는 能力이 생겨나는지를 完全히 알지 못하잖아요. 人間이 그리 애쓰지 않고 얻어낸 能力이다 보니 AI에게 그걸 가르치기란 어려운 일입니다.

거대언어모델이 이제 인간 6살 수준의 마음이론을 갖게 됐다는 연구 결과가 나왔다. 도대체 어떻게? 스스로 알아서? 게티이미지 — 巨大言語모델이 이제 人間 6살 水準의 마음理論을 갖게 됐다는 硏究結果가 나왔다. 都大體 어떻게? 스스로 알아서? 게티이미지

그런데 最近 AI가 이 能力을 깨우쳤다는 報告가 이어지고 있습니다. 巨大言語모델(LLM)을 相對로 마음理論 테스트를 進行해보니, 人間 뺨치는 點數를 얻었다 는 硏究結果인데요.

美國 스탠퍼드대 經營大學院美칼 코신스키 敎授가 지난해 2月부터 올해 2月까지 總 6次例에 걸쳐 업데이트한 論文 ‘마음理論作業에서 大規模言語모델 評價’가 論爭의 始作點이었죠. 그는 11個의 巨大言語모델(LLM)을 相對로 마음理論이 있는지를 알아보는 테스트를 進行했습니다. 사람을 評價할 때 쓰는 것과 같은 問項을 提示하고, 거기서 說明한 사람의 行動을 얼마나 正確하게 豫測하는지를 確認했죠.

結果는 놀라웠습니다. LLM의 마음理論水準이 相當히 빠르게 發展하고 있음을 보여줬는데요. 2018年 오픈AI가 開發한 첫番째 AI모델인 GPT-1이나 2019年 나온 GPT-2는 마음을 理解하는 能力이 거의 없다시피 했습니다. 하지만 2022年 11月 버전의 GPT-3는 問題의 20%를 解決했고요. 지난해 6月 나온 GPT-4는 75% 正答率을 보였습니다. 滿 6歲 어린이와 비슷한 水準으로 進化 한 거죠. 이에 對해 코신스키 敎授는 “마음理論이 巨大言語모델에서 自發的으로(Spontaneously) 登場 했을 수 있다”고 말합니다. 어떻게 했는지는 모르겠지만 AI가 사람 마음을 理解하는 能力을 스스로 길러내고 있다는 거죠.

이 硏究는 學界에 엄청난 論難을 일으킵니다. 무엇보다 硏究方法이 精巧하지 못하다는 批判이 이어졌죠. 問題를 若干만 變形해도(예-물건이 透明한 箱子 안에 있다고 바꿔 물으면) AI의 正答率이 확 떨어진다며 反駁하는 論文도 나왔는데요(토머 울먼 하버드대 敎授).

최근 발표된 논문에 따르면 오픈AI의 GPT-4는 마음이론 테스트에서 인간을 앞서는 점수를 받았다. 연구팀도 전혀 예상치 못했던 결과다. 게티이미지 — 最近發表된 論文에 따르면 오픈AI의 GPT-4는 마음理論 테스트에서 人間을 앞서는 點數를 받았다. 硏究팀도 全혀 豫想치 못했던 結果다. 게티이미지

이에 獨逸 함부르크-에펜도르프大學 메디컬센터 팀은 이를 더 體系的으로 評價하겠다며 또다른 實驗을 進行했습니다. 그 論文이 20日科學저널 ‘네이처 人間行動’에 실렸죠.

硏究팀은 人間과 LLM을 相對로 똑같은 테스트를 進行했습니다. 오픈AI의 GPT-4와 GPT-3.5, 메타의 LLaMA2-70B에 테스트 課題를 遂行하게 했고요. 사람 1907名에도 같은 問題를 풀게 했습니다.

例를 들면 이런 問題입니다. ‘質이 새집으로 移徙해 寢室에 새로 산 커튼을 달았다. 親한 親舊인 理事가 와서 ‘그 커튼 끔찍하다. 새 커튼을 사면 좋겠다’라고 말했다’와 같은 對話狀況을 줍니다. 그리고 質問을 던지죠. 누군가 하지 말았어야 하는 말을 했나? 하지 말았어야 하는 말은 무엇인가? 理事는 커튼이 새것이란 걸 알고 있었나?

그래서 그 結果는? 全般的으로 GPT-4街 가장 높은 點數를 받았습니다. 5個領域 中 4個에서 人間보다 點數가 높거나 같았죠. 點數만 보면 人間보다 人間 마음을 더 잘 理解하는 셈입니다.

이런 結果는 硏究팀마저 唐慌시켰는데요. 硏究에 參與한 크리스티나 베키오 함부르크大學敎授는 이렇게 말합니다. “硏究進行前 우리 모두는 LLM이 이런 精神狀態의 微妙한 能力을 評價하는 테스트를 通過하지 못할 것이라고 確信했습니다. 豫期치 못한 놀라운 結果 입니다.”

마음 아는 AI의 쓸모

者, 그럼 드디어 AI가 마음을 理解하는 能力까지 갖게 된 걸까요? 人間과 機械의 境界가 漸漸 흐려지고 있나요?

글쎄요. 아직 그렇게 結論 내리긴 이릅니다. 代身硏究팀은 좀 더 신중하게 表現합니다. “LLM이 마음理論作業에서 人間行動과 區別할 수 없는 行動을 보여준다” 라고요.

正말 AI가 마음을 ‘理解’한다고 斷定 지을 순 없지만, 적어도 마음을 理解하는 人間을 거의 똑같이 模倣하고는 있다는 건데요. 그런데 궁금합니다. 模倣品이 眞짜와 差異가 없어 보인다면, 그게 眞짜인지 아닌지를 어떻게 알 수 있죠?

많은 硏究者들은 如前히 批判的입니다. AI모델이 비슷한 質問에 對한 答을 미리 學習했다가 記憶해냈을 수 있다는 거죠. 또 人間參加者들이 얼마나 테스트에 熱心히 臨했는지도 알 수 없고요. 무엇보다 果然人間에게 쓰는 것과 같은 테스트로 AI를 評價할 수 있느냐도 疑問입니다. 워싱턴대학의 컴퓨터言語學敎授 에밀리 벤더는 이렇게 問題를 提起하죠. “人間答辯과 類似한 出力을 生成하는 게 왜 重要하죠? 그게 LLM의 作動方式에 對해 뭘 가르쳐주나요?”

하지만 AI가 마음 읽는 能力을 따라 한다는 것만으로도 意味는 있습니다. 人間과 效果的으로 意思疏通하고 協力할 수 있단 뜻 이니까요. 只今 AI 로봇은 主로 힘쓰는 勞動(物流로봇, 歌詞로봇 等) 爲主인데요. 萬若 사람의 마음에 人間처럼 反應한다면 患者나 老人, 어린이를 돌보는 일을 遂行하는 AI 로봇도 現實化될 수 있을 겁니다. 物理的인 도움뿐 아니라 情緖的 케어까지 期待할 수 있으니까요. AI의 活用領域이 확 커지는 셈이죠.

단순 노동이 아니라 진짜 ‘서비스’를 제공하는 로봇이라면 사용자의 마음을 이해하는 능력이 필요하다. 게티이미지 — 單純勞動이 아니라 眞짜 ‘서비스’를 提供하는 로봇이라면 使用者의 마음을 理解하는 能力이 必要하다. 게티이미지

좀 더 想像力을 發揮하자면, 自閉스펙트럼이 있는 사람에겐 AI가 아주 有用한 補助器具가 될 겁니다. 一種의 ‘人間 마음 解釋機’가 생기는 거죠. 걷기가 不便한 身體障礙人이 휠체어를 利用하듯, 發達障礙人은 AI를 利用해 認知의 어려움을 解決할지 모릅니다.

勿論技術發展엔 兩面이 있습니다. AI가 正말 使用者의 마음을 읽고 行動을 豫測하게 된다면 사람을 속이거나 造作하기도 훨씬 쉬워지겠죠.

表情으로 感情을 알아챈다?

只今까지 紹介한 硏究結果, 어떻게 보셨나요. 저는 이런 생각이 들었습니다. 狀況을 글로 提示했기 때문에 테스트에서 AI가 뛰어난 成果를 보인 것 아닐까. 非言語的表現만 있다면 마음을 읽어내기가 훨씬 어려울 텐데?

事實 얼굴 表情이나 목소리 톤을 가지고 使用者感情을 感知하는 技術은 1990年代부터 開發돼 왔습니다. 얼마 前公開된 GPT-4o도 이런 機能을 선보였고요. 基本作動原理는 예나 只今이나 마찬가지입니다. 엄청나게 많은 데이터(얼굴 寫眞이나 映像, 錄音된 목소리 等)를 感情別로 分類한 뒤 이를 AI에 학습시키는 거죠. 다만 過去보다 只今은 훨씬 더 大規模 데이터가 AI 學習에 쓰이는 게 進步된 點인데요. 美國 AI 스타트업 흄 AI는 ‘感性知能’을 가진 AI 開發을 위해 100萬名以上 사람의 데이터를 使用 했다고 하죠. 그 結果 “當身이 어떤 유머에 對해 웃을지, 또는 失望할지를 (AI가) 豫測할 수 있다”는 게 흄AI 알란 코웬 CEO의 說明입니다. 甚至於 목소리를 分析해 “누군가 憂鬱症이나 파킨슨病을 앓고 있는지도 完璧하진 않지만 어느 程度豫測할 수 있다”고 덧붙였죠.

그거참 神通하다고요? 그래서 이러한 感情 AI 시스템은 이미 많은 企業에서 쓰이고 있습니다. 콜센터에선 職員의 通話內容과 목소리톤을 모니터링하는 데 쓰고요. 어떤 企業은 面接過程에서 AI로 面接者의 表情을 分析하죠.

얼굴 표정과 목소리톤은 그 사람의 감정을 얼마나 드러내 줄까. 게티이미지 — 얼굴 表情과 목소리톤은 그 사람의 感情을 얼마나 드러내 줄까. 게티이미지

그런데 問題가 있습니다. 생각보다 實際生活에서는 그 感情認識機能이 잘 들어맞지 않습니다. 100萬名보다 훨씬 더 많은 데이터를 집어넣고, 感情表現分類를 數十個 더 늘린다고 해도 말이죠. 왜냐고요? 文化圈마다, 사람마다 感情表現은 제各各이기 때문입니다.

예컨대 ‘화난 얼굴’ 하면 어떤 表情이 떠오르나요? 찌푸린 얼굴, 치켜뜬 눈썹, 악물고 있는 齒牙. 이모티콘에서 보는 그런 表情이 쉽게 떠오를 텐데요. 實際硏究에 따르면 西洋人中 65%는 火가 나도 눈살을 찌푸리지 않 습니다. 오히려 찌푸린 얼굴은 集中할 때, 나쁜 말장난을 할 때, 그리고 배에 가스가 찼을 때 나타나곤 했죠.

卽, 現在 AI가 學習하는 感情關聯 데이터세트는 固定觀念의 産物일 可能性이 큽니다. 따라서 AI가 面接者의 感情을 잘못 읽어 不合格시키거나, 엉뚱한 사람에게 파킨슨病診斷을 내릴 危險이 얼마든지 있죠. 노스이스턴大學心理學敎授 리사 펠드먼 배럿은 월스트리트저널 칼럼에서 이렇게 밝힙니다. “熟鍊된 求職者를 雇用하고, 不安과 憂鬱症을 診斷하고, 法廷에서 有無罪를 評價하고, 空港에서 테러리스트를 探知하기 위해 사람의 感情狀態를 分析한다고 主張하는 感情AI를 接한다면 懷疑的이어야 합니다.”

勿論 이런 懷疑論을 提起한다고 해서 AI 技術企業들이 技術發展速度를 調節하진 않을 것 같긴 합니다. 方向이 맞는지를 點檢할 새도 없이 앞만 보며 달려 나가기 바쁘니까요. 언젠가 아차 싶어서 뒤를 돌아볼 때가 온다면 그땐 이미 늦었을지도. By. 딥다이브

얼굴 表情으로 微妙한 感情變化를 알아채고, 말속에 숨은 意圖를 把握해 눈치껏 行動하는 것. 사람에게도 꽤 어려운 일이죠. 그래서 이런 마음과 感情의 領域마저 AI가 척척 遂行해버리면 곤란하겠다는 생각이 率直히 듭니다. 主要內容을 要約해드리자면

-人工知能(AI)李 사람의 마음까지 理解할 수 있을까요. ‘마음理論 테스트’로 巨大言語모델(LLM)의 마음읽기 能力을 把握하는 硏究가 續續 이어지고 있습니다.

-結果는 놀랍습니다. 한 硏究에선 GPT-4街 6살 어린이 水準의 마음읽기 能力을 보이는 걸로 나왔고요. 甚至於最新 硏究에선 人間實驗參加者들의 點數를 凌駕하기까지 했습니다. 正말 AI가 마음을 理解한다고 結論 내리긴 이르지만, 人間의 能力을 똑같이 模倣하고 있는 걸로 보입니다.

-얼굴 表情이나 목소리 같은 非言語的表現으로 感情을 알아내는 AI 技術亦是 漸漸高度化하고 있습니다. 하지만 固定觀念을 反映해 틀린 結果를 내놓을 수 있다는 懷疑論도 提起되죠. 技術發展에 熱狂하는 것 못지않게, 맞는 方向으로 가고 있는지 點檢도 必要해 보입니다.

*이 記事는 24日發行한 딥다이브 뉴스레터의 온라인 記事 버전입니다. ‘읽다 보면 빠져드는 經濟뉴스’ 딥다이브를 뉴스레터로 購讀하세요.
https://www.donga.com/news/Newsletter