챗GPT란 무엇인가：가장 쉽게 說明해드립니다[서영빈의 데이터經濟]

東亞日報
入力 2023年 2月 27日 11時 00分

서영빈 記者

코멘트: 個

좋아요: 個

코멘트: 個

1904年獨逸, 四則演算을 할 수 있는 天才的인 末 ‘한스’가 나타나 世上을 깜짝 놀라게 한 일이 있었습니다. 當時數學敎師였던 오스텐 氏는 ‘내가 기르는 말은 數學計算度 할 줄 안다’고 자랑하며, 사람들을 모아놓고 自身이 키우던 말이 數學問題를 맞히는 모습을 보여줬습니다. 數學問題를 內面問題의 正答만큼 한스가 발굽으로 땅을 두드리는 式이었습니다. “2 곱하기 2는?” 質問을 하면 한스가 발굽으로 땅을 4番 두드리는 것이죠. “하나…둘…셋…” 한스의 발굽과 함께 數字를 세는 구경꾼들의 목소리는 漸漸興奮으로 가득 찼습니다. 한스가 발굽을 네 番 두드리고 멈추자, 衝擊에 휩싸인 구경꾼들에서 우레와 같은 歡呼聲이 터져 나왔습니다.

數千萬年을 홀로 知性을 가진 生命體로 살아왔던 人間들은, 自身과 恰似한 知的能力을 가진 生物體를 發見하면 엄청난 衝擊과 期待感, 두려움을 느끼는 것 같습니다. 게다가 그 生物體가 人間이 타고 다니던 ‘말’이라니, 얼마나 놀랍고 무서웠을까요. 自然에 對한 理解도 只今만큼 깊지 않았던 時節, 부랴부랴 動物學者와 心理學者等各界專門家로 이루어진 ‘한스 委員會’를 꾸려 한스를 調査했지만, 委員會는 ‘한스는 知性을 타고났다’며 두 손을 들고 말았습니다. 天才的인 말 한스의 登場은 當時 뉴욕타임즈 1面을 裝飾했습니다.

한스는 正말 知性을 가진 動物이었을까요? 얼마 가지 않아 한스의 祕密이 밝혀졌습니다. 한스는 數學問題를 풀었던 것이 아니라, 사람들의 反應을 觀察하는 能力이 뛰어났던 거죠. 한스가 발굽을 두드릴 때마다 “하나…둘…셋…넷…”하고 數字를 세던 群衆들의 목소리 톤은 微細하게 變했고, 목소리가 가장 興奮으로 高調됐을 때 발굽을 멈추어야 한다는 걸 한스는 알았던 것입니다. 어쨌든 怜悧한 말이었던 건 事實이었던 것 같네요. 다만 人間과 類似한 知性을 가진 生物體가 登場했다는 衝擊은 곧 수그러들었습니다.

100餘年後 ‘知性을 가진 物體’의 登場에 全世界는 다시 한番衝擊과 恐怖에 휩싸입니다. 바로 챗GPT입니다. 이番에는 人間과 거의 恰似한, 或은 더욱 뛰어난 지成體가 나타났다고들 합니다. 勿論 챗GPT를 한스의 事例에 比肩할 수는 없을 것 같습니다. 이番에는 單純 눈속임이 아니라, 四則演算은 勿論이고 아주 複雜하고 어려운 計算도 척척 遂行할 수 있다는 게 틀림없어 보입니다. 人間처럼 詩도 쓰고, 質問에 答도 하고, 人間의 知性이 言語를 통해 할 수 있는 거의 모든 일을 할 수 있는 것처럼 보이죠. 어떤 部分에서는 平均的인 人間보다 훨씬 더 뛰어나게 말입니다. 뛰어난 知能을 가진 호모 사피엔스의 登場에 다른 靈長類들이 動物園身世를 지게 됐듯이, 챗GPT의 登場으로 인해 ‘人間이 AI의 愛玩動物로 살게 되는 게 아니냐’라는 恐怖스러운 豫見도 나옵니다.

두려움을 이겨내는 가장 좋은 方法中 하나는 ‘分析’입니다. 챗GPT가 어떤 彫刻들로 構成돼 어떻게 動作하고 있는지, 理解할 수 있는 水準까지 分解해보는 거죠. 그러다보면 챗GPT가 事實 생각보다 그리 무서운 存在가 아니란 걸 알게 될 수도 있죠. 또 챗GPT가 앞으 무엇을 할 수 있을지, 어떤 걸 할 수 없는지도 더 잘 알 수 있지 않을까요.

● 高度로 發達한 ‘다음 낱말 맞추기 機械’

챗GPT는 크게 두 番의 學習을 통해 만들어집니다. 먼저 챗GPT의 本體格인 ‘GPT’에 知識을 학습시키고, 그 다음엔 GPT에게 質問에 答을 하는 行動을 하도록 學習 시키는 거죠. GPT가 나타내는 ‘Generative Pre-trained Transformer’의 ‘Pre-trained(미리 學習됨)’은 바로 質問에 答하기, 飜譯하기 等 특정한 行動을 학습시키기 前에 미리 知識만 학습시키는 過程을 거쳤다는 뜻입니다. 以後에 그 GPT에게 ‘챗(chat, 對話)’을 하도록 훈련시켰다는 뜻이죠.

그러면 먼저, GPT는 어떻게 知識을 學習했을까요? ‘다음 낱말 맞추기 練習’을 無限히 反復시킨다고 보면 됩니다. 그 以上도 그 以下도 아니죠. 例를 들어 “나는 밥을 _____”라는 文章이 있을 때, 이 마지막 빈칸에 들어올 單語가 무엇인지 맞추도록 하는 거죠.

GPT 最新 모델인 GPT-3는 約 1億5000個의 單語를 基盤으로 만들어졌다고 알려져 있습니다. 그건 GPT가 單語 맞추기 問題를 할 때, ①“나는 밥을 ‘핸드폰’” ②“나는 밥을 ‘사슴벌레’” ③“나는 밥을 ‘버렸다’” ④“나는 밥을 ‘먹었다’”…와 같은 選擇肢가 1億5000個 있다는 뜻입니다. 5支選多型問題가 아니라 1億5000支選多型問題가 되겠네요.

科學者들은 “나는 밥을”로 始作하는 文章數十數百萬個를 求해 GPT에게 問題를 내줬습니다. 問題에 對한 答은 늘 같지는 않지만, 特別히 많이 나타나는 答이 있겠죠. 一旦 ‘사슴벌레’ 같은 생뚱맞은 名詞가 正答이 된 일은 없을 거구요. ‘먹었다’가 가장 자주 正答이 됐겠죠. 或은 가끔 ‘맛있게’ 같은 單語도 正答이 됐을 것입니다.

그러면 GPT는 이 問題풀이를 通해 ‘밥을’ 다음에는 ‘먹었다’, ‘맛있게’ 와 같은 單語들이 登場할 可能性이 높다는 것을 學習합니다. 이는 달리 말하면, ‘밥’이라는 單語와 ‘먹다’ ‘맛있다’라는 單語 사이에 關聯性이 높다는 點을 學習한다는 뜻이죠. 이와 같은 方法으로 ‘밥’이 ‘밥솥’, ‘冷藏庫’, ‘飯饌’ 等과 關聯이 있다는 것도 學習하게 될 겁니다.

GPT가 미리 學習했다는 ‘知識’이란 바로 이 單語들 사이의 關係에 지나지 않습니다. ‘知識’이라는 單語는 이보다 더 깊은 意味를 지니겠지만, 적어도 GPT에게는 그 以上의 意味를 지니지 않습니다. GPT는 ‘밥’이 무엇인지, ‘먹었다’가 무엇인지, ‘맛있다’가 무엇인지 全혀 알지 못합니다. 但只 이 單語들끼리 關聯性이 높고, 그래서 같은 文章 안에 나타날 可能性이 크다는 것만 알고 있는 것이죠. 이 學習內容을 바탕으로, 後날 챗GPT에게 ‘밥과 關聯된 이야기를 써줘’라고 付託하면 ‘맛있는 것을 먹고 싶어서 冷藏庫를 뒤졌는데 밥과 飯饌이 있었다’처럼, 서로 關聯 있는 單語들을 집어넣은 그럴듯한 文章을 지어내게 됩니다. 어때요, 어찌 보면 數學問題를 풀 줄 아는 똑똑한 말 한스와 크게 달라 보이지 않습니다.

그 工夫方法度 참 無知莫知하죠? GPT는 ‘밥’과 ‘밥솥’의 關係를 學習하기 위해 數없이 많은 1億5000支選多型客觀式問題를 풀었습니다. 위키피디아, 各種冊과 資料들을 비롯한 45테라바이트에 達하는 量의 文書를 問題로 내줬다고 하네요. 學習에 必要한 電氣料等費用을 充當하는 데 數百萬 달러가 들어갔습니다.

그런데 잠깐, ‘나는 밥을’까지만 알려줬더니 ‘맛있다’를 選擇할 수 있게 된 機械. 어디서 많이 보지 않았나요? 맞습니다. 이런 種類의 人工知能은 이미 10餘年前부터 우리의 日常 속에 櫛比하게 자리 잡고 있었습니다. 네이버, 구글과 같은 大型檢索 포털의 文章自動完成機能, 스마트폰의 文字自動完成機能이 그것입니다. 이 機能에 使用된 人工知能 모델은 GPT의 머나먼 先輩格인 RNN(循環神經網)이지만, 學習方式은 거의 같습니다.

우리가 이 文章自動完成機能을 처음 봤을 때, 크게 놀랐었나요? 그냥 ‘그렇구나~’ 程度로 넘기는 雰圍氣였죠. GPT도 마찬가지입니다. GPT는 高度로 發達된 ‘문장 自動完成機械’에 지나지 않습니다. 놀라지 않으셔도 돼요.

● ‘다음 낱말 맞추기 機械’는 ‘다음 文章 맞추기 機械’

‘나는 밥을’ 뒤에 ‘먹었다.’가 온다는 것을 맞추게 된 GPT. 또 뭘 할 수 있을까요? ‘나는 밥을 먹었다.’ 뒤에 어떤 單語가 올지도 맞출 수 있겠죠. 마찬가지로 그 자리에는 ‘말벌’ 같은 뜬금없는 單語보다는 ‘冷藏庫’나 ‘飯饌’ 같은 名詞가 나올 可能性이 크겠죠. 이런 式으로 ‘다음 單語 맞추기’를 반복해 單語를 하나씩 하나씩 맞춰서 붙이다보면 ‘나는 밥을 먹었다. 冷藏庫에서 飯饌도 꺼내 먹었다.’처럼 文章 뒤에 새로운 文章을, 그 뒤에 또 다른 文章을 붙일 수 있게 됩니다. GPT는 이런 式으로 論文 한 篇을 써내는 것이죠.

‘다음 單語 맞추기’를 반복해 論文 한 篇을 쓰다니, 두서없는 글이 되기 十常일 것 같은데요. 實際로 檢索語自動完成에 쓰였던 初期 버전 人工知能도 똑같이 여러 文章을 이어서 쓸 수 있었지만, 글이 길어지면 앞쪽에 썼던 內容을 까먹어 主題를 알 수 없는 글이 되어버리는 問題가 있었습니다. 그런데 모델을 改善할수록 앞에서 썼던 文章들의 情報를 維持해 主題를 一貫되게 지킬 수 있는 길이가 漸次 길어졌습니다. 마침내는 GPT 모델에 이르게 됐죠. 다만 챗GPT도 約 15番의 問答以後에는 앞쪽의 情報를 잊어버리는 비슷한 問題를 안고 있습니다.

대화형 인공지능 챗GPT는 한국이 기후변화에 대응하지 않을 경우 물부족과 폭염, 해수면 상승에 따른 피해를 받을 수 있다고 설명했다. 뉴스1 — 對話型人工知能 챗GPT는 韓國이 氣候變化에 對應하지 않을 境遇 물不足과 暴炎, 海水面上昇에 따른 被害를 받을 수 있다고 說明했다. 뉴스1

● ‘質問-답’ 臺本을 學習한 ‘다음 文章 맞추기 機械’

또 다른 疑問이 생깁니다. GPT가 單語에 單語를 이어 붙여 그럴듯한 글을 써내는 것까지는 理解한다고 칩시다. 그런 GPT는 어떻게 사람이 묻는 말에 答도 하게 됐을까요?

여기서 GPT의 두 番째 學習이 必要해집니다. 위키피디아를 잔뜩 학습시켰던 GPT에게 文章들을 生成하도록 하면, GPT는 위키피디아 文書의 形式을 닮은 글을 쓰게 됩니다. 유튜브 댓글을 잔뜩 學習한 GPT에게 文章들을 生成하도록 하면 유튜브 댓글 形式을 닮은 글을 쓰게 됩니다. 그러면 GPT에게 ‘質問-답’ 形式의 글을 잔뜩 學習시키면 어떨까요? GPT가 生成하는 글은 ‘質問-답’形式을 띄게 됩니다. 그러면 이 GPT에게 ‘質問’이 담긴 글을 주고, 글의 나머지 部分을 完成시켜보라고 하면 어떨까요? 네 맞습니다. GPT는 ‘答’을 作成하게 되겠죠.

이렇게 質問을 주면, 나머지 ‘答’ 部分을 完成시키도록 學習된 모델이 바로 챗GPT입니다.

챗GPT가 人間을 돕고 싶은 마음으로 가득 차서 사람들의 質問에 척척 答 해주는 것이 아닙니다. 챗GPT는 質問에 對한 相互作用으로써 對答을 하는 것도 아닙니다. 챗GPT는 但只 ‘나는 밥을’ 다음 單語를 찾아내듯, 半쯤 끊긴 글의 나머지 折半을 채우는 作業을 孤獨하게 遂行하고 있을 뿐입니다.

例를 들어 GPT에게 ‘門: 꽃은 어디에 있나요? 答 : 花盆에 있습니다’ 라는 글을 학습시켰다고 칩시다. GPT는 앞으로 이 글의 形式을 닮은 文章들을 만들어내게 되겠죠. 이 GPT에게 ‘門: 밥은 어디에 있나요?’라는 글을 주고, 뒷部分을 完成하도록 해봅시다. 그러면 GPT는 元本 글의 形式을 復元하려고 하면서, 앞에서 學習했던 ‘밥’과 ‘밥솥’의 關係를 適用해 ‘門: 밥은 어디에 있나요? 答 : 밥솥에 있습니다’ 라는 글을 完成하게 되는 것이죠. GPT가 앞서 學習한 여러 單語들 사이의 關係를 應用한다면, 이런 形式의 수많은 質問에는 適切히 答을 해줄 수 있겠네요.

오픈AI의 챗GPT 논문에 실린 제작 과정. 수많은 직원들이 작성한 질문-답 대본을 챗GPT에 학습시켰다. — 오픈AI의 챗GPT 論文에 실린 製作過程. 수많은 職員들이 作成한 質問-답 臺本을 챗GPT에 학습시켰다.

● 40名의 알바가 써준 1萬3000個의 컨닝 페이퍼

但只 여러 卷의 冊을 학습시켰더니 魔法처럼 質問에 答을 척척 해내는 柔軟한 지成體가 誕生한 것이 아닙니다. 챗GPT에게 다양한 ‘質問-답’ 形式의 글을 잔뜩 학습시키기 위해 어마어마한 努力이 들어갔습니다. 챗GPT 製作社인 오픈AI는 40名의 契約職人力을 雇用해 GPT를 학습시킬 ‘質問-답’形式의 텍스트 1萬3000個를 人間이 直接作成하도록 했습니다.

이들에게 提供된 質問에는, 사람들이 챗GPT 初期 버전에 찾아와 入力했던 장난스러운 質問들도 모두 包含됐습니다. 職員들은 이 質問에 아주 길고 精誠스러운 答을 直接作成했습니다. 張差 챗GPT가 받게 될 웬만한 豫想質問들에 對한 模範答案形式은 이미 人間의 손으로 다 作成이 됐다고 보면 되겠습니다. 거기에 ‘꽃’과 ‘화분’을 ‘밥’과 ‘밥솥’으로 바꾸는 種類의 變奏가 加해지게 되는 것이죠.

職員들이 直接作成한 ‘質問-답’ 臺本에는, 챗GPT의 問答中世上을 깜짝 놀라게 했던 여러 가지 對話의 原本들이 있습니다. ‘개구리에 對한 小說을 써봐’라든지, ‘이 文章을 고쳐줘’라든지, ‘애기 이름을 지어줘봐. 예를들어 1.김병구 2.김민식’ 이라든지. 우리가 생각할 수 있는 웬만한 質問類型들은 이미 職員들이 直接 그 틀이 되는 ‘質問-답’ 臺本을 作成해놨습니다.

또 質問이 꼬리에 꼬리를 무는 境遇에 對備해 職員들은 ‘質問-답-質問-답-質問-답’ 形式의 스크립트度作成했습니다.

“人工知能이 어떻게 이런 質問에 答할 수 있지?” “어떻게 이렇게 反應할 수 있지?”라고 깜짝 놀랄만한 問答對話의 基本的인 틀은 大部分 이미 職員들이 直接 손으로 써서 틀을 마련해놓은 것들이 많습니다. 그 原本이 챗GPT에 學習돼있는 것이죠.

챗GPT가 正말 誠實하고 꼼꼼하게 答辯한다고 느끼지 않으셨나요? 그것 또한 人間職員들의 功이 相當히 큽니다. 오픈AI는 于先 이 40名의 契約職職員을 採用할 때부터 相當한 努力을 기울였습니다. 오픈AI는 여러 名의 候補群中에서 敏感한 이슈를 適切히 判別하고 答하는 能力等을 테스트해 40名을 選拔했습니다. 이들에게 眞實 되고 有用하며 誠實한 臺本을 쓰도록 積極的으로 敎育했으며, 이들이 쓴 臺本들은 公開 채팅 房에 공유됐기에 恒常監視와 檢證을 받았습니다.

챗GPT는 이렇게 만들어진 꼼꼼한 質問-답 臺本들을 應用해 다양한 質問에 對한 答을 만들고 있습니다. 때로 어떤 對答들은 비슷한 構造에 몇 가지 單語와 表現이 바뀐 것 같다는 느낌을 받게 되는 理由입니다. 또 미리 學習한 質問-답 形式을 벗어난 要請을 받으면 急激히 性能이 떨어지는 理由이기도 하죠. 챗GPT가 가끔 東問西答을 하는 理由를 이제 아시겠죠?

어떤가요. 이렇게 하나하나 떼어놓고 보니, 챗GPT는 團地高度로 發達한 ‘빈칸 채우기 機械’에 지나지 않는다고 느껴지기도 합니다. 人間을 뛰어넘는 새로운 지成體가 나타났다는 두려움은 조금 가라앉는 듯 합니다.

● 맺으며：앎이란 무엇인가?

그런데 말입니다. 이番에는 人間의 ‘앎’이란 그러면 얼마나 대단한 것인가에 對해 한番 생각해볼 次例인 것 같습니다.

GPT가 ‘薔薇꽃’에 對한 知識을 習得하는 過程을 생각해봅시다. GPT는 수많은 글의 ‘다음 單語 맞추기’ 問題를 풀면서, ‘薔薇꽃’ 다음에는 ‘빨간色’, ‘사랑’, ‘가시’, ‘어린王子’, ‘香氣’ 等의 單語가 登場할 確率이 높다는 것을 學習하게 됩니다. GPT는 薔薇꽃이 뭔지도 모르고, 빨간色이 뭔지도 모르고, 사랑이나 가시, 어린王子等에 對해서도 全혀 모릅니다. 但只 이 單語들이 서로 聯關이 있다는 것을 잘 알고 있을 뿐이죠.

그러면 反對로 사람들에게 물어보겠습니다. 여러분은 薔薇꽃이 무엇인지 알고 있나요? 自身이 薔薇꽃을 안다는 것을 어떻게 證明할 수 있나요? GPT는 할 수 없고, 人間만이 할 수 있는 方法으로 그것을 보여줄 수 있을까요.

어떤 사람은 이렇게 얘기할 수도 있습니다. “나는 百科事典 속 薔薇꽃의 正義를 외울 수 있다. 그러므로 나는 薔薇꽃을 ‘안다’고 할 수 있다”. 그러나 이것은 GPT도 할 수 있습니다. 어떤 사람은 薔薇꽃을 直接 봤던 經驗을 떠올리며 이렇게 얘기할 것입니다. “나는 薔薇꽃을 알고 있지”. 사람은 自身이 經驗한 것에 對해서는 ‘잘 알고 있다’라는 믿음을 갖는 傾向이 있습니다. 特히 色感, 香氣, 소리 等感覺에 對한 記憶이 생생하게 떠오르면 그 믿음은 더 强해지겠죠. 勿論 그 생생한 經驗만큼은 GPT가 아직 따라할 수 없는 領域일 것입니다.

그런데 只今 컴퓨터 앞에 앉아있는 여러분에게 ‘薔薇꽃’에 對한 經驗은 但只 지나간 過去의 일일 뿐입니다. 只今 여러분에게 남아있는 것은, 腦 속에 흩어져있는 薔薇꽃에 對한 여러 가지 이미지와 키워드 조각들입니다. “그래서 薔薇꽃이 뭔데?”라고 묻는다면, 여러분은 “음…잎이 빨간 色이고, 香氣가 나고, 뾰족뾰족한 가시가 돋아있는 꽃이야”라며 薔薇로부터 聯想되는 單語들을 羅列하는 수밖에 없겠죠. 結局聯關된 여러 가지 이미지와 키워드를 聯想할 수 있다는 것이 우리의 앎의 證據입니다. 그렇다면 컴퓨터 앞에 앉아있는 여러분의 앎과 GPT의 앎은 얼마나 큰 差異가 있을까요. 그리고 앞으로 感覺 센서로 實物을 經驗할 수 있는 人工知能이 나타난다면, 우리는 그보다 얼마나 더 ‘안다’고 말할 수 있을까요.

서영빈 記者 suhcrates@donga.com