•  


人工知能, 마침내 눈떴다… 그림 그리는 AI 登場|新東亞

人工知能, 마침내 눈떴다… 그림 그리는 AI 登場

[박원익의 有益한 IT]

  • 박원익 더밀크 뉴욕플래닛腸

    wonick@themilk.com

    入力 2022-06-06 10:00:01

  • 글字크기 설정 닫기
    • 글字·寫眞 同時 理解 멀티모달 AI

    • 보고, 듣고, 생각한다

    • 文章 ‘읽고’ 그림 完成

    • 멀티모달의 未來는…

    [Gettyimage]

    [Gettyimage]

    4월 6일 구글은 미국 뉴욕 맨해튼 소호 지구에서 구글의 새 검색 서비스 ‘멀티서치’의 쇼핑 체험 이벤트를 열었다. [박원익]

    4月 6日 구글은 美國 뉴욕 맨해튼 소호 地球에서 구글의 새 檢索 서비스 ‘멀티서치’의 쇼핑 體驗 이벤트를 열었다. [박원익]

    “멀티서치(multisearch)는 텍스트(text)와 寫眞(image)을 同時에 使用하는 完全히 새로운 檢索 方法입니다. 구글 카메라 앱으로 寫眞을 찍고 畵面을 위로 쓸어 올린(swipe) 後 찾고 싶은 內容을 文字로 追加하면 됩니다.”

    4月 6日 美國 뉴욕 맨해튼 소호 地球. 디자이너숍, 아트 갤러리, 有名 브랜드 賣場이 늘어선 쇼핑 中心地에 실리콘밸리 企業 ‘구글’ 로고가 登場했다. 最新 人工知能(AI) 技術로 具現한 새로운 檢索 機能 ‘구글 멀티서치’를 體驗하는 오프라인 이벤트가 열린 것이다.

    衣類 編輯숍 形態로 꾸며진 行事場은 멀티서치가 쇼핑 經驗을 어떻게 改善할지에 焦點이 맞춰졌다. 備置된 靑바지, 運動靴, 가방 等의 雜貨를 스마트폰으로 撮影한 後 檢索語를 追加하면 비슷한 特性을 가진 다른 商品을 찾을 수 있었다. 예컨대 바둑板 패턴의 靑바지를 發見했는데, 같은 패턴의 치마를 사고 싶다면 그 製品을 撮影한 다음 ‘치마’라는 檢索語를 넣는 式이다.

    實際 쇼핑 經驗을 떠올려 보면 이 機能이 얼마나 有用한지 今方 알 수 있다. 마음에 드는 製品의 이름이나 브랜드를 모르더라도 이미지와 텍스트를 同時에 適用, 檢索 結果 範圍를 좁힐 수 있다. ‘이효리 가방’ ‘BTS 智旻 스웨터’ 같은 檢索語를 使用하지 않고도 願하는 商品을 찾을 수 있으며 單語를 바꿔가며 여러 番 檢索하는 일도 줄일 수 있다.

    멀티서치는 現在 베타(테스트) 버전으로 公開돼 美國에서 英語로만 使用이 可能하다. 適用 國家 및 言語는 追後 擴張될 展望이다. 구글 側은 “멀티서치 機能은 AI 技術 發展 德分에 可能했다. 멀티서치를 使用하면 더 자연스럽고 直觀的인 方式으로 周邊 世界를 理解할 수 있다”며 “向後 이 機能을 더 발전시켜 想像할 수 있는 모든 質問에 對한 檢索 結果를 改善할 것”이라고 밝혔다.



    보고, 듣고, 생각하는 AI

    구글 멀티서치 구동 화면. [Google]

    구글 멀티서치 驅動 畵面. [Google]

    구글이 ‘想像할 수 있는 모든 質問에 對한 答을 改善할 것’이라고 말할 수 있는 理由는 뭘까. 멀티서치는 구글의 最新 AI 모델인 MUM(Multitask Unified Model) 基盤으로 作動한다. MUM을 뒷받침하는 技術을 ‘멀티모달(Multimodal·多重모드)’이라고 한다.

    멀티모달은 機械가 텍스트, 寫眞 等 다양한 樣式의 情報를 同時에 理解할 수 있다는 意味다. 登攀 專門家에게 登山靴를 보여주며 “이 登山靴로 에베레스트山에 오를 수 있을까요”라고 묻는다면 바로 答을 내놓을 수 있지만, 機械는 그렇지 않다. ‘登山靴(이미지)’와 ‘質問(텍스트)’이 서로 다른 樣式의 情報이기에 同時에 學習하거나 處理하는 데 어려움을 겪는 것이다.

    只今까지의 AI는 이미지나 音聲, 言語 等 特定 分野에 特化된 作業을 遂行하도록 學習·開發돼 왔다. 이는 單一 樣式의 데이터 샘플을 提供하기가 相對的으로 쉬웠기 때문이다. 빠른 AI 性能 改善을 위해서도 單一 樣式의 데이터에 集中해 關聯 솔루션을 導出하는 便이 유리했다.

    問題는 이런 方式의 接近으로는 ‘더 높은 次元의 推論’李 어렵다는 點이다. 컴퓨터 비전(이미지 處理) 等 特定 分野에서는 人間을 凌駕할 程度의 훌륭한 成果를 만들 수 있으나 人間처럼 綜合的으로 現象을 認識해 使用者의 要求 事項을 充足하는 結果를 내놓는 건 全혀 다른 問題다.

    다양한 데이터를 考慮해 結果를 卽刻 내놓아야 하는 檢索, 推薦 分野에서 멀티모달 모델이 使用되기 始作한 것은 이런 理由에서다. 2021年 페이스북은 인스타그램 쇼트폼 映像 서비스 ‘릴스(Reels)’에 멀티모달 基盤 推薦 方式을 適用했다. AI가 映像 데이터와 音聲 데이터를 綜合的으로 認識, 비슷한 音樂 및 動作이 登場하는 비디오를 推薦하도록 만든 것이다.

    예컨대 멀티모달 모델은 音聲 데이터(엔진 소리)가 비슷해도 비디오 데이터가 農機械냐 모터사이클이냐에 따라 別途의 콘텐츠로 分類한다. 이런 區別은 여러 데이터를 綜合的으로 認識할 수 있어야만 可能하며 完全히 다른 次元의 使用者 經驗으로 發展할 수 있다. 페이스북은 이와 關聯해 “全 世界 國家, 數百 가지 言語로 된 비디오를 學習함으로써 콘텐츠 推薦 等 核心 AI 性能이 繼續 改善될 것”이라며 “人間처럼 學習하는 機械를 만들기 위한 廣範圍한 努力의 一部”라고 說明했다.

    文章 보고 그림 完成하는 ‘달리2’

    오픈AI 인공지능 화가 ‘달리2’가 만든 이미지. [오픈AI]

    오픈AI 人工知能 火가 ‘달리2’가 만든 이미지. [오픈AI]

    멀티모달 AI 모델의 潛在力을 보여주는 또 하나의 事例는 오픈AI의 ‘달리(DALL-E)’다. 오픈AI는 일론 머스크 테슬라 CEO, 실리콘밸리 벤처投資會社 ‘와이콤비네이터’ 出身 샘 알트만이 2015年 共同 設立한 企業이다. 링크트인 設立者인 리드 호프만 等 有名 投資者가 初期 投資에 參與했다. 2019年에는 마이크로소프트가 10億 달러를 投資한 것으로도 有名하다. 달리라는 이름은 超現實主義 畫家 ‘살바도르 달리’와 로봇 애니메이션 ‘月-E’에서 따왔다.

    오픈AI는 4月 6日 이미지 生成 모델 달리의 後續 버전 ‘달리2’를 發表, 業界를 놀라게 했다. 달리2는 텍스트로 說明한 內容을 이미지로 生成하는 데 特化한 AI 모델인데, 高解像度 이미지를 짧은 時間 안에 生成하는 놀라운 性能으로 注目받은 것이다.

    例를 들어 “말을 탄 宇宙飛行士를 寫眞 스타일로 그려줘”라는 文章을 入力하면 달리2街 卽時 딱 맞는 이미지를 組合해 보여준다. 같은 文章의 뒷部分을 ‘앤디 워홀 스타일’로 바꾸면 마치 팝아트의 巨匠 앤디 워홀이 그린 것 같은 이미지가 뜬다.

    이미지 生成뿐만 아니다. 프레임 속 特定 被寫體 位置를 바꾸거나 오리지널 作品을 應用해 비슷한 느낌의 이미지를 만들어내는 것도 可能하다. 複雜한 背景, 審도, 그림자 等을 包含한 高解像度 이미지를 만들고 修正할 수 있는 一種의 萬能 그리기 道具인 셈이다.

    알렉스 니콜 오픈AI 硏究員은 ‘抱川’과 인터뷰하면서 “누구나 만들고 싶은 것을 만들 수 있도록 돕고 싶다. 달리2 같은 道具가 創作의 民主化를 可能케 할 것”이라고 했다. 그는 이어 “달리2街 디자이너와 藝術家에게 靈感을 줄 수 있다”며 “컴퓨터 게임 會社들의 境遇 달리2를 게임 캐릭터 및 場面 製作에 活用할 수 있을 것으로 본다”고 했다.

    勿論 달리2街 完璧한 건 아니다. ‘뉴욕타임스’에 따르면 데모 試演 中 ‘달 위에 올라간 에펠塔’이라는 文章을 入力했더니 에펠塔 위에 달을 올린 이미지가 導出됐다. 누군가를 誹謗할 目的으로 惡意的 이미지를 만드는 일을 막기 위해 테스트에 參與할 수 있는 사람 數字도 400名 水準으로 制限해 둔 狀態다.

    엔비디아도 AI 火가 ‘고갱2’ 公開

    엔비디아 인공지능 화가 ‘고갱2’ 구동 화면. [Nvidia]

    엔비디아 人工知能 火가 ‘고갱2’ 驅動 畵面. [Nvidia]

    重要한 건 달리2의 놀라운 이미지 生成 能力 亦是 멀티모달에 뿌리를 뒀다는 點이다. 하나의 AI 모델 內에서 이미지와 텍스트 데이터를 組合하고 解釋하게 되자 AI는 人間처럼 反應할 수 있게 됐다.

    오픈AI는 自體 開發한 멀티모달 모델 ‘CLIP(Contrastive Language?Image Pre-training)’을 活用한다. CLIP은 텍스트와 이미지 雙으로 이뤄진 데이터를 學習해 正確度를 높인다. 무엇보다 텍스트와 이미지를 함께 學習함으로써 사람이 一一이 이름標를 指定(labelling)해 주는 形式보다 柔軟하다는 게 特徵이다. 예컨대 ‘달팽이로 만든 하프’ ‘아보카도 模樣의 椅子’ 같은, 實在하지 않는 想像의 이미지까지 만들어낼 수 있다. 이는 人間처럼 脈絡을 理解하고 追加 學習 없이도 視覺的 推論이 可能하다는 意味다.

    구글, 페이스북, 오픈AI(마이크로소프트) 外 다른 글로벌 企業들도 멀티모달 AI의 놀라운 可能性을 確認하고 이 分野에 뛰어드는 趨勢다. AI 모델 開發 競爭에서 뒤처지지 않기 위한 銃聲 없는 戰爭이 벌어지는 것이다.

    半導體 分野 先頭 走者 엔비디아가 2021年 11月 22日 公開한 AI 아트 애플리케이션 프로젝트 ‘고갱2(GauGAN2)’ 亦是 멀티모달 基盤으로 作動한다. 고갱은 後期 印象主義 畫家 ‘폴 고갱’에서 이름을 따온 그림 그리기 道具로 오픈AI 달리2처럼 텍스트 基盤 이미지 生成 機能을 提供한다.

    서너 單語만 入力해도 實時間으로 該當 單語에 符合하는 이미지가 生成되며 ‘海邊의 日沒’이라는 文句를 쓰고 거기에 ‘바위 海邊에서의 日沒’처럼 形容詞를 追加할 수도 있다. ‘日沒’을 ‘午後’ 또는 ‘비 오는 날’로 바꾸면 이미지가 自動으로 修正된다.

    ‘스타워즈’ ‘트랜스포머’ ‘어벤져스’ 等 有名 블록버스터 映畫에 參與한 首席 콘셉트 아티스트 兼 모델러 콜리 워츠(Colie Wertz)는 엔비디아 고갱으로 製作한 公傷 船舶 디자인을 開發해 소셜미디어에 共有하면서 “고갱이 全혀 豫想치 못한 方向으로 靈感을 줬다. 以前에는 想像조차 하지 못했던 것을 쉽게 具現해 낼 수 있었다”고 밝히기도 했다.

    韓國 企業도 뛰어들어… 멀티모달 未來는?

    카카오브레인이 4월 19일 발표한 인공지능 화가 ‘RQ-트랜스포머’가 ‘사막의 에펠탑’이라는 문구만 보고 그린 그림. [카카오브레인]

    카카오브레인이 4月 19日 發表한 人工知能 火가 ‘RQ-트랜스포머’가 ‘沙漠의 에펠塔’이라는 文句만 보고 그린 그림. [카카오브레인]

    韓國 企業들도 마찬가지다. 네이버는 4月 28日 멀티모달 AI 모델을 딥러닝 基盤 이미지 檢索 서비스 ‘스마트렌즈’에 適用했다고 밝혔다. 구글의 멀티서치처럼 더 쉽고 精巧한 檢索이 可能하도록 만든다는 計劃이다.

    네이버는 3月 블로그, 카페, 쇼핑, 뉴스 等 自體 서비스로 蓄積한 데이터를 活用, 멀티모달 AI 檢索 서비스인 ‘옴니서치’를 構築한 바 있다. 구글 렌즈처럼 使用者가 스마트렌즈로 寫眞을 撮影한 後 檢索語를 追加해 檢索 結果를 좁히는 方式이다. 옴니서치는 現在 運動化 部門에서만 使用할 수 있다.

    카카오의 AI 開發 子會社 카카오브레인은 2021年 12月 멀티모달 AI 火가 ‘민달리(minDALL-E)’를 發表했고, 4月 19日에는 민달리의 性能을 끌어올린 改善 버전 ‘RQ-트랜스포머(Transformer)’도 公開했다.

    카카오브레인은 20億 건 水準의 이미지·텍스트 데이터 세트를 確保한 것으로 알려졌다. 데이터 세트 規模만 보면 구글(18億 건), 오픈AI(10億 건)를 凌駕하는 水準이다. 김일두 카카오브레인 代表는 이와 關聯해 “自然語로 複雜한 이미지 檢索을 할 수 있는 글로벌 最大 規模의 超巨大 멀티모달 AI 모델을 선보일 것”이라고 했다.

    오픈AI로 그린 NFT 아트워크. [오픈AI]

    오픈AI로 그린 NFT 아트워크. [오픈AI]

    멀티모달의 未來는 어떻게 펼쳐질까. AI 業界 專門家들은 데이터 세트 偏向 問題 等 限界가 存在하지만, AI 技術 및 性能의 發展 速度를 考慮하면 멀티모달 모델 分野에서 큰 進展이 繼續되리라고 본다. AI 솔루션 業體 ML6 所屬 엔진니어 주타 스테이스는 “10年 前만 해도 AI는 이미지 分類조차 거의 하지 못했다”며 “가장 發展한 AI 모델 中 하나인 멀티모달 AI가 10年 後 무엇을 할 수 있을지는 想像하기조차 어려울 程度”라고 했다.

    일러스트레이팅, 비주얼 아트 等 一部 디자인 産業, 藝術 分野에도 멀티모달 AI가 影響을 미칠 것으로 보인다. 멀티모달 AI를 活用해 作業하거나 非專門家가 簡便하게 이미지를 生成하는 事例가 늘어날 것이다. 달리2로 아트워크를 만들어 NFT(代替不可能토큰) 形態로 販賣할 수 있을 것이라는 觀測까지 提起된다. 美國 VC(벤처캐피털) 틸 캐피털(Thiel Capital)의 매니징 디렉터 에릭 와인스타인은 “달리2와 웹3(Web3, 블록체인 基盤 웹), NFT 分野의 協業 或은 衝突이 期待된다”고 했다.



    댓글 0
    닫기

    매거진東亞

    • youtube
    • youtube
    • youtube

    에디터 推薦記事

    - "漢字路" 한글한자자동변환 서비스는 교육부 고전문헌국역지원사업의 지원으로 구축되었습니다.
    - "漢字路" 한글한자자동변환 서비스는 전통문화연구회 "울산대학교한국어처리연구실 옥철영(IT융합전공)교수팀"에서 개발한 한글한자자동변환기를 바탕하여 지속적으로 공동 연구 개발하고 있는 서비스입니다.
    - 현재 고유명사(인명, 지명등)을 비롯한 여러 변환오류가 있으며 이를 해결하고자 많은 연구 개발을 진행하고자 하고 있습니다. 이를 인지하시고 다른 곳에서 인용시 한자 변환 결과를 한번 더 검토하시고 사용해 주시기 바랍니다.
    - 변환오류 및 건의,문의사항은 juntong@juntong.or.kr로 메일로 보내주시면 감사하겠습니다. .
    Copyright ⓒ 2020 By '전통문화연구회(傳統文化硏究會)' All Rights reserved.
     한국   대만   중국   일본