메타, 라마 3 LLM도 오픈소스로 公開··· '市場掌握力 더 높아질 듯'

#LLM #Llama #Meta #大型言語모델 #라마 #라마3 #메타 #人工知能

남시현 sh@itdonga.com

2024.04.24.

[IT東亞 남시현 記者] 메타(前 페이스북)의 오픈소스 大型言語모델(LLM)인 라마(Llama)의 3世代 버전이 지난 18日(現地時間) 出市됐다. 메타 라마는 2023年 2月에 처음으로 70億, 130億, 330億, 650億個의 媒介變數로 學習된 1世代 버전이 出市됐고, 23年 7月에 70億, 130億, 700億個媒介變數로 構成된 라마 2世代 버전이 出市됐다. 3世代 버전은 라마 2와 마찬가지로 오픈소스로 提供되며, 商業的利用도 可能하다.

메타 라마가 注目받는 理由는 누구나 無料로 利用할 수 있는 모델이라서다. 競爭企業인 구글의 제미나이(Gemini)도 無料 버전이 있지만, 高性能 버전은 月 19.99달러의 제미나이 어드벤스드를 써야 한다. 앤스로픽의 클로드 3 亦是 소네트 모델만 無料高, 오퍼스 모델은 月 20달러 基本料에 토큰 入力 및 出力當費用을 받는다. GPT 亦是 GPT-4 等의 有料 서비스가 이미 絶讚裡에 쓰인다.

메타가 지난 4월 18일(현지 시간), 메타 라마 3 대형언어모델 8B, 70B 모델을 공개했다 / 출처=메타 — 메타가 지난 4月 18日(現地時間), 메타 라마 3 大型言語모델 8B, 70B 모델을 公開했다 / 出處=메타

메타 亦是 1世代 라마는 學界를 對象으로만 오픈소스로 公開했으나, 生態系確保를 主要戰略으로 變更하면서 두 番째 버전부터 商業的使用까지 許可됐다. 누구나 制約 없이 活用할 수 있으니 라마를 基盤으로 알파카, 비쿠냐, 차이니즈 라마 같은 다양한 派生모델이 誕生했고, 마이크로소프트 애저 및 AWS, 許깅페이스 等의 플랫폼을 통해 全方位的으로 擴散했다.

라마 3 8B, 70B 于先出擊, 追後 400B도 公開豫定

이番에 公開된 3世代 모델은 性能이 더 뛰어나다. 라마 3는 8B 및 70B 媒介變數 두 모델이 먼저 出市된다. 라마 3는 라마 2의 2兆個 토큰보다 훨씬 많은 15兆個 토큰으로 學習됐고, 7倍 더 크고 4倍 더 많은 코드를 包含한다. 또한 學習 데이터의 5%가 30個以上의 非英語 데이터로 構成되고, 大型言語모델의 性能과 관계된 콘텍스트 길이(Context length)도 두 倍로 늘어났다. 콘텍스트 길이는 LLM이 한 番에 處理할 수 있는 토큰 數를 의미한다.

라마 3 8B 및 70B 모델과 타사 경쟁 모델과의 성능 비교 / 출처=메타 — 라마 3 8B 및 70B 모델과 他社競爭 모델과의 性能比較 / 出處=메타

메타가 公開한 라마 3 性能分析資料를 살펴보자. 메타는 라마 3의 모델 性能을 標準化하기 위해 助言要請, 브레인스토밍, 分類, 閉鎖型質問答辯, 코딩, 創意的 글쓰기, 抽出, 特定 캐릭터 役割劇, 公開質問答辯, 推論, 再作成 및 要約等 12가지 主要使用事例에 對한 1800個의 프롬프트를 生成했고, 이를 處理한 速度를 바탕으로 性能을 比較했다.

그 結果 라마 3 8B는 파이썬 코드 生成과 關聯된 HumanEval 테스트에서 젬마 7B 및 미스트랄 7B와 比較해 두 倍에 가까운 處理性能을 보여주었고, 57個의 主題를 통해 保有知識을 比較하는 MMLU 테스트에서는 68.4點을 獲得했다. 同一 테스트에서 젬마 7B는 53.3, 미스트랄 7B는 58.4點을 獲得했다.

라마 3 70B 모델은 구글 제미나이 프로 1.5 및 클로드 3에 비해 거의 모든 領域에서 비슷하거나 조금 더 나은 面을 보여주었고, MMLU에서 82點을 獲得해 GPT-4의 MMLU 값인 86.4에 近接했다. 다만 數學性能(MATH)과 大學院水準의 推論(GPQA)에서는 他 모델보다 조금 性能이 낮았다. 하지만 라마 3는 無料 모델이므로 市場競爭力은 絶對的으로 優位에 있다.

70B 모델의 경우 타사 모델들과 비교해 긍정적인 응답을 이끌어냈다 / 출처=메타 — 70B 모델의 境遇他社 모델들과 比較해 肯定的인 應答을 이끌어냈다 / 出處=메타

또한 라마 3 70B 모델과 클로드 소네트, 미스트랄 미디엄, GPT-3.5, 라마2 네 個의 LLM을 놓고, 사람이 直接選好하는 結果를 選擇하게 한 結果도 提示했다. 클로드 3와 라마 3를 比較한 結果에서는 應答者의 52.9%는 라마를, 34.2%는 클로드의 答辯을 選好했다. 12.9%는 無勝負라고 應答했다. GPT-3.5와의 比較해서는 63.2%가 라마 3를 選擇했고, 27.1%만이 GPT-3.5를 選擇했다.

추후 공개될 메타 라마 3 400B+ 모델의 대략적인 성능 평가 / 출처=메타 — 追後公開될 메타 라마 3 400B+ 모델의 大略的인 性能評價 / 出處=메타

메타는 8B 및 70B 모델에 이어 4000億個媒介變數로 構成된 400B 모델도 出市할 豫定이다. 4月 15日字로 發表된 400B 모델 性能은 MMLU 벤치마크에서 구글 제미나이 프로의 90點, 클로드 3 오퍼스의 88.2點, GPT-4의 86.8點에 이어 네 番째로 높다. 메타는 라마 3 400B 모델을 開發하고 있고, 訓鍊이 完了되면 仔細한 硏究論文과 함께 公開한다고 밝혔다. 또한 앞으로 몇 달에 걸쳐 多衆 모드, 多國語機能, 콘텍스트 窓擴張等 새로운 機能들을 追加해 나갈 豫定이다.

라마 3는 마이크로소프트 애저, 구글 클라우드, AWS는 勿論 IBM 왓슨X, 許깅페이스, 캐글, 데이터브릭스, 엔비디아 NIM, 스노플레이크 等의 플랫폼에서 活用할 수 있다. 라마 3-70B는 公開直後 LLM 評價를 위한 크라우드소싱 開放型 플랫폼 LMSYS 챗봇 아레나 리더보드에서 GPT-4 터보, 클로드 3 오퍼스 等에 이어 5位로 順位가 매겨졌고, 4月 24日現在 6位에 安着했다.

AI 受惠擴散에 寄與 VS 生態系獨占 노린 無料化

메타는 오래前부터 收益性보다 生態系를 먼저 確保하는 戰略을 取해왔다. 인스타그램과 페이스북도 初盤에는 廣告收益보다는 使用者確保에 熱을 올렸고, 왓츠앱을 引受한 理由도 個人用 메신저 生態系를 吸收하기 위해서였다. 지난 23日에는 메타 VR 機器에 搭載되는 ‘메타 호라이즌 OS’를 에이수스, 레노버, 마이크로소프트 等他社 VR 하드웨어 企業들에게 開放하기로 했다.

이런 ‘퍼주기’가 可能한 理由는 메타의 核心收入源인 廣告事業德分이다. 메타의 지난해 4分期實績은 前年同期對比 25% 增加한 401億 달러(藥 54兆 9000億 원)였으며, 純利益도 前年對比 46億 5000萬 달러(約 6兆 원) 增加한 140億 달러(約 19兆 1800億 원)였다. 營業利益率도 41%나 늘었다. 온라인 廣告市場이 好調勢에 접어들며 메타의 收益率은 每分期上昇하고, 여기서 벌어들인 돈을 生態系確保에 投入된다.

메타 라마 3 70B 모델이 사용자 평가 차트에서 현재 6위를 기록하고 있다. 라마 3가 무료 모델인 점을 고려하면 대단한 성과다 / 출처=LMSYS — 메타 라마 3 70B 모델이 使用者評價 차트에서 現在 6位를 記錄하고 있다. 라마 3街無料 모델인 點을 考慮하면 대단한 成果다 / 出處=LMSYS

메타가 라마를 오픈소스로 公開한 건 肯定的으로만 볼 수 없다. 앤스로픽, 오픈AI, 구글 等의 競爭者들도 有料化 없이는 모델 開發 및 運營을 하기 어려울 程度로 많은 費用이 必要하다. 卽 메타가 他社有料 모델에 맞먹는 LLM을 無料로 提供하는 것 自體가 市場生態系確保라는 분명한 理由가 있어서다. 長期的으로 라마의 市場影響力이 支配的인 水準에 이르면 언제든지 有料化가 될 수 있다. 또한 라마보다 性能이 不足하거나, 資金力이 不足한 企業은 事業을 抛棄해야 할 處地에 놓인다.

結果的으로 無料 모델의 性能이 높아지는 건 歡迎할 일이지만, 反對로 AI 生態系自體가 偏狹하고 多樣性을 잃을 수 있다. 市場에서도 이미 메타의 戰略은 잘 알려져 있지만, 無料 모델이라는 誘惑은 너무나 魅力的이다. 앞으로 메타가 바라는 대로 市場이 흘러갈지, 아니면 또 다른 展開가 이어질지는 지켜봐야 할 일이다.

글 / IT東亞 남시현 (sh@itdong.com)

#LLM #Llama #Meta #大型言語모델 #라마 #라마3 #메타 #人工知能

메타, 라마 3 LLM도 오픈소스로 公開··· '市場掌握力 더 높아질 듯'

라마 3 8B, 70B 于先出擊, 追後 400B도 公開豫定

AI 受惠擴散에 寄與 VS 生態系獨占 노린 無料化

人氣 뉴스

IT東亞動映像

最新記事

리뷰

講義

라마 3 8B, 70B 于先 出擊, 追後 400B도 公開 豫定

AI 受惠 擴散에 寄與 VS 生態系 獨占 노린 無料化

關聯 記事

人氣 뉴스

IT東亞 動映像

最新 記事

리뷰

講義

라마 3 8B, 70B 于先出擊, 追後 400B도 公開豫定

AI 受惠擴散에 寄與 VS 生態系獨占 노린 無料化

關聯記事

IT東亞動映像

最新記事