•  


單獨疾走 엔비디아, 追擊나선 인텔·AMD... '變數는 1nm 파운드리'

單獨疾走 엔비디아, 追擊나선 인텔·AMD... '變數는 1nm 파운드리'

남시현 sh@itdonga.com

[IT東亞 남시현 記者] 지난 3月 開催된 엔비디아의 GPU 技術 콘퍼런스 ‘GTC 2024’에서 젠슨 黃 엔비디아 最高經營者는 “加速 컴퓨팅은 變曲點에 到達했고, 汎用 컴퓨팅度 限界에 다다랐다. 컴퓨팅 費用을 낮추면서도 持續 可能한 方式으로 人工知能(AI)을 開發할 수 있도록 끊임없이 擴張하는 方式의 컴퓨팅이 必要하다”라고 主張했다. 그러면서 “加速 컴퓨팅은 모든 産業에서 旣存 컴퓨팅과 比較해 劃期的인 向上을 가져온다”라며 重要性을 强調했다.

젠슨 황 엔비디아 CEO가 GTC 2024에서 블랙웰 아키텍처를 소개했다 / 출처=엔비디아
젠슨 黃 엔비디아 CEO가 GTC 2024에서 블랙웰 아키텍처를 紹介했다 / 出處=엔비디아

加速 컴퓨터는 수많은 하드웨어 裝置를 竝列로 連結해 處理 速度를 끌어올리는 方法이다. 이를 통해 컴퓨터의 物理的 限界가 크게 擴張했고, 結果的으로는 機械 學習과 데이터 分析, 시뮬레이션 等 高次元的이고 大規模의 作業을 遂行할 수 있게 됐다. AI 開發에 GPU가 쓰이는 理由도 GPU를 竝列로 連結해 大規模로 演算을 處理할 수 있어서다.

하지만 加速 컴퓨팅이 더 많은 分野에서 폭넓게 活用되며 엔비디아의 供給이 市場 需要를 充當하지 못하고, 이에 인텔과 AMD 모두 自體 加速器를 公開하며 持分 擴大를 노리고 있다. 엔비디아의 代案을 自處하는 인텔과 AMD, 그리고 더 높은 性能으로 先頭를 치고 나가는 엔비디아의 現在 狀況을 짚어본다.

엔비디아, 블랙웰로 電力 使用量 줄이고 性能 上限 높인다

엔비디아가 2年 前 公開한 호퍼 아키텍처는 生成型 AI 市場의 엔진으로 作用하며 世上을 바꿨다. 하지만 GPU 自體가 AI 開發이 아닌 그래픽 處理 等 不動小數點 演算에 最適化된 半導體여서 性能은 높지만 電力 效率이 不足하다는 限界가 있다. 이를 認知한 엔비디아는 性能 上限을 높이면서도 電力 效率的인 方案을 提示해 單獨 先頭를 굳히려 한다.

엔비디아 블랙웰 아키텍처 / 출처=엔비디아
엔비디아 블랙웰 아키텍처 / 出處=엔비디아

엔비디아가 GTC 2024를 통해 紹介한 블랙웰 아키텍처는 TSMC 4NP 工程으로 製造된 두 個의 多이로 構成되며, B200 AI 加速器로 提供될 時 總 2080億 個의 트랜지스터를 搭載한다. 各 칩 間 通信 速度는 秒當 10TB에 達해 8비트 浮動小數點 處理에서 호퍼 아키텍처 對備 2.5倍, 推論으로는 다섯 倍 높은 性能을 發揮한다. 또한 192GB 容量의 HBM3e 메모리를 配置해 H100 對備 30倍까지 性能을 높였다.

블랙웰은 5世代 NV링크를 통해 秒當 1.8TB로 裝置 間 通信하며, 그레이스 CPU를 組合해 엔비디아 GB200 그레이스 블랙웰 슈퍼칩 形態로 提供된다. 總 8個의 B200이 搭載된 DGX B200 시스템은 總 1440GB의 GPU 메모리와 4TB 시스템 메모리를 搭載해 總 72 페타플롭스의 訓鍊 性能과 144페타플롭스의 推論 性能을 提供한다.

72개의 B200 GPU가 탑재된 NVL72 시스템 / 출처=엔비디아
72個의 B200 GPU가 搭載된 NVL72 시스템 / 出處=엔비디아

또한 電力 性能 改善에도 焦點을 맞췄다. 旣存 호퍼 GPU 아키텍처로 90日 안에 GPT-MoE-1.8T 모델을 訓鍊하려면 約 8000個의 GPU와 15메가와트의 電力이 必要했으나, 블랙웰 GPU는 2000個의 裝置와 4메가와트로 處理해 全體 電力 使用量을 75%까지 줄일 수 있다. 72個의 GPU가 搭載되는 NVL72 規格으로 全 世代와 比較하면 AI 推論은 30倍 빨라지고, 電力 代 性能比는 25倍 높아진다.

AMD MI300X/A로 對應, ROCm 支援도 本格的

AMD 亦是 지난해 12月 인스팅트 MI300A 및 MI300X 加速器를 出市하며 加速 컴퓨팅 市場에서의 몫을 늘리고 있다. MI300 시리즈는 304個의 CDNA3 아키텍처 基盤의 GPU 컴퓨팅 유닛과 192GB HBM3 메모리, 秒當 最大 5.3TB의 메모리 帶域幅을 갖춰 以前 世代 MI250 對備 學習 能力이 最大 6.8倍 向上됐다. 8個의 MI300X 플랫폼은 總 1.5TB의 HBM3 메모리와 最大 42.4TB의 메모리 帶域幅을 갖춘다.

AMD 인스팅트 MI300 시리즈 / 출처=AMD
AMD 인스팅트 MI300 시리즈 / 出處=AMD

2048個의 入力 토큰 및 128個의 出力 토큰을 活用한 Llama-70B 推論 테스트에서 MI300X는 엔비디아 H100와 比較해 vLLM 모델 FP16 結果에서 最大 2.1倍 나은 性能을 보여주었다. AMD 인스팅트 MI300 시리즈는 델, 레노버 等 主要 하드웨어 企業에서 採用했고, 마이크로소프트와 오라클度 自社 클라우드에 MI300 시리즈 包含 計劃을 發表했다.

한便 AMD가 넘어야 할 壁은 하드웨어가 아닌 소프트웨어에 있다. 엔비디아가 只今껏 市場을 先導해 온 背景은 十數年에 걸쳐 發展된 쿠다(CUDA) 基盤의 開發 環境 德分이다. 하지만 AMD는 2016年에 開發 環境인 ROCm을 만들고, 2023年 7月이 되어서야 윈도우를 支援하는 等 發展 速度가 느리다. 그나마 AMD가 뒤늦게 AI 加速器의 윈도우 支援을 發表하고, 전사的으로 AI 生態系 構成에 神經을 쓰면서 앞으로는 차츰 나아질 展望이다.

實際로 AMD의 2023年 4分期 데이터센터 部門 賣出은 22億 8200萬 달러(約 3兆 1600億 원), 營業 利益은 6億 6600萬 달러(藥 9158億 원)를 記錄했다. 이는 지난해 같은 期間 對比 38% 增加한 數値인데, AMD 인스팅트 GPU 및 4世代 AMD 에픽 CPU 等이 影響을 미쳤다. AMD AI 加速器 結果만 떼놓고 評價할 순 없지만, 조금씩 躍進하는 模樣새다.

인텔 가우디 3, 全方位的 代案으로 注目받는 中

인텔 가우디 3 AI 가속기 주요 성능 요약 / 출처=인텔
인텔 가우디 3 AI 加速器 主要 性能 要約 / 出處=인텔

인텔은 지난 4月 9日 開催된 ‘인텔 비전’ 行事에서 가우디 2의 後續 製品인 가우디 3 AI 加速器를 선보였다. 가우디 3는 全 世帶 對備 BF16(16비트 浮動小數點) AI 컴퓨팅에서 4倍, 메모리 帶域幅에서 1.5倍, 大規模 시스템 擴張을 위한 네트워킹 帶域幅이 2倍 向上됐고, LLM 및 멀티모달 모델에서의 AI 推論 性能을 크게 끌어올렸다. 하드웨어는 64個의 AI用 텐서 프로세서 코어(TPC)와 8個의 行列 곱셈 엔진(MME)으로 構成되며, 메모리는 128GB의 HBM2e으로 總 3.7TB의 메모리 帶域幅을 갖는다.

性能 側面에서는 엔비디아 H100 對備 Llama 2-70B 및 130B, GPT-3 學習 時間을 50% 줄였고, Llama 2 700B 모델에서 50% 더 빠른 推論과 40% 向上된 推論 電力 效率性을 갖춘다. 인텔 側은 가우디 3街 H100보다 더 나은 性能과 合理的인 總 所有費用을 提供해 엔비디아 H100의 代案을 찾는 企業들이 關心을 끌 것으로 보고 있다.

엔비디아가 이기는 싸움이지만 ‘인텔 파운드리’는 變數

엔비디아는 올해 2分期 中 H200 GPU를 納品하며, 中旬 以後에는 GH200 그레이스 호퍼 슈퍼칩까지 내놓는다. 라인업 上 2025年에는 블랙웰 基盤의 B200 GPU와 GB200 그레이스 블랙웰 슈퍼칩까지 商用化한다. 인텔의 最新 AI 加速器人 가우디 3와 AMD MI300X가 이제 막 H100의 代案으로 提示되는 狀況에서 몇 手 먼저 앞서 나가는 셈이다. 이 隔差는 앞으로도 따라잡기 어려울 展望이다.

인텔 오리건 주 D1X 반도체 공장에 배치된 ASML 하이-NA EUV 장비 / 출처=인텔
인텔 오리건 州 D1X 半導體 工場에 配置된 ASML 하이-NA EUV 裝備 / 出處=인텔

變數는 엔비디아와 AMD가 팹리스 企業인 反面, 인텔은 綜合 半導體 企業이라는 點이다. 팹리스는 直接 半導體를 生産하지 않고 파운드리에 委託하고, 綜合 半導體 企業은 設計부터 生産까지 모두 直接 한다. 特히 인텔은 IDM 2.0 戰略을 통해 파운드리 事業을 主流로 내세우고, 지난 4月 17日(現地 時刻)에는 2025年 中 하이-NA EUV(高 開口數 極紫外線 노광기)를 活用해 인텔 14A(옹스트롬, 約 1.4나노미터 相當) 公正 開發을 始作하겠다고 밝혔다.

인텔은 올해 말까지 18A 공정에 돌입하고, 2027년에 14A 공정을 상용화한다 / 출처=인텔
인텔은 올해 末까지 18A 工程에 突入하고, 2027年에 14A 工程을 商用化한다 / 出處=인텔

하이 NA EUV를 活用하면 旣存 EUV보다 1.7倍 더 섬세하게 印刷할 수 있고, 2D 擴張을 통해 半導體 密度를 2.9倍까지 늘린다. 인텔은 렌즈 開口數가 0.33人 EUV와 0.55人 하이-NA EUV를 모두 使用할 豫定이다. 半導體는 나노工程 單位가 尖銳化할수록 生産 單價는 下落하고, 性能과 電力 效率은 向上된다. 인텔이 只今은 가우디 3等 主要 半導體를 TSMC에 委託 生産하고 있지만, 向後 自社 AI 加速器에 最新 工程을 導入한다면 飛躍的인 性能 向上과 需要 供給의 柔軟性, 單價 맞춤 等을 앞세워 市場 雰圍氣를 바꿀지도 모른다.

엔비디아 GB200 그레이스 블랙웰 슈퍼칩 / 출처=엔비디아
엔비디아 GB200 그레이스 블랙웰 슈퍼칩 / 出處=엔비디아

勿論 엔비디아 GPU를 活用하는 많은 企業들이 굳이 쿠다 生態系를 내려놓고, 인텔, AMD를 選擇할 可能性은 낮다. 인텔과 AMD도 이 點을 認識해 經濟成果 持續可能性, 需給의 安定 等을 長點으로 내세우며 競爭한다. 앞으로도 이런 構圖는 變함이 없겠지만, 엔비디아가 虛點을 보인다면 언제든지 인텔과 AMD에게도 機會가 생길 수 있다. 特히 TSMC가 中國과 臺灣 紛爭이라는 地政學的 問題를 안고 있다는 點도 變數다.

加速 컴퓨팅 市場은 一般 使用者가 接할 分野는 아니다. 하지만 AI PC나 LLM을 비롯한 다양한 技術이 大衆化할수록, AI 加速器를 비롯한 加速컴퓨팅 市場도 함께 發展한다. 또한 엔비디아 GPU의 높은 單價와 需給 安定性으로 因해 代案을 찾는 목소리도 繼續 나오고 있다. 只今은 엔비디아가 市場의 單獨 先頭로 나서고 있지만, 長期的으로는 인텔과 AMD를 비롯한 수많은 企業들이 빈자리와 代案을 채우며 成長할 것이다.

글 / IT東亞 남시현 (sh@itdonga.com)

IT東亞 의 모든 콘텐츠(技士)는 Creative commons 著作者標示-非營利-變更禁止 라이선스 에 따라 利用할 수 있습니다.
意見은 IT東亞(게임東亞) 페이스북 에서 덧글 또는 메신저로 남겨주세요.
- "漢字路" 한글한자자동변환 서비스는 교육부 고전문헌국역지원사업의 지원으로 구축되었습니다.
- "漢字路" 한글한자자동변환 서비스는 전통문화연구회 "울산대학교한국어처리연구실 옥철영(IT융합전공)교수팀"에서 개발한 한글한자자동변환기를 바탕하여 지속적으로 공동 연구 개발하고 있는 서비스입니다.
- 현재 고유명사(인명, 지명등)을 비롯한 여러 변환오류가 있으며 이를 해결하고자 많은 연구 개발을 진행하고자 하고 있습니다. 이를 인지하시고 다른 곳에서 인용시 한자 변환 결과를 한번 더 검토하시고 사용해 주시기 바랍니다.
- 변환오류 및 건의,문의사항은 juntong@juntong.or.kr로 메일로 보내주시면 감사하겠습니다. .
Copyright ⓒ 2020 By '전통문화연구회(傳統文化硏究會)' All Rights reserved.
 한국   대만   중국   일본