單獨疾走 엔비디아, 追擊나선 인텔·AMD... '變數는 1nm 파운드리'

#14A #AI加速器 #AI半導體 #AMD #GPU #HIGHNAEUV #NPU #가우디3 #半導體 #블랙웰 #엔비디아 #인스팅트 #인텔 #파운드리 #하이NAEUV

남시현 sh@itdonga.com

2024.04.19.

[IT東亞 남시현 記者] 지난 3月開催된 엔비디아의 GPU 技術 콘퍼런스 ‘GTC 2024’에서 젠슨 黃 엔비디아 最高經營者는 “加速 컴퓨팅은 變曲點에 到達했고, 汎用 컴퓨팅度限界에 다다랐다. 컴퓨팅 費用을 낮추면서도 持續可能한 方式으로 人工知能(AI)을 開發할 수 있도록 끊임없이 擴張하는 方式의 컴퓨팅이 必要하다”라고 主張했다. 그러면서 “加速 컴퓨팅은 모든 産業에서 旣存 컴퓨팅과 比較해 劃期的인 向上을 가져온다”라며 重要性을 强調했다.

젠슨 황 엔비디아 CEO가 GTC 2024에서 블랙웰 아키텍처를 소개했다 / 출처=엔비디아 — 젠슨 黃 엔비디아 CEO가 GTC 2024에서 블랙웰 아키텍처를 紹介했다 / 出處=엔비디아

加速 컴퓨터는 수많은 하드웨어 裝置를 竝列로 連結해 處理速度를 끌어올리는 方法이다. 이를 통해 컴퓨터의 物理的限界가 크게 擴張했고, 結果的으로는 機械學習과 데이터 分析, 시뮬레이션 等高次元的이고 大規模의 作業을 遂行할 수 있게 됐다. AI 開發에 GPU가 쓰이는 理由도 GPU를 竝列로 連結해 大規模로 演算을 處理할 수 있어서다.

하지만 加速 컴퓨팅이 더 많은 分野에서 폭넓게 活用되며 엔비디아의 供給이 市場需要를 充當하지 못하고, 이에 인텔과 AMD 모두 自體加速器를 公開하며 持分擴大를 노리고 있다. 엔비디아의 代案을 自處하는 인텔과 AMD, 그리고 더 높은 性能으로 先頭를 치고 나가는 엔비디아의 現在狀況을 짚어본다.

엔비디아, 블랙웰로 電力使用量 줄이고 性能上限 높인다

엔비디아가 2年前公開한 호퍼 아키텍처는 生成型 AI 市場의 엔진으로 作用하며 世上을 바꿨다. 하지만 GPU 自體가 AI 開發이 아닌 그래픽 處理等不動小數點演算에 最適化된 半導體여서 性能은 높지만 電力效率이 不足하다는 限界가 있다. 이를 認知한 엔비디아는 性能上限을 높이면서도 電力效率的인 方案을 提示해 單獨先頭를 굳히려 한다.

엔비디아 블랙웰 아키텍처 / 출처=엔비디아 — 엔비디아 블랙웰 아키텍처 / 出處=엔비디아

엔비디아가 GTC 2024를 통해 紹介한 블랙웰 아키텍처는 TSMC 4NP 工程으로 製造된 두 個의 多이로 構成되며, B200 AI 加速器로 提供될 時總 2080億個의 트랜지스터를 搭載한다. 各 칩 間通信速度는 秒當 10TB에 達해 8비트 浮動小數點處理에서 호퍼 아키텍처 對備 2.5倍, 推論으로는 다섯 倍 높은 性能을 發揮한다. 또한 192GB 容量의 HBM3e 메모리를 配置해 H100 對備 30倍까지 性能을 높였다.

블랙웰은 5世代 NV링크를 통해 秒當 1.8TB로 裝置間通信하며, 그레이스 CPU를 組合해 엔비디아 GB200 그레이스 블랙웰 슈퍼칩 形態로 提供된다. 總 8個의 B200이 搭載된 DGX B200 시스템은 總 1440GB의 GPU 메모리와 4TB 시스템 메모리를 搭載해 總 72 페타플롭스의 訓鍊性能과 144페타플롭스의 推論性能을 提供한다.

72개의 B200 GPU가 탑재된 NVL72 시스템 / 출처=엔비디아 — 72個의 B200 GPU가 搭載된 NVL72 시스템 / 出處=엔비디아

또한 電力性能改善에도 焦點을 맞췄다. 旣存 호퍼 GPU 아키텍처로 90日 안에 GPT-MoE-1.8T 모델을 訓鍊하려면 約 8000個의 GPU와 15메가와트의 電力이 必要했으나, 블랙웰 GPU는 2000個의 裝置와 4메가와트로 處理해 全體電力使用量을 75%까지 줄일 수 있다. 72個의 GPU가 搭載되는 NVL72 規格으로 全世代와 比較하면 AI 推論은 30倍 빨라지고, 電力代性能比는 25倍 높아진다.

AMD MI300X/A로 對應, ROCm 支援도 本格的

AMD 亦是 지난해 12月 인스팅트 MI300A 및 MI300X 加速器를 出市하며 加速 컴퓨팅 市場에서의 몫을 늘리고 있다. MI300 시리즈는 304個의 CDNA3 아키텍처 基盤의 GPU 컴퓨팅 유닛과 192GB HBM3 메모리, 秒當最大 5.3TB의 메모리 帶域幅을 갖춰 以前世代 MI250 對備學習能力이 最大 6.8倍向上됐다. 8個의 MI300X 플랫폼은 總 1.5TB의 HBM3 메모리와 最大 42.4TB의 메모리 帶域幅을 갖춘다.

AMD 인스팅트 MI300 시리즈 / 출처=AMD — AMD 인스팅트 MI300 시리즈 / 出處=AMD

2048個의 入力 토큰 및 128個의 出力 토큰을 活用한 Llama-70B 推論 테스트에서 MI300X는 엔비디아 H100와 比較해 vLLM 모델 FP16 結果에서 最大 2.1倍 나은 性能을 보여주었다. AMD 인스팅트 MI300 시리즈는 델, 레노버 等主要 하드웨어 企業에서 採用했고, 마이크로소프트와 오라클度自社 클라우드에 MI300 시리즈 包含計劃을 發表했다.

한便 AMD가 넘어야 할 壁은 하드웨어가 아닌 소프트웨어에 있다. 엔비디아가 只今껏 市場을 先導해 온 背景은 十數年에 걸쳐 發展된 쿠다(CUDA) 基盤의 開發環境德分이다. 하지만 AMD는 2016年에 開發環境인 ROCm을 만들고, 2023年 7月이 되어서야 윈도우를 支援하는 等發展速度가 느리다. 그나마 AMD가 뒤늦게 AI 加速器의 윈도우 支援을 發表하고, 전사的으로 AI 生態系構成에 神經을 쓰면서 앞으로는 차츰 나아질 展望이다.

實際로 AMD의 2023年 4分期 데이터센터 部門賣出은 22億 8200萬 달러(約 3兆 1600億 원), 營業利益은 6億 6600萬 달러(藥 9158億 원)를 記錄했다. 이는 지난해 같은 期間對比 38% 增加한 數値인데, AMD 인스팅트 GPU 및 4世代 AMD 에픽 CPU 等이 影響을 미쳤다. AMD AI 加速器結果만 떼놓고 評價할 순 없지만, 조금씩 躍進하는 模樣새다.

인텔 가우디 3, 全方位的代案으로 注目받는 中

인텔 가우디 3 AI 가속기 주요 성능 요약 / 출처=인텔 — 인텔 가우디 3 AI 加速器主要性能要約 / 出處=인텔

인텔은 지난 4月 9日開催된 ‘인텔 비전’ 行事에서 가우디 2의 後續製品인 가우디 3 AI 加速器를 선보였다. 가우디 3는 全世帶對備 BF16(16비트 浮動小數點) AI 컴퓨팅에서 4倍, 메모리 帶域幅에서 1.5倍, 大規模 시스템 擴張을 위한 네트워킹 帶域幅이 2倍向上됐고, LLM 및 멀티모달 모델에서의 AI 推論性能을 크게 끌어올렸다. 하드웨어는 64個의 AI用 텐서 프로세서 코어(TPC)와 8個의 行列 곱셈 엔진(MME)으로 構成되며, 메모리는 128GB의 HBM2e으로 總 3.7TB의 메모리 帶域幅을 갖는다.

性能側面에서는 엔비디아 H100 對備 Llama 2-70B 및 130B, GPT-3 學習時間을 50% 줄였고, Llama 2 700B 모델에서 50% 더 빠른 推論과 40% 向上된 推論電力效率性을 갖춘다. 인텔 側은 가우디 3街 H100보다 더 나은 性能과 合理的인 總所有費用을 提供해 엔비디아 H100의 代案을 찾는 企業들이 關心을 끌 것으로 보고 있다.

엔비디아가 이기는 싸움이지만 ‘인텔 파운드리’는 變數

엔비디아는 올해 2分期中 H200 GPU를 納品하며, 中旬以後에는 GH200 그레이스 호퍼 슈퍼칩까지 내놓는다. 라인업 上 2025年에는 블랙웰 基盤의 B200 GPU와 GB200 그레이스 블랙웰 슈퍼칩까지 商用化한다. 인텔의 最新 AI 加速器人 가우디 3와 AMD MI300X가 이제 막 H100의 代案으로 提示되는 狀況에서 몇 手 먼저 앞서 나가는 셈이다. 이 隔差는 앞으로도 따라잡기 어려울 展望이다.

인텔 오리건 주 D1X 반도체 공장에 배치된 ASML 하이-NA EUV 장비 / 출처=인텔 — 인텔 오리건 州 D1X 半導體工場에 配置된 ASML 하이-NA EUV 裝備 / 出處=인텔

變數는 엔비디아와 AMD가 팹리스 企業인 反面, 인텔은 綜合半導體企業이라는 點이다. 팹리스는 直接半導體를 生産하지 않고 파운드리에 委託하고, 綜合半導體企業은 設計부터 生産까지 모두 直接 한다. 特히 인텔은 IDM 2.0 戰略을 통해 파운드리 事業을 主流로 내세우고, 지난 4月 17日(現地時刻)에는 2025年中 하이-NA EUV(高開口數極紫外線 노광기)를 活用해 인텔 14A(옹스트롬, 約 1.4나노미터 相當) 公正開發을 始作하겠다고 밝혔다.

인텔은 올해 말까지 18A 공정에 돌입하고, 2027년에 14A 공정을 상용화한다 / 출처=인텔 — 인텔은 올해 末까지 18A 工程에 突入하고, 2027年에 14A 工程을 商用化한다 / 出處=인텔

하이 NA EUV를 活用하면 旣存 EUV보다 1.7倍 더 섬세하게 印刷할 수 있고, 2D 擴張을 통해 半導體密度를 2.9倍까지 늘린다. 인텔은 렌즈 開口數가 0.33人 EUV와 0.55人 하이-NA EUV를 모두 使用할 豫定이다. 半導體는 나노工程單位가 尖銳化할수록 生産單價는 下落하고, 性能과 電力效率은 向上된다. 인텔이 只今은 가우디 3等主要半導體를 TSMC에 委託生産하고 있지만, 向後自社 AI 加速器에 最新工程을 導入한다면 飛躍的인 性能向上과 需要供給의 柔軟性, 單價 맞춤 等을 앞세워 市場雰圍氣를 바꿀지도 모른다.

엔비디아 GB200 그레이스 블랙웰 슈퍼칩 / 출처=엔비디아 — 엔비디아 GB200 그레이스 블랙웰 슈퍼칩 / 出處=엔비디아

勿論 엔비디아 GPU를 活用하는 많은 企業들이 굳이 쿠다 生態系를 내려놓고, 인텔, AMD를 選擇할 可能性은 낮다. 인텔과 AMD도 이 點을 認識해 經濟成果持續可能性, 需給의 安定等을 長點으로 내세우며 競爭한다. 앞으로도 이런 構圖는 變함이 없겠지만, 엔비디아가 虛點을 보인다면 언제든지 인텔과 AMD에게도 機會가 생길 수 있다. 特히 TSMC가 中國과 臺灣紛爭이라는 地政學的問題를 안고 있다는 點도 變數다.

加速 컴퓨팅 市場은 一般使用者가 接할 分野는 아니다. 하지만 AI PC나 LLM을 비롯한 다양한 技術이 大衆化할수록, AI 加速器를 비롯한 加速컴퓨팅 市場도 함께 發展한다. 또한 엔비디아 GPU의 높은 單價와 需給安定性으로 因해 代案을 찾는 목소리도 繼續 나오고 있다. 只今은 엔비디아가 市場의 單獨先頭로 나서고 있지만, 長期的으로는 인텔과 AMD를 비롯한 수많은 企業들이 빈자리와 代案을 채우며 成長할 것이다.

글 / IT東亞 남시현 (sh@itdonga.com)

#14A #AI加速器 #AI半導體 #AMD #GPU #HIGHNAEUV #NPU #가우디3 #半導體 #블랙웰 #엔비디아 #인스팅트 #인텔 #파운드리 #하이NAEUV