반도체 기술 패러다임은 전방 IT 산업 트렌드와 발맞춰 변해왔다. 데스크톱 시대는 ‘x86’을 앞세운 인텔의 호황기였다. 스마트폰이 일상에 자리 잡은 뒤에는 단순명령체계(RISC) 기반 ARM이 패권을 잡았다. 이후 인공지능(AI)이 일상에 파고들며 반도체 패러다임은 또 한 번 진화 중이다. 3번째 물결을 이끄는 건 그래픽처리장치(GPU) 한 우물을 판 엔비디아다. 미국 투자은행 TD코웬은 지난 5월 리포트에서 2030년까지 AI 칩 부문에서 엔비디아 GPU가 90%대 점유율을 유지할 것으로 내다봤다.
도통 이해가 안 될 정도다. 당장 스마트폰 시장을 보자. IBM과 노키아로 개화했지만 후발 주자인 애플과 삼성전자가 이들을 대체했다. 현재는 화웨이와 샤오미 등 중국 업체까지 가세해 경쟁한다. 그런데 AI 칩 부문은 온갖 빅테크가 자체 AI 칩(ASIC·주문형반도체) 개발에 뛰어들었지만 기술 격차를 좁히지 못했다. ASIC 진영에서 일종의 ‘항복 시그널’이 나올 정도다. 반도체 업계 전설이자 AI 칩 스타트업 텐스토렌트(Tenstorrent) 최고경영자인 짐 켈러는 지난해 말 블룸버그 인터뷰에서 “AI 칩 시장이 워낙 큰 만큼 작은 점유율로도 의미 있는 성과를 낼 수 있다”고 말했다. ASIC 진영이 엔비디아 GPU 정면 대결이 아닌 니치 마켓 공략으로 방향을 튼 것이다.

아무도 관심 없던 AI GPU
20년 갈고닦은 엔비디아
컴퓨터에는 다양한 계산 장치가 있다. 그중 대표적인 게 CPU(중앙처리장치)와 GPU다. 둘의 역할은 명확하게 구분된다. CPU는 말 그대로 컴퓨터의 두뇌다. 복잡한 일 처리 등을 커버한다. CPU는 명령어가 입력된 순서대로 데이터를 해결한다. 순차적(Sequential) 처리 형태다. 그래서 한 가지 문제가 생긴다. 중요한 일 사이에 낀 자잘한 일도 순차적으로 푸느라 시간을 낭비한다는 점이다. 쉽게 말해 대학교 수학과 교수가 1+1 같은 기초 계산을 하느라 정작 중요한 일을 못하는 꼴이다. 이를 돕기 위해 등장한 게 GPU다. 상대적으로 CPU와 비교해 멍청하지만 여러 개의 쉬운 계산은 훨씬 빠르게 처리한다. 병렬적(Parallel) 처리 방식에 특화됐기 때문이다. CPU가 교수 1명이라면 GPU는 조교 100명인 꼴이다.
이 같은 GPU 시장을 연 건 2000년대 초반 엔비디아와 AMD다. 다만 GPU를 대하는 두 기업 태도와 방향성은 전혀 달랐다. 엔비디아는 GPU 한 우물만 팠다. GPU가 단순 보조를 넘어 HPC(고성능연산)에 활용할 수 있다고 내다봐서다.
반면 AMD는 CPU와 GPU를 병행했다. GPU는 단순 보조로만 판단해 CPU 개발에 힘썼다. 당시만 하더라도 이를 지적하는 이는 없었다. 오히려 엔비디아가 이상한 기업이었다. CPU가 메인 시장이고 GPU는 니치 마켓이었기 때문이다. 돌아보면 현재 엔비디아의 압도적 기술 우위는 당연한 결과물이다. GPU 시장 경쟁자는 AMD 한 곳뿐인데 그마저도 GPU 개발을 꾸준히 이어온 건 아니기 때문이다.
더군다나 엔비디아는 GPU의 AI 활용 가능성을 가장 먼저 확인한 기업이다. 2012년 알렉스넷 사건이 전환점이 됐다. 캐나다 컴퓨터 과학자 알렉스 크리제브스키는 GPU로 이미지를 분류하는 AI인 알렉스넷(Alexnet) 딥 러닝을 진행했다. 알렉스넷은 엔비디아가 만든 2개의 GPU만으로 데이터 학습을 훈련했다. 일반 칩에선 수개월 걸리는 작업이 엔비디아 GPU로는 단 며칠밖에 걸리지 않았다. 엔비디아는 즉시 AI용 GPU 개발에 착수했다. 2014년 전담 조직도 만들었다. 2016년을 기점으로는 모든 제품을 AI향으로 만들겠다고 선언했다. 젠슨 황 엔비디아 최고경영자(CEO)는 수년 뒤 GTC와 MIT 테크 리뷰 등에서 “알렉스넷을 기점으로 딥러닝이 우리의 가장 중요한 워크로드(작업)가 될 것이라고 확신했다”고 당시를 회상했다.


추론 시대도 엔비디아 선점
압도적 HW에 ‘최적화 SW’ 더해
AI 시장은 크게 학습(Learning)과 추론(Inference)으로 구분된다. 학습은 수많은 데이터를 입력해 AI 모델을 가르치는 과정이다. 추론은 학습 데이터를 바탕으로 결과물을 도출하는 단계다. 엔비디아 GPU는 학습에 최적화됐지만 추론에선 비효율적이라는 지적을 받아왔다. 이유는 단순하다. 학습과 추론이 추구하는 방향성이 달라서다. 학습은 고도의 대규모 병렬 연산이 핵심이다. 반면 추론의 핵심은 지연시간(latency) 최소화다. 계산이 적은 만큼 빠르게 처리하는 게 중요하다. 이 때문에 구글과 빅테크는 공식적인 자리에서도 “GPU는 추론에 맞지 않는 과잉 스펙”이라며 자체 칩을 개발하겠다는 의지를 드러냈다.
하지만 엔비디아 블랙웰 아키텍처 기반 GPU(B100, B200 등) 출시를 기점으로 ‘추론도 엔비디아’ 공식이 굳어지는 분위기다. 블랙웰 기반 GPU는 이전(호퍼 시리즈)과 달리 추론에 초점이 맞춰졌다.
젠슨 황 CEO는 올해 초 GTC 2025에서 “블랙웰은 AI 학습뿐 아니라 추론을 고려해 설계된 제품으로 전작인 호퍼 대비 추론 성능이 25배 더 뛰어나다”고 말했다. 블랙웰의 추론 최적화를 가능하게 만든 건 엄청난 하드웨어 성능이다. 이에 더해 TensorRT-LLM 등 소프트웨어 추론 엔진의 힘도 덧붙여졌다.
TensorRT-LLM은 GPU가 더 빠른 추론 연산이 가능하도록 돕는 소프트웨어다. 비유하자면 일종의 자동 튜닝 장치다. GPU가 슈퍼카라고 가정해보자. 일반 연료나 타이어로는 제 성능을 이끌어낼 수 없다. 하지만 TensorRT-LLM는 자동으로 어울리는 타이어와 연료 등을 조정한다. 같은 GPU라도 TensorRT-LLM 적용 여부에 따라 2~4배 차이가 발생한다. 엔비디아는 TensorRT-LLM를 오픈소스 커뮤니티 깃허브에 배포하며 “LLM을 GPU에서 빠르게 실행할 수 있도록 도와주는 ‘쉽고 강력한 도구 세트’ ”라고 설명했다.
증권가에선 블랙웰 등장 이후 ASIC가 설 자리가 없다는 말까지 나온다. 박제민 SK증권 애널리스트는 “ASIC 침투 가능성은 제한적”이라며 “엔비디아의 차세대 모델 선적까지 이어질 경우 초기 추론 시장은 엔비디아 독점이 될 가능성이 크다”고 말했다.
엔비디아는 GTC 2025(개발자 AI 콘퍼런스)에서 올해 하반기 추론 기능을 강화한 블랙웰 울트라 아키텍처 기반 B300 GPU 출시 소식을 밝힌 바 있다. B200과 비교하면 추론 연산 성능(FP8 기준)은 1~2배 개선된다. 지금도 B200은 ASIC 진영에서 가장 눈에 띄는 제품인 구글 TPU 등과 비교해 압도적인 성능을 자랑한다. 미국 전기전자공학회가 발행하는 기술 매체 ‘아이트러플이(IEEEE) 스펙트럼’에 따르면 B200은 기존 H100과 비교해 질의응답 테스트(LLM Q&A) 능력이 2.5배 개선됐다. 반면 구글 TPU v6e는 H100 대비 절반 수준에 그쳤다.

엔비디아 생태계 ‘록인 효과’
추론에서도 쿠다 포기 안 해
AI 칩 패권 배경은 이게 끝이 아니다. 경쟁자들이 하드웨어 퀄리티를 따라잡더라도 패권을 넘겨받을지 장담할 수 없다. 엔비디아의 진짜 힘은 통신·소프트웨어를 바탕으로 한 폐쇄형 생태계이기 때문이다.
20년 전만 해도 GPU를 고성능 연산에 쓰는 이는 많지 않았다. 일부 개발자들이 편법으로 GPU의 병렬 특징을 활용해 연산에 썼을 뿐이다. 다만 이를 위해선 OpenGL 등 복잡한 툴을 써야 했다. ‘니치 마켓(틈새수요)’을 포착한 엔비디아는 2006년 이들을 위한 선물을 내놓는다. GPU가 가진 병렬성(동일한 시간에 동시 작업)을 각종 연산 작업에 활용할 수 있도록 돕는 소프트웨어 플랫폼을 선보인 것. 바로 ‘쿠다(CUDA)’다.
엔비디아는 모든 걸 무료로 배포했다. 다만 쿠다에는 한 가지 ‘구동 조건’이 있다. 엔비디아 GPU 단독 호환이다. 록인 효과를 위한 소프트웨어였던 셈. 19년이 지난 현재 쿠다는 연산을 넘어 AI 개발을 위한 ‘필수재’가 됐다. AMD와 인텔이 각각 ROCm과 oneAPI를 내놨지만 쿠다 이탈률은 미미하다. 플랫폼 이동 시 그간 쌓인 라이브러리를 포기해야 하고 해당 플랫폼들이 쿠다 수준의 최적화를 보장하는 것도 아니기 때문이다. 마치 아이폰을 쓰던 사람은 계속 아이폰을, 갤럭시를 쓰는 사람은 계속 갤럭시를 쓰는 ‘관성 작용’과 같다.
일각에선 쿠다가 학습 부문에서는 강점이지만 추론 부문에선 약점이 된다고 말한다. 쿠다는 일종의 물류센터 관리자다. 예를 들어 처리해야 하는 1000개 데이터가 있다고 치자. 쿠다는 1000개의 데이터를 받아들여 이를 각각의 GPU 코어에 분배하는 역할을 맡는다. 처리해야 하는 데이터가 적은 대신 속도가 빨라야 하는 추론 부문에선 쿠다가 병목 현상을 유발할 수 있다는 말이 나오는 배경이다. 쿠다를 한번 거쳐야 하기 때문이다.
엔비디아는 이 같은 지적에도 쿠다를 포기하지 않았다. 오히려 쿠다를 업그레이드했다. 추론 부문에 어울리게 소프트웨어를 최적화한 것. 대표적인 게 앞서 언급된 TensorRT-LLM 등을 쿠다에 적용시킨 사실이다. 비유하자면 쿠다가 관리하는 물류센터에 추론 전용 하이패스 도로를 만들어준 형태다.
엔비디아 생태계를 만드는 또 다른 요소는 통신(네트워크) 기술이다. AI 네트워크는 크게 ① 서버 내부 연결 ② 서버 외부 연결 두 가지로 나뉜다.
내부 연결은 컴퓨터 반도체와 부품 등을 연결하는 형태다. NV링크는 이를 돕는 일종의 직거래다. 기존엔 GPU와 GPU가 서로 데이터를 교환하려면 반드시 CPU를 거쳐야 했다. 하지만 NV링크 덕분에 GPU끼리 바로 교환할 수 있다.
외부 연결은 데이터센터 내 서버와 서버 간 연결을 의미한다. 엔비디아는 인피니밴드(InfiniBand) 기술을 활용한다. 인피니밴드의 핵심 콘셉트는 ‘RDMA’와 ‘데이터 손실 최소화’다. 서로 다른 서버를 CPU 중개 없이 연결해 속도를 개선하면서도 데이터 손실은 최소화한다. NV링크와 인피니밴드 등 네트워크 기술은 쿠다와 함께 엔비디아 생태계 구축에 큰 힘이 됐다. 젠슨 황 CEO가 직접 “엔비디아 GPU의 해자(moat)는 쿠다와 NV링크 네트워킹이 구축한 거대한 장벽 덕분”이라고 말할 정도다.
다만 올해 들어 달라진 행보도 감지된다. 해자를 만든 거대한 장벽 일부를 허물고 있다. 최근 엔비디아는 NV링크 퓨전을 내놨다. 기존 엔비디아 GPU로 한정된 영역을 ASIC으로 확대한 구조다. IT 업계는 “ASIC도 엔비디아 생태계에 종속될 수밖에 없도록 판을 짜는 것”이라고 평가한다. 추론 부문에서 ASIC가 AI 칩 부문에서 GPU 점유율을 일부 빼앗더라도 결국 엔비디아 생태계를 거쳐야 하게 만들 것이란 분석이다. NV링크를 넘어서는 네트워크 기술이 없다는 점을 감안하면 설득력 있는 해석이다.
[최창원 기자 choi.changwon@mk.co.kr]
[본 기사는 매경이코노미 제2319호 (2025.07.23~07.29일자) 기사입니다]
[Copyright ⓒ 매경이코노미. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지.]
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]