구글 리서치가 오는 4월 ICLR 2026에서 발표하게 될 터보퀀트라는 논문이 최근 아카이브에 먼제 공개되어 화제입니다. 얼핏 보면 그냥 또 하나의 컴퓨팅 아키텍쳐 혹은 메모리 최적화 기술처럼 보입니다. 특히 최근에 화두가 되고 있는 컨텍스트 메모리의 핵심인 KV 캐시를 압축한다, 그래서 메모리를 절약한다 같은 지점은 주목을 받을만 합니다. 구글 말고도 수많은 기업들은 메모리 장벽으로 인한 저주를 극복하기 위해 그야말로 온갖 기상천외한 방법들을 총동원하고 있는 상황에서는 더더욱 그렇습니다.그런데 이 논문은 생각보다 더 흥미롭습니다. 논문을 자세히 들여다보면, 그리고 메모리 산업의 관점에서 해석해보면 상당히 흥미로운 지점들이 보입니다. "이거 HBM 수요 파괴 아니냐?" 이렇게 생각할 수도 있는데요. 결론부터 말씀드리면, 그렇게 좋냐 안좋냐의 이분법으로 단순하게 판단할 수 있는 영향이 아닐 가능성이 높습니다. 오히려 메모리 업체들에게는 기회이자 동시에 위협, 두 가지가 오고 있는 셈이죠.
먼저 기술적인 부분부터 짚고 넘어가야 할 것 같습니다. 에이전트 AI에게 어떤 일을 지시하는 과정에서 사용자의 복잡한 맥락이 담긴 긴 문장의 프롬프트를 처리할 때 AI 입장에서 아마도 가장 큰 병목 중 하나는 바로 KV 캐시일 것입니다. 여기서 말하는 K와 V는 각각 key와 value를 의미합니다. 값이라고 했지만, 사실 엄청나게 큰 고차원 행렬, 즉, 텐서 형태의 데이터 덩어리입니다. AI는 이 KV 캐시를 GPU 코어 근처의 메모리에 저장해뒀다가 매번 필요할 때마다 참조하는 구조를 이용하여 사용자의 작업을 처리합니다. 당연히 입력 프롬프트의 문맥이 길어질수록 이 캐시 크기는 선형으로 증가합니다. 예를 들어 메타의 라마 700억개 파라미터 모델로 십만 토큰짜리 꽤 긴 문맥의 프롬프트를 처리하려면 일단 필요한 KV 캐시만 해도 벌써 수십 기가바이트가 필요합니다. 특히 엔비디아의 H100 같은 GPU를 기준으로 한다면 GPU 하나에 HBM이 80 GB 밖에 없으니, 배치 사이즈를 키우는 데 한계가 있는 겁니다.
이 문제를 해결하려면 두 가지 방법이 있습니다. 메모리 크기를 늘리거나, KV 캐쉬 크기를 작게 하거나. 전자를 따른다면 메모리 비용이 늘어나는 저주를 피할 수 없을 것입니다. 두번째는 어떨까요? 이미 있던 메모리를 그대로 활용하되, 체감상 훨씬 넓은 집처럼 활용할 수 있다면? 그러면 프롬프트가 잘려서 실행에 지장이 생길 가능성도 낮아질 것입니다. 그중 가장 확실한 방법이 있다면 아마 KV 캐시의 크기를 압축하는 것일 것입니다. 그래서 나온 게 KV 캐시를 양자화를 통해 압축하는 기술들이고, 이번에 구글이 야심차게 선보인 터보퀀트는 그 중에서도 상당히 독특한 접근법을 취합니다. 터보퀀트는 꽤 복잡합니다. 그렇지만 최대한 간략하게 설명해 보겠습니다. 이 아키텍쳐는 크게 두 단계로 작동합니다. 첫 번째가 polarquant이고, 두 번째가 QJL입니다. polarquant는 그 이름에서 알 수 있듯이 폴라, 즉, 극좌표 변환을 활용합니다. 공간 상에 점의 위치를 정확하게 특정하려면, x, y, z 좌표값 대신에, 원점으로부터의 거리인 알, x축에서 반시계 방향으로 몇 도나 틀어져 있는지에 대한 각도 theta, 마지막으로 높이 방향으로는 얼마나 올라갔나를 보여주는 제트 값으로 이루어진 것이 바로 이 극좌표입니다. 구글이 제시한 방법은 바로 이 KV 캐시를 일종의 고차원 벡터로 보고, 벡터에 내재된 수치를 각도와 크기로 분리해서 양자화하는 것입니다. 여기서 핵심은 블록별 정규화 오버헤드를 제거했다는 겁니다. 즉, 예전에 하던 반복작업을 상당히 줄일 수 있다는 것입니다. 기존 방식들은 매번 통계치를 계산해야 했는데, 터보퀀트는 데이터 독립적으로 작동합니다. 훈련도 필요 없고, 캘리브레이션도 필요 없습니다. 그러면 두 번째 단계인 QJL은 어떤 작업을 할까요? 그것은 바로 1비트 잔차, 즉, MSE 보정입니다. KV 캐시 벡터나 텐서 연산 중, 반복되는 내적이라는 연산이 있는데요, 이 연산 작업 추정을 비편향으로 만들어주는 역할을 담당하는 것이 바로 잔차 보정입니다. 구글의 QJL은 정확도 손실 없이 압축률을 끌어올리는 핵심 메커니즘으로 활용됩니다. 이 두가지 방법만으로 정말 메모리 크기는 그대로 두고, 훨씬 쾌적한 KV 캐시 메모리 활용이 가능할까요? 구글의 실험 결과는 어땠을까요?
우선 논문에 따르면 4비트 모드에서 H100 급 GPU 기준으로 메모리는 여섯배 이상으로 압축되고, 어텐션 연산은 여덟배나 빨라졌습니다. 혹시 그것이 정확도를 희생해서 얻어진 좀 왜곡된 결과는 아닐까? 하는 의심이 들 수도 있습니다. 그래서 구글은 벤치마크를 돌려봤습니다. 그 결과 Longbench에서 50.06점을 기록하기도 했죠. 이 점수는 FP32 베이스라인과 완전히 동일합니다. 즉, 분명 4비트 이하로 압축했는데도 32비트 정밀도를 가진 것 같은 품질 결과가 나온 것이죠. NIAH 테스트에서는 4천개부터 십만개가 넘는 토큰까지 백퍼센트 가까운 정확도를 유지하기도 했습니다. 구글이 제시하는 기술의 핵심은 기존 KIVI나 SnapKV, DuQuant 같은 압축 기술들과 비교해보면 차이가 명확합니다. 터보퀀트는 사전 훈련이 필요 없고, 비편향적이며, 무엇보다 2.5나 3.5비트 같이 4비트 이하까지 압축되기 때문에 압축률도 더 높습니다. 심지어 벡터 검색 같은 다른 응용에서도 기존 행렬곱 최적화나 RabbitQ보다 재현율이 높으면서 인덱싱 시간은 거의 제로에 가깝습니다. 이건 단순히 "메모리를 좀 아끼는 기술" 정도가 아닙니다. 추론 인프라의 경제성 자체를 바꿀 수 있는 기술이라는 겁니다. 메모리 활용 성능이 여섯배나 강화되었다면 반대로 생각하면 메모리 수요는 여섯배나 폭증할 이유가 없다는 뜻이 되기도 할테니까요.
현재 대규모 LLM 서비스의 가장 큰 비용 요인은 무엇일까요? 훈련 비용도 크지만, 실제로는 추론 비용이 장기적으로 훨씬 큽니다. GPT-4나 claude opus 4.6 같은 서비스들은 이십사시간 내내 수천 개의 GPU에서 추론을 돌리고 있기 때문입니다. 그런데 터보퀀트가 메모리를 1/6로 압축해준다는 건, 같은 GPU로 배치 사이즈를 6배 키울 수 있다는 의미이기도 합니다. 그게 곧 처리량 6배, 토큰당 비용1/6로 이어지는 거죠. 어텐션까지 8배 빠르니까 실제로는 4에서 8배 사이의 처리량 향상을 기대할 수 있을 겁니다. 이게 서비스 사업자 입장에서는 가격 경쟁력으로 이어지고, 최종 사용자 입장에서는 더 싼 값에 더 긴 문맥을 쓸 수 있게 되는 겁니다. 그럼 메모리 업체 입장에서는요? 사실 여기서부터가 진짜 복잡해집니다.
19세기 경제학자 윌리엄 스탠리 제본스가 발견한 역설이 있습니다. 석탄 효율이 올라가면 같은 에너지를 더 적은 석탄으로 만들어낼 수 있으니, 결과적으로는 석탄 소비가 줄어들 거라고 생각했는데, 실제로는 반대로 나타난 결과를 두고 나온 역설입니다. 에너지 효율이 올라가니까 석탄을 쓸 수 있는 곳이 더 많아지고, 결국 총 소비량은 오히려 늘어났다는 겁니다. 조금 더 쉬운 비유를 사용해 볼까요? 예전 고속도로에는 하이패스 대신 돈을 내며 통행하던 톨게이트가 있었습니다. 그래서 고속도로를 썡썡 달려도 결국 톨게이트에서 정체 현상이 생겼죠. 만약 이 톨게이트를 모두 하이패스로 대체하면 어떨까요? 훨씬 통행 속도가 빨라질 겁니다. 그러면 막힐까봐 짧은 거리 같은 경우는 고속도로를 굳이 이용하지 않으려던 운전자들도 단 몇 분이라도 아끼기 위해 고속도로로 더 많이 들어오려 할 것입니다. 그래서 결국 고속도로 통행량은 더 많아지게 되는 역설이 나타납니다. 터보퀀트와 메모리 사이의 관계를 보는 관점도 이와 크게 다르지 않습니다.
첫번째 레이어, 즉, 기본적인 수요 대체 효과부터 봅시다. 아마도 가장 직관적인 판단 요소일 것입니다. 만약 GPU 하나가 네 배나 더 많은 일을 할 수 있으면, 필요한 GPU 개수가 사분의 일로 줄어들 것이다. 그러면 그에 비례해서 HBM 수요도 줄어들 것이다. 이렇게 생각이 연결될 수도 있습니다. 사실 이론적으로는 크게 틀린 이야기가 아닐 수 있습니다. 하지만 현실에서는 메모리 수요 변동이 그렇게 단순하게 정보량 압축 효과에 비례하여 흘러갈 가능성이 높지 않습니다. 왜냐하면 추론 비용이 정말 사분의 일 이하로 낮아진다면, 지금까지 비용 때문에 못 쓰던 응용 작업, 예를 들어 긴 프롬프트나 여러 프롬트프를 동시에 돌리는 작업 같은, 다소 무리다 싶었던 작업을 돌리기 위해서라도, 터보퀀트 등으로 절약한 메모리를 사용하려 할 것이기 때문입니다. 오히려 절약한 메모리를 훨씬 초과하는 양으로 메모리에 대한 수요는 더 폭발적으로 늘어날 수도 있을 것입니다. 마치 하이패스로 무장한 고속도로가 훨씬 통행이 빨라질 것으로 기대하여 예상보다 더 많은 운전자들이 몰리는 상황과 비슷합니다. 그야말로 메모리 판 제본의 역설입니다. 실시간 코딩 어시스턴트, 더 전문화되고 개인화된 에이전트, 연속적인 다양한 멀티모달 데이터 분석 - 이런 작업들이 그냥 상상만하던 단계에서 전부 경제성을 확보하는 단계로 빠르게 진입하게 되는 것입니다. 그러면 사람들은 더 많은 일을 하게 될 것이고요. 그렇지 않아도 작년말-올해초부터 에이전트 AI 보급이 폭발적으로 이루어지고 있는데, 다들 토큰 맥시멈에 걸려서 답답해하는 상황을 생각해 본다면, 이러한 전환은 메모리 절약으로 더 늘어나면 늘어났지 줄어들지는 않을 것이라 예상할 수 있습니다. 결국 총 추론량은 4배 이상 늘어날 수 있고, 그러면 GPU 수요는 종합적으로는 오히려 증가합니다. 이게 첫 번째 레이어입니다.
두번째 레이어도 살펴 볼까요? 엔비디아가 최근 강조하는 ICMS, 즉, 맥락간 메모리 저장장치와 이를 뒷받침하기 위한 새로운 메모리 수직계열화 구조, 즉, G3.5층 메모리가 추가된 계층 구조가 바로 그것입니다. 엔비디아의 젠슨 황이 최근 계속 강조하는 개념이 있습니다. 이름하여 ICMS, 즉, Inference Context Management System이죠. 그리고 G3.5층 메모리 계층이라는 표현도 썼습니다. 여기서 G3.5층은 HBM과 시스템 DRAM 사이의 중간 계층을 의미하는데요, 기존에는 이걸 단순히 HBM에서 다 감당하지 못하는 "용량을 분산하여 보완하는 용도"정도로 봤습니다. HBM이 부족하니까 NAND나 DRAM의 CXL 메모리로 컨텍스트를 스왑하는 용도 등으로 말이죠. 그런데 구글의 터보퀀트 같은 기술이 나오면서 이 G3.5층의 의미가 바뀔 수도 있습니다. 여러 개의 인공지능 에이전트가 동시에 돌아가는 시스템을 생각해 보면 이것이 왜 중요한지 알 수 있습니다. 수십 개의 인공지능 에이전트가 각자 다른 문맥을 들고 있고, 작업 완료나 진행 타이밍도 다릅니다. 필요할 때마다 HBM에 접근하여 각자 원하는 만큼의 추론을 돌리는 에이전트들은 결국 제한된 메모리를 놓고 경쟁하게 될 수도 있는 구조입니다. 이때 G3.5층은 단순 메모리 스왑 공간을 제공해준다는 차원을 넘어, 아예 "문맥 교통정리, 즉, 실시간 맥락 오케스트레이션"의 핵심 계층이 될 수도 있는 것입니다. 구글의 터보퀀트 방식이 만약 정말 KV 캐시를 1/6로 압축하면, G3.5층에 저장할 수 있는 에이전트 숫자도 6배 늘어나는 셈입니다. 그런데 에이전트 숫자가 늘어나면 총 시스템 규모는 당연히 그만큼 늘어날 수도 있을 것입니다. 즉, GPU 하나 당 낸드 수요 자체는 줄어들 수 있지만, 전체 배치되는 시스템 개수는 늘어날 가능성이 높다는 뜻입니다. 따라서 메모리 수요는 더 늘어날 수도 있습니다. 이게 두 번째 레이어입니다.
세번째 레이어는 바로 Groq LPU와의 상보성입니다. 최근 젠슨황이 GTC 2026에서 선보인 Groq의 LPU 같은 추론 전용 가속기들은 어텐션 연산을 극도로 최적화된 구조를 취하지만 범용성은 GPU 보다 떨어집니다. 그래서 실제 컴퓨팅 아키텍쳐 배치에서는 젠슨황이 GTC에서 시연한 것처럼 GPU와 LPU가 연산 역할을 나누게 될 가능성이 높습니다. GPU는 복잡한 추론과 맥락 관리, LPU는 고속 어텐션과 토큰 생성 같은 방식이 그렇습니다. 그런데 만약 구글이 선보인 터보퀀트가 GPU 쪽 어텐션을 여덟배 빠르게 만들면 GPU와 LPU의 분업 균형점이 바뀌게 됩니다. GPU와 LPU는 경쟁 관계가 아니라 훌륭한 파트너라는 사실을 기억해 본다면, 균형점이 바뀌게 되는 것은 서로 제한된 연산 자원을 놓고 잡아먹으려는 무리한 경쟁을 벌이는 것이 아니라, 둘 다 더 개선된 토큰당 에너지 효율로 수렴하는 더 나은 경로를 찾게 된다는 뜻입니다. 결국 전체 파이가 커지면서 둘 다 더 많이 팔릴 수 있다는 겁니다.
이제 이 세 가지 레이어가 복합적으로 작용하면, 터보퀀트가 HBM 수요를 파괴하기는 커녕 오히려 전체 메모리 생태계를 확장시킬 가능성이 높다는 것은 어느 정도 이해하실 수 있을 것입니다. 그렇다면 도대체 구글의 이 기술이 삼성전자와 SK하이닉스 같은 거대한 메모리 제조사들에게 어떤 영향을 미치게 되는 것일까요? 양사는 이 기술의 전환을 어떻게 바라볼 수 있을까요? 전통적으로 범용메모리가 위주였던 메모리 반도체 사업에서 경쟁력을 결정하는 요소는 "얼마나 큰 용량을 얼마나 저렴한 원가로 만드느냐"였습니다. 그런데 AI 시대 들어서 이게 "대역폭 + 컴퓨팅 통합 플랫폼"으로 전장이 바뀌고 있습니다. 2026년 상반기부터 양산될 HBM4E 세대부터는 단순히 DRAM 스택만 수직 방향으로 쌓는 것이 능사가 아닙니다. 로직 다이를 어떻게 커스터마이징하느냐, PIM, 즉, Processing-In-Memory 같은 일부 하이브리드화된 연산 아키텍쳐를 어떻게 메모리 안에 통합하느냐 등이 핵심 기술 차별화 요소가 될 겁니다. 만약 터보퀀트 같은 메모리 압축 및 관리 기술이 AI 모델 개발사들, 클라우드서비스 사업자들에게 보편화되면, 이들이 메모리 메이커들에게 요청하는 요구사항이 추가됩니다. 바로 "양자화 인지형 메모리 압축/활용 알고리즘 맞춤형 메모리 하드웨어 구현"입니다. 지금 터보퀀트는 오로지 소프트웨어로 구현되어 있습니다. 아직 기존의 라마 같은 오픈소스와 통합되지도 않은 상태입니다. 그런데 이게 하드웨어 단계까지 내려오려면 어떻게 해야 할까요? 그리고 무슨 일이 벌어질까요? 터보퀀트의 핵심 비법이었던 폴라퀀트의 극좌표 변환으로 돌아가 보겠습니다. 이 변환 자체는 지극히 단순한 행렬 연산일 뿐입니다. 즉, 로직 다이에서 충분히 커버할 수 있는 연산입니다. 이를 로직 다이가 실시간으로 처리하고, 동시에 두번째 비법인 QJL 잔차 보정 같은 산술연산 역시 메모리 컨트롤러 레벨에서 지원하는 것이 필요해질 겁니다. 만약 메모리 메이커들이 이러한 연산 유닛을 베이스다이에서 충분히 지원할 수 있다면 어떨까요? 그러면 고질적 문제였던 메모리 장벽으로 인한 지연 시간은 조금 더 단축될 것이고, 그만큼 전력 효율은 더 올라갈 겁니다. 문제는 이게 단순한 표준 기능이 아니라는 것입니다. 모델마다, 데이터 분포마다, 지연시간 요구사항마다 최적의 양자화 전략이 다릅니다. 터보퀀트 기술 하나로 다 통용되지는 않을 것이고, 끊임없는 개선과 개조가 필요할 것이라는 뜻입니다. 메모리 제조사들이 이제는 "어떤 고객이 어떤 모델을 어떤 용도로 쓰는지"까지 고려해서 메모리를 설계해야 하는 시대가 온다는 뜻입니다.
그래서 이는 한국의 메모리 메이커들에게는 기회이기도 하고 동시에 위협이기도 합니다. 기회가 될 이유는 명확합니다. 차별화 여지가 엄청나게 커졌기 때문입니다. 단순히 "우리 HBM이 더 넓은 대역폭과 더 많은 용량과 더 빠른 속도를 가집니다"가 아니라 "우리 메모리는 당신 모델의 이 워크로드에서 토큰당 에너지를 이십 퍼센트 줄여줍니다. 정확도를 희생하지 않고도 지연 시간을 오십 퍼센트 이상 줄여줍니다" 라고 하면서 보다 AI 서비스 맞춤형으로 고객사들을 설득할 수 있게 되는 것입니다. 그러면 위협이 된다는 뜻은 무엇일까요? 위에서 고객 맞춤형으로 메모리 회사들이 변신할 수 있다고 했는데, 반대로 그렇게 못 하면 손바닥 뒤집히듯 위협이 됩니다. 현재 메모리 메이커들에게는 메모리 지연이 일종의 장애물이자 동시에 고객사들을 메모리에 붙잡아 두는 앵커 역할을 하기도 합니다. 그렇지만 고객사들의 인내심에도 한계가 있고 나날이 가격이 치솟는 메모리를 살 수 있는 자본력에도 아무리 Magnificent 7이라고 해도 한계가 있을 것입니다. 어느 시점부터는 구글의 터보퀀트 같은 메모리 절약 방식 뿐만 아니라 온갖 메모리 압축-재활용-양자화-코어 통합 방법론을 들고 나오는 고객사들이 더 많이 출현할 것입니다. 만약 실시간으로 강화되는 고객들의 치밀한 기술적 요구 조건을 제때 맞춰주지 못하면 그 고객사들은 그를 조금 더 잘 대처해줄 다른 메모리 메이커를 찾아갈 수도 있을 것입니다. 메모리 회사가 이제는 구글 아키텍처를 포함한, 고객사들 맞춤형 설계에 대응할 수 있는 사실상 AI 칩 회사로 변신해야 한다는 겁니다. AI 모델 기저에 깔린 알고리즘은 물론 소프트웨어 스택도 이해해야 하고, 모델 아키텍처를 알아야 하고, 정밀도에 유연하게 대처도 해야 하고, 반복되는 변환이나 잔차 처리 같은 요소는 아예 알아서 로직 다이에서 쥐도새도 모르게 처리해줄 수도 있어야 한다는 뜻입니다. 심지어 이 고객사가 이렇게 절약한 메모리로 멀티모달 처리를 할 것이다 라는 응용 시나리오까지 파악해야 할 지도 모릅니다. 이는 전통적인 메모리 사업과는 완전히 다른 역량 세트를 의미합니다. 그리고 여기서 뒤처지는 순간, 단순 범용 메모리 하청업체로 전락할 위험이 있는 겁니다. 듣기만해도 쉽지 않다는 것을 느끼실 것입니다.
구글의 터보퀀트는 아직 정식으로 ICLR에서 발표되지는 않고, 아카이브에 논문만 선공개 되었습니다. 그리고 아직 공식 오픈소스가 나오지 않았습니다. Llama.cpp 소스와의 통합 논의는 진행 중인 것으로 알려져 있습니다. 업계의 예상으로는 2026년 2분기쯤 오픈소스가 나오고, 4분기쯤 상용화가 시작될 것으로 보입니다. 그때쯤이면 HBM4E 양산도 시작되고, PIM 통합 메모리들도 시장에 나오기 시작할 것입니다. 타이밍이 절묘하게 맞아떨어지는 셈입니다.
그래서 삼성전자와 SK하이닉스가 2026년 상반기에 어떤 선택을 하느냐가 아마 향후 5년의 경쟁력을 결정할 가능성이 높습니다. 지금까지 취해왔던 Cache-SRAM-HBM-DRAM-NAND 같은 보수적 수직 계열화에 치중하며 범용 메모리 양산 규모 확장에 집중할 것인가? 아니면 공격적으로 메모리 중심의 AI 특화 플랫폼 사업자로 변신할 것인가? 단언하기 어렵습니다만, 반도체 업계의 지난 수십 년간의 변신의 역사를 보면, 이제 범용 메모리 메이커들도 더 이상 변신을 미루기 어려운 상황에 도달한 것은 부인할 수 없는 사실이라고 생각합니다. 그리고 재차 강조드립니다만, AI 반도체 특화 메모리에서 발생할 제본스 패러독스를 잊지 말아야 합니다. 효율이 올라가면 수요가 줄어들기는 커녕, 폭발하는 경로로 진화한다는 것 말입니다. 이게 정말 시장의 흐름을 읽는 또 다른 중요 변수가 될 것입니다. 구글의 터보퀀트는 메모리 수요를 파괴하는 게 아니라, 메모리 산업의 게임 룰을 바꾸는 기술이라고 보는 것이 타당할 것입니다. 결국 핵심은 메모리를 팔던 회사가 이제는 "지능형 메모리 중심 AI 컴퓨팅 솔루션"을 팔아야 하는 시대가 왔다는 것이고, 종국에는 먼저 준비된 쪽이 이기는 게임이 될 것입니다.