구글이 쏘아올린 터보퀀트, HBM 수요는 정말 꺾이는 걸까
구글이 터보퀀트를 발표하자마자 HBM 관련주가 일제히 흔들렸습니다. AI 모델이 메모리를 덜 쓰게 되면 고대역폭 메모리의 핵심 수요처가 사라지는 것 아니냐는 공포였습니다. 그런데 그 논리, 끝까지 따라가 보면 생각보다 단순하지 않습니다.
HBM이 뭐길래 이렇게 민감하게 반응했나
HBM(고대역폭 메모리)은 AI 연산의 속도를 결정하는 핵심 부품입니다. 엔비디아의 H100 같은 AI 가속기 안에 탑재되어, 방대한 양의 데이터를 GPU 연산 코어에 빠르게 공급하는 역할을 합니다. 쉽게 말하면 AI의 두뇌(GPU)에 산소(데이터)를 공급하는 혈관과 같습니다.
SK하이닉스와 삼성전자는 이 HBM 시장에서 세계 최상위 공급자입니다. AI 붐이 거세질수록 HBM 수요도 함께 폭발적으로 늘어왔기 때문에, 두 회사의 주가는 사실상 AI 시장의 온도계 역할을 해왔습니다.
그러니 구글이 터보퀀트를 발표하며 AI 메모리 사용량을 획기적으로 줄일 수 있다고 밝히자, 시장이 즉각 반응한 것은 어찌 보면 당연한 흐름이었습니다. SK하이닉스는 당일 6.23%, 삼성전자는 4.71% 하락했고, 미국 마이크론도 고점 대비 17% 가까이 빠졌습니다.
터보퀀트와 HBM의 관계
여기서 짚어야 할 중요한 구분이 있습니다. 터보퀀트는 AI 모델이 답변을 생성하는 추론과정에서 임시로 쓰는 기억공간, 즉 KV 캐시를 압축하는 기술입니다. 결과적으로 메모리 사용량을 이론적 최대치 기준 6배까지 줄일 수 있다는 것이 구글의 주장입니다.
그런데 이 6배라는 수치는 32비트 환경 대비 이론값으로 알려지고 있습니다. 실제 AI 현장에서 주로 사용하는 8비트 환경 기준으로는 실질 효율 개선이 약 2.6배 수준으로 낮아집니다. 시장이 처음 반응할 때 이 차이를 구분하지 않았다는 점에서, 초기 주가 하락에는 감정적 과잉 반응이 포함되어 있다는 말이 나오고 있습니다.
더 중요한 것은, 터보퀀트가 압축하는 KV 캐시는 추론 과정의 단기 임시 메모리입니다. HBM이 핵심적으로 활용되는 구간은 이보다 훨씬 넓습니다. 모델 학습, 대규모 배치 처리, 멀티모달 연산 등 HBM의 역할은 KV 캐시 하나로 설명되지 않습니다.
수요가 줄기는커녕 오히려 늘어나는 계기?
효율이 좋아지면 수요가 줄어든다는 논리는 직관적으로 맞아 보이지만, 기술 역사는 반대의 사례로 가득합니다. 경제학에서 말하는 제번스의 역설이 바로 이 상황에 적용됩니다. 19세기 석탄 엔진의 효율이 높아지자 석탄 소비는 줄어드는 것이 아니라 오히려 폭발적으로 증가했습니다. 비용이 낮아지면 이전에는 엄두도 내지 못했던 새로운 수요가 열리기 때문입니다.
AI 칩 효율화 경쟁
터보퀀트 외에도 비슷한 흐름은 동시에 여러 곳에서 진행 중입니다. MIT는 캐시를 최대 50배까지 압축하면서 정확도를 유지하는 어텐션 매칭기술을 공개했습니다. PagedAttention은 메모리 낭비를 80%에서 4% 미만으로 줄여 처리량을 2~4배 향상시켰습니다.
클라우드플레어 CEO 는 이 상황을 딥스크를 빗대어 딥시크의 순간 이라고 불렀습니다. 하드웨어를 무한정 늘리는 방식이 아니라 소프트웨어 최적화로 물리적 한계를 돌파하는 방식이 새로운 표준이 되었다는 의미입니다.
이 흐름이 HBM 생태계에 던지는 메시지는 분명합니다. 단순히 용량이 크고 속도가 빠른 메모리를 공급하는 것만으로는 충분하지 않게 되었다는 것입니다. 소프트웨어 최적화 알고리즘과 궁합이 맞는 하드웨어 방향으로의 전환이 SK하이닉스와 삼성전자 모두에게 실질적인 과제로 떠오르고 있습니다.
터보퀀트 이슈는 오히려 AI 대중화의 속도가 빨라질수록 전체 메모리 시장의 파이는 커질 가능성이 높습니다. 단순 용량 경쟁에서 벗어나 소프트웨어 최적화를 하드웨어 차원에서 흡수할 수 있는 설계 역량이 필요한 시점입니다.
