Google TurboQuant「メモリ6分の1」— HBMスーパーサイクルは揺らぐのか

2025年3月25日、Google Researchが「TurboQuant」を発表した。LLMのKVキャッシュを3ビットまで圧縮し、メモリ使用量を6分の1に削減。NVIDIA H100での推論速度は最大8倍。精度損失はゼロ。インターネットではHBOドラマ『シリコンバレー』の架空の圧縮アルゴリズム「Pied Piper」が現実になったと騒然となった。
だが、市場の反応は祝祭ではなかった。発表翌日、Samsung Electronics −4.8%、SK Hynix −5.9%。KOSPIの下落率上位に両社が並んだ。投資家の計算はシンプルだった——「AIがメモリを6分の1しか使わないなら、HBMも6分の1で済むのでは?」
この記事では、その「シンプルな計算」がなぜ間違っているのか、そしてTurboQuantの本当の衝撃波がどこに向かうのかを解剖する。
TurboQuantの正体 —「圧縮」は何を圧縮するのか
AIが長い会話を続けるには、過去に計算した中間値(Key-Valueキャッシュ)をGPUメモリ上に保持し続ける必要がある。会話が長くなるほどこのキャッシュは指数的に膨れ上がる——モデルが「物忘れなく記憶を維持するためのコスト」だ。
TurboQuantが圧縮するのは、まさにこのKVキャッシュだけだ。構造は2段階。まずPolarQuantが高次元ベクトルを極座標系に変換し、分布が均一化された状態で3〜4ビットに量子化する。次にQJL(Quantized Johnson-Lindenstrauss)が量子化誤差をわずか1ビットの符号情報で補正する。学習もファインチューニングも不要。すでにデプロイ済みのモデルにそのまま適用できる。
ここが核心だ——TurboQuantが削減するのは「GPU上のキャッシュメモリ」であって、GPU自体でもHBM自体でもない。
株価が落ちた本当の理由 — 投資家が見落としたもの
SamsungとSK Hynixの株価が下がったロジックはこうだ。「メモリ使用量6倍減 → HBM需要減少 → メモリスーパーサイクル終了」。だが、この等式には1865年から繰り返されてきた落とし穴が潜んでいる。
経済学ではこれを「ジェヴォンズ・パラドックス(Jevons Paradox)」と呼ぶ。資源の効率が上がると消費が減るのではなく、用途が拡張されて総消費量がむしろ増加する現象だ。石炭効率が向上すると石炭使用量が爆増し、JPEGが画像を圧縮するとインターネットの画像トラフィックは爆発した。H.264が動画を圧縮すると、ストリーミングの時代が開幕した。
実際、TurboQuant発表直後、複数のアナリストがまさにこのパラドックスを引用した。
「パニックに陥るな。需要はむしろ増える」— 複数アナリスト(Futunn、2026年3月26日)
KVキャッシュが6分の1に縮めば、同じGPUで6倍長いコンテキストを処理するか、6倍多いユーザーを同時にサービングできる。これはコスト削減ではなく、能力拡張だ。そして能力が拡張されれば、例外なく新たな需要が爆発する。
HBMスーパーサイクルの「体力」
数字で確認してみよう。Bank of Americaは2026年のHBM市場規模を546億ドルと推定する。前年比+58%。SK HynixのHBMグローバルシェアは62%、MicronがSamsungを抜いて2位に浮上した。そして2026年のHBM生産分は、すでに全量完売している。
HBM需要の本質は「容量」ではなく「帯域幅」にある。AIアクセラレータがHBMを搭載する理由は、データを大量に保存するためではなく、データを高速に読み書きするためだ。TurboQuantがキャッシュ容量を減らしても、GPUとメモリ間の帯域幅需要はモデルが大型化するほど上がり続ける。
「AI推論のリアルタイムメモリ需要は約750PB、冗長構成を含めると約1.5EBに達する」— SemiAnalysis、2026年
これはアルゴリズムひとつで相殺できるスケールではない。SK Hynixが先週ASMLに80億ドル規模のEUV装置を発注し、米国ADR上場を推進しているのは、この数字を見て下した判断だ。
工場の現場にとっての「本当の意味」
ではTurboQuantの本当の受益者は誰か。データセンターではなく、エッジ——つまり現場だ。
発表からわずか数時間で、独立系開発者が論文の数学だけを頼りにPyTorch実装を構築した。RTX 4090一枚でGemma 3 4Bモデルを動かし、2ビット圧縮でも原文と文字単位で同一の出力を確認している。MLX(Apple Silicon)やllama.cpp(C/CUDA)の実装もすでに登場した。
これが意味するところは明確だ。データセンター級のハードウェアなしに、コンシューマ向けGPUだけで大型モデルの推論が可能になる。熊本の中小製造業者が、クラウド費用なしにローカルで外観検査AIや設備異常予知を稼働させられるようになるということだ。
HBMスーパーサイクルはデータセンターの物語だ。TurboQuantが開くのはその外側——工場の現場、病院、物流倉庫でAIが「当たり前のツール」になる世界である。
参考資料
- Google Research Blog — TurboQuant: Redefining AI efficiency with extreme compression
- TechCrunch — Google unveils TurboQuant, a new AI memory compression algorithm
- VentureBeat — Google's new TurboQuant algorithm speeds up AI memory 8x
- Tom's Hardware — Google's TurboQuant compresses LLM KV caches to 3 bits
- KED Global — Google's TurboQuant spooks investors into dumping Samsung, SK Hynix shares
- Futunn — Analysts invoke Jevons Paradox: Don't panic, demand will only increase
- SK Hynix — 2026 Market Outlook: HBM to Fuel AI Memory Boom
techandchips
techandchips provides AI solutions for manufacturers in the Kumamoto semiconductor cluster. We support equipment monitoring, predictive maintenance, and traceability for TSMC supply chain compliance.