Googleが精度を落とさずAIメモリを縮小—しかし落とし穴がある

概要

Googleは、TurboQuantアルゴリズムが推論中に精度を損なうことなく、AIメモリのボトルネックを少なくとも6分の1に削減できると発表しました。
論文が公開された後、Micron、Western Digital、Seagateなどのメモリ関連株が下落しました。
この手法は、モデルの重みではなく推論メモリを圧縮するもので、研究ベンチマークでのみテストされています。

Google Researchは水曜日にTurboQuantを発表しました。これは、精度のゼロロスを維持しながら、推論メモリのボトルネックを少なくとも6倍縮小する圧縮アルゴリズムです。

この論文はICLR 2026での発表が予定されており、オンラインでの反応は即座でした。

Cloudflare CEOのMatthew Princeは、これをGoogleのDeepSeekモーメントと呼びました。Micron、Western Digital、Seagateを含むメモリ関連株価は同日下落しました。

これは本物なのか？

量子化効率はそれ自体が大きな成果です。しかし、「精度のゼロロス」には文脈が必要です。

TurboQuantは、KVキャッシュ—言語モデルが会話中に記憶する必要があるすべてを保存するGPUメモリのチャンクをターゲットにしています。

コンテキストウィンドウが数百万トークンに向かって成長するにつれて、これらのキャッシュはセッションごとに数百ギガバイトに膨れ上がります。それが実際のボトルネックです。計算能力ではなく、生のメモリです。

従来の圧縮方法は、数値を丸めてこれらのキャッシュを縮小しようとします。例えば、32ビット浮動小数点数から16、8、4ビット整数へと。より理解しやすくするために、画像を4KからフルHD、720pなどに縮小することを考えてください。全体的には同じ画像であることは簡単にわかりますが、4K解像度ではより詳細が見えます。

問題は、モデルが愚かにならないように、圧縮データと一緒に追加の「量子化定数」を保存する必要があることです。これらの定数は値ごとに1〜2ビットを追加し、利益を部分的に侵食します。

TurboQuantは、このオーバーヘッドを完全に排除すると主張しています。

これは2つのサブアルゴリズムを介して行われます。PolarQuantはベクトルの大きさと方向を分離し、QJL（Quantized Johnson-Lindenstrauss）は残った小さな残差誤差を取り、それを正または負の単一の符号ビットに減らし、保存される定数はゼロです。

その結果、Googleによれば、トランスフォーマーモデルを駆動するアテンション計算のための数学的に不偏推定量となります。

GemmaとMistralを使用したベンチマークでは、TurboQuantは4倍圧縮下でフル精度のパフォーマンスと一致し、104,000トークンまでのneedle-in-haystackタスクで完璧な検索精度を実現しました。

これらのベンチマークがなぜ重要かという文脈では、品質の損失なしにモデルの使用可能なコンテキストを拡張することは、LLM展開における最も困難な問題の1つでした。

さて、細かい注意事項です。

「精度のゼロロス」は、推論中のKVキャッシュ圧縮に適用されます—モデルの重みには適用されません。重みの圧縮は、まったく異なる、より困難な問題です。TurboQuantはそれらには触れません。

圧縮されるのは、セッション中のアテンション計算を保存する一時メモリであり、そのデータは理論的に再構築できるため、より寛容です。

また、クリーンなベンチマークと数十億のリクエストを処理する本番システムとの間にはギャップがあります。TurboQuantは、オープンソースモデル—Gemma、Mistral、Llama—でテストされましたが、Google自身のGeminiスタックを大規模にテストしたわけではありません。

DeepSeekの効率向上が最初から組み込まれた深いアーキテクチャ上の決定を必要としたのとは異なり、TurboQuantは再トレーニングや微調整を必要とせず、ランタイムオーバーヘッドは無視できると主張しています。理論的には、既存の推論パイプラインに直接導入できます。

それがメモリハードウェアセクターを動揺させた部分です—なぜなら、本番環境で機能すれば、すべての主要なAIラボは、すでに所有している同じGPUでより効率的に動作するからです。