IT TurboQuantの仕組みを整理 PolarQuantとQJLでKVキャッシュを圧縮するGoogleの新手法 Googleは、大規模言語モデル(LLM)のメモリ消費量を最大6分の1に削減する新技術「TurboQuant」を発表しました。PolarQuantとQJLを組み合わせることで、精度を維持しつつKVキャッシュを3ビットまで圧縮します。本稿では、技術の概要と計算速度への影響について解説します。 2026.04.03 IT