LLM

TurboQuantの仕組みを整理　PolarQuantとQJLでKVキャッシュを圧縮するGoogleの新手法

Googleは、大規模言語モデル（LLM）のメモリ消費量を最大6分の1に削減する新技術「TurboQuant」を発表しました。PolarQuantとQJLを組み合わせることで、精度を維持しつつKVキャッシュを3ビットまで圧縮します。本稿では、技術の概要と計算速度への影響について解説します。