Google

TurboQuantの仕組みを整理　PolarQuantとQJLでKVキャッシュを圧縮するGoogleの新手法

Googleは、大規模言語モデル（LLM）のメモリ消費量を最大6分の1に削減する新技術「TurboQuant」を発表しました。PolarQuantとQJLを組み合わせることで、精度を維持しつつKVキャッシュを3ビットまで圧縮します。本稿では、技術の概要と計算速度への影響について解説します。

Google「検索 Live」を日本で提供開始、カメラと音声で使う新しいAI検索とは

Googleは、スマートフォンのカメラ映像と音声を使ってAIに質問できる「Search Live」の日本語対応を開始しました。Googleアプリを通じて利用可能となり、カメラに映った対象物についてリアルタイムで対話や情報検索が行えます。本機能の概要や利用可能な環境について解説します。