TAG
1 posts tagged.
2025年3月25日、Google Researchが「TurboQuant」を発表した。LLMのKVキャッシュを3ビットまで圧縮し、メモリ使用量を6分の1に削減。NVIDIA H100での推論速度は最大8倍。精度損失はゼロ。インターネット...
Mar 26, 2026