TurboQuant: LLM’leri 6 kat hafifleten, 8 kat hızlandıran sıkıştırma
Google Research, TurboQuant ile LLM key-value cache belleğini en az 6x düşürüp 8x’e kadar hız kazandırdığını ve doğruluğu koruduğunu duyurdu.
Google Research, TurboQuant ile LLM key-value cache belleğini en az 6x düşürüp 8x’e kadar hız kazandırdığını ve doğruluğu koruduğunu duyurdu.