TurboQuant: LLM’leri 6 kat daha hafif, 8 kat daha hızlı yapan hamle
Google Research’ün TurboQuant’ı LLM key-value cache belleğini en az 6 kat azaltıp 8 kata kadar hızlanma vadediyor.
Google Research’ün TurboQuant’ı LLM key-value cache belleğini en az 6 kat azaltıp 8 kata kadar hızlanma vadediyor.
Google Research, TurboQuant ile LLM key-value cache belleğini en az 6x düşürüp 8x’e kadar hız kazandırdığını ve doğruluğu koruduğunu duyurdu.