Thuật toán TurboQuant mới của Google có khả năng nén bộ nhớ đệm của các mô hình ngôn ngữ lớn xuống sáu lần mà không làm giảm chất lượng phản hồi.