Algoritmo TurboQuant do Google derruba ações de fabricantes de memória após publicação de pesquisa
Google introduziu TurboQuant — um método de compressão de cache KV para LLMs que reduz o consumo de memória em pelo menos seis vezes e, segundo a empresa, não d

◐ Слушать статью
Google introduziu TurboQuant — um método de compressão de cache KV para LLMs que reduz o consumo de memória em pelo menos seis vezes e, segundo a empresa, não degrada a qualidade. O mercado reagiu em horas: ações da Micron, Western Digital e SanDisk caíram quando investidores imediatamente recalcularam a demanda futura por memória para AI. Se a abordagem ganhar força, a inferência poderia se tornar significativamente mais barata.