NVIDIA QAD: como comprimir modelo em 4 bits e não perder cérebro
Qualquer um que tenha tentado rodar Llama-3 70B em uma placa de vídeo caseira conhece aquele amargo sentimento de compromisso. Ou você gasta uma fortuna em…
Processado por IA de Habr AI; editado por Hamidun News
Qualquer um que tenha tentado rodar Llama-3 70B em uma placa de vídeo caseira conhece aquele amargo sentimento de compromisso. Ou você gasta uma fortuna em uma H100, ou compacta o modelo ao ponto de começar a se confundir com aritmética elementar. O problema com a quantização de 4 bits sempre foi que ela cortava impiedosamente as nuances dos pesos que são importantes para raciocínios complexos. A NVIDIA decidiu que era hora de acabar com esse circo e lançou o método QAD, que muda as regras do jogo na área de eficiência.
Para entender por que isso importa agora, você precisa olhar para como treinamos modelos. Os LLMs modernos passam por um estágio de RLHF—aprendizado por reforço a partir de feedback humano. Este processo torna as respostas mais agradáveis e seguras, mas também torna a distribuição de pesos do modelo extremamente frágil. Quando você aplica quantização padrão (QAT) a um modelo tão "polido", ele literalmente desmorona. Matemática e escrita de código sofrem em primeiro lugar, porque exigem precisão absoluta, não apenas predição da próxima palavra provável.
O método QAD (Quantization-Aware Distillation) aborda a tarefa de forma diferente. Em vez de simplesmente arredondar números e esperar o melhor, a NVIDIA usa destilação. Neste processo, um modelo "professor" de tamanho completo orienta sua "aluna" compactada de 4 bits. O segredo do sucesso reside no uso de divergência KL—uma métrica que força o modelo compactado a copiar precisamente a lógica da distribuição de probabilidades do original. Isso permite minimizar o ruído que inevitavelmente surge ao fazer a transição de números de 16 bits para 4 bits.
O mais irônico e agradável nesta história é que o QAD funciona até mesmo com dados aleatórios ou sintéticos. Você não precisa baixar terabytes do conjunto de treinamento original para calibrar a versão compactada. Isso remove uma enorme dor de cabeça dos desenvolvedores que não têm acesso aos conjuntos de dados fechados dos grandes laboratórios. Finalmente conseguimos uma ferramenta que permite pegar pesos enormes e empacotá-los em um formato compacto sem transformar o modelo em um assistente lobotomizado.
O que isso significa para nós na prática? Se antes o trabalho de qualidade com modelos de 49B ou 70B exigia duas ou quatro placas de nível RTX 3090/4090, agora a barreira de entrada cai notavelmente. A qualidade das respostas em execução de 4 bits via QAD é praticamente indistinguível do original em testes de lógica e programação. Este é um caminho direto para assistentes de IA locais se tornarem verdadeiramente inteligentes, em vez de apenas imitarem a fala humana.
A NVIDIA mais uma vez prova que software e algoritmos são tão importantes quanto o número de transistores em um chip. Enquanto os concorrentes tentam acompanhar em potência bruta de hardware, a equipe "verde" está construindo um ecossistema onde suas placas se tornam exponencialmente mais eficientes através de compressão inteligente. Isto não é apenas otimização, é uma nova norma para uma indústria onde o tamanho do modelo não é mais uma sentença de morte para o orçamento.
O principal: QAD torna os modelos de 4 bits adequados para trabalho sério, não apenas testes. Em breve poderemos executar desempenho no nível GPT-4 em uma única GPU caseira?
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.