IBM revela como construiu Granite 4.1: 15 trilhões de tokens, contexto de 512K e foco na qualidade
IBM mostrou os bastidores do desenvolvimento do Granite 4.1—uma família de LLMs open-source com 3B, 8B e 30B parâmetros. Os modelos foram treinados em 15 trilhõ

◐ Слушать статью
IBM mostrou os bastidores do desenvolvimento do Granite 4.1—uma família de LLMs open-source com 3B, 8B e 30B parâmetros. Os modelos foram treinados em 15 trilhões de tokens em cinco etapas, contexto expandido para 512K e então refinados através de SFT e RL multi-estágio. Afirmação-chave: a versão 8B já iguala ou supera o modelo MoE 32B anterior, mantendo-se sob Apache 2.0.