36Kr (36氪)→ original

Sunrise S3: a resposta chinesa à 'fome' de memória de vídeo e geração cara

Enquanto a indústria sufoca com a escassez de memória de vídeo e preços proibitivos do H100, a empresa chinesa Sunrise decidiu entrar com trunfos que…

Processado por IA de 36Kr (36氪); editado por Hamidun News
Sunrise S3: a resposta chinesa à 'fome' de memória de vídeo e geração cara
Fonte: 36Kr (36氪). Colagem: Hamidun News.
◐ Ouvir artigo

Enquanto a indústria sufoca com a escassez de memória de vídeo e preços proibitivos do H100, a empresa chinesa Sunrise decidiu entrar com trunfos que realmente preocupam os desenvolvedores. Seu novo chip S3 não é apenas mais uma tentativa de alcançar os líderes em teraflops, mas uma ferramenta pragmática para resolver o problema do "gargalo de memória". Qualquer um que já tentou executar um modelo de linguagem pesado localmente sabe: o poder computacional frequentemente fica ocioso porque os dados não carregam rápido o suficiente da memória.

A Sunrise implementou no S3 o suporte ao padrão de memória LPDDR6. Este é o primeiro caso para soluções GPGPU chinesas, e o movimento parece no mínimo corajoso. Graças a esta solução, o volume de memória disponível aumentou quatro vezes em comparação com chips da geração anterior da empresa.

Em um mundo onde parâmetros de modelos crescem mais rápido que orçamentos para "hardware", tal salto permite manter contextos muito maiores e pesos de modelos em memória RAM sem recorrer a armazenamento externo lento. Outro truque de engenharia reside na flexibilidade computacional. O S3 permite alternar entre precisão FP16 e FP4 literalmente em tempo real.

Para quem não acompanha as nuances de quantização: a transição para FP4 permite compactar dados do modelo sem perda crítica da qualidade das respostas. Isso afeta diretamente a velocidade de geração e, mais importante, a economia do processo. Quando um modelo ocupa menos espaço e requer menos recursos para processar cada palavra, os custos operacionais caem exponencialmente.

Os números que a Sunrise apresenta parecem quase provocadores. Em modelos populares da família DeepSeek, o custo de geração de um token caiu 90% em comparação com as soluções anteriores da empresa. Se essas métricas se confirmarem em servidores reais, veremos uma nova onda de serviços de IA acessíveis que não exigem investimentos de bilhões em infraestrutura.

Isso é particularmente relevante para o mercado chinês, onde o acesso a aceleradores avançados da Nvidia é limitado por sanções, e a necessidade de poder computacional para LLMs nacionais está apenas crescendo. É importante entender o contexto: a Sunrise não está tentando criar uma máquina universal para treinar modelos do zero. O S3 é uma "máquina" altamente especializada para inferência, ou seja, para executar redes neurais já treinadas.

Esta é a etapa onde a maior parte do dinheiro no negócio de IA é queimada agora. Se você consegue entregar respostas aos usuários 10 vezes mais barato que os concorrentes, seu modelo de negócio de repente começa a parecer viável. Em última análise, o sucesso do S3 dependerá não apenas do "hardware", mas também do suporte de software.

Fabricantes chineses frequentemente tropeçam precisamente em drivers e compatibilidade com bibliotecas populares como PyTorch. No entanto, o foco em DeepSeek—o modelo aberto mais popular da região—lhes dá um excelente ponto de partida. Parece que a era em que medíamos apenas o poder da GPU está desaparecendo para o passado, cedendo lugar à era da eficiência de memória.

O ponto principal: o Sunrise S3 prova que otimização para arquiteturas específicas como DeepSeek e trabalho com memória LPDDR6 podem dar ganhos de eficiência maiores do que simplesmente perseguir nanômetros. Será que essa abordagem pode se tornar o padrão para inferência de orçamento em todo o mundo?

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…