Inferência

IA no Dispositivo

IA no dispositivo é a execução de inferência de modelo de aprendizado de máquina diretamente no hardware local de um usuário—smartphone, laptop ou chip embarcado—sem transmitir dados para um servidor em nuvem remoto, permitindo latência mais baixa, uso offline e privacidade mais forte.

IA no dispositivo é a prática de executar cargas de trabalho de inferência de IA inteiramente no hardware do usuário final em vez de em servidores em nuvem. Tarefas aplicáveis incluem reconhecimento de fala, classificação de imagem, geração de linguagem natural, tradução e detecção de objetos, todas executadas localmente em dispositivos como smartphones, laptops, wearables e sensores IoT embarcados.

Inferência no dispositivo requer que modelos caibam dentro de restrições rígidas de memória e potência. Os habilitadores primários são técnicas de compressão de modelo—quantização (reduzindo precisão de peso de floats de 32 bits para inteiros de 4 ou 8 bits), poda (removendo pesos de baixa importância) e destilação de conhecimento (treinando modelos menores para imitar maiores)—combinados com unidades de processamento neural dedicadas (NPUs). Chips como Neural Engine do Apple no A17 Pro e série M, Hexagon NPU do Qualcomm em Snapdragon 8 Gen 3 e posteriores, e Tensor G4 do Google entregam dezenas de TOPS (tera-operações por segundo) com potência na escala de miliwatts, tornando a inferência de modelos na faixa de parâmetros 1–8B prática em hardware de consumidor.

As vantagens principais sobre inferência em nuvem são latência (sem ida e volta de rede), privacidade (dados sensíveis nunca deixam o dispositivo), disponibilidade offline (funcional sem internet) e custos de nuvem reduzidos por consulta para desenvolvedores. Essas propriedades são críticas em monitoramento de saúde, processamento de áudio em tempo real e qualquer aplicação manipulando informações pessoalmente identificáveis sob regulamentações como GDPR ou HIPAA.

Por 2026, modelos de linguagem no dispositivo são mainstream. Apple Intelligence (iOS 18, 2024) executa um modelo de aproximadamente 3B parâmetros localmente no iPhone 16 e Macs da série M para assistência de escrita e sumarização. Modelos de peso aberto—Llama 3 8B, Mistral 7B, Gemma 3 do Google—executam em velocidades práticas em laptops de consumidor via ferramentas como llama.cpp, Ollama e Apple MLX. O desafio de engenharia dominante é manter a qualidade de saída dentro dos limites de precisão impostos pela quantização, uma área ativa de pesquisa em 2025–2026.

Exemplo

Um aplicativo de transcrição médica executado em um iPad fornecido pelo hospital converte ditado médico em notas clínicas estruturadas inteiramente no dispositivo, satisfazendo requisitos HIPAA ao garantir que áudio e dados de paciente nunca sejam roteados por infraestrutura em nuvem de terceiros.

Termos relacionados

Small Language Model (SLM)Quantization NPU (Neural Processing Unit)Data Privacy

← Glossário