Inferencia

On-Device AI

On-Device AI es la ejecución de cargas de trabajo de inferencia de aprendizaje automático directamente en el hardware local del usuario — smartphone, laptop o chip integrado — sin transmitir datos a un servidor en la nube remoto, permitiendo latencia más baja, uso sin conexión y privacidad más fuerte.

On-Device AI es la práctica de ejecutar cargas de trabajo de inferencia de IA completamente en hardware del usuario final en lugar de en servidores en la nube. Las tareas aplicables incluyen reconocimiento de voz, clasificación de imágenes, generación de lenguaje natural, traducción y detección de objetos, todo realizado localmente en dispositivos tales como smartphones, laptops, wearables y sensores IoT integrados.

La inferencia on-device requiere que los modelos quepan dentro de restricciones estrictas de memoria y potencia. Los habilitadores principales son técnicas de compresión de modelos — cuantificación (reduciendo precisión de peso de floats de 32-bit a enteros de 4 u 8-bit), poda (removiendo pesos de baja importancia) y destilación de conocimiento (entrenando modelos más pequeños para imitar modelos más grandes) — combinadas con unidades de procesamiento neurales dedicadas (NPUs). Chips tales como el Neural Engine de Apple en el A17 Pro y serie M, el Hexagon NPU de Qualcomm en Snapdragon 8 Gen 3 y posteriores, y el Tensor G4 de Google entregan decenas de TOPS (tera-operaciones por segundo) a escala de milivatios, haciendo práctica la inferencia de modelos en el rango de 1–8B parámetros en hardware de consumidor.

Las ventajas principales sobre la inferencia en la nube son latencia (sin viaje de red), privacidad (datos sensibles nunca dejan el dispositivo), disponibilidad sin conexión (funcional sin internet) y costos reducidos por consulta en la nube para desarrolladores. Estas propiedades son críticas en monitoreo de salud, procesamiento de audio en tiempo real y cualquier aplicación que maneje información de identificación personal bajo regulaciones tales como GDPR o HIPAA.

Para 2026, los modelos de lenguaje on-device son convencionales. Apple Intelligence (iOS 18, 2024) ejecuta un modelo de aproximadamente 3B parámetros localmente en iPhone 16 y Macs serie M para asistencia de escritura y resumen. Modelos de peso abierto — Llama 3 8B, Mistral 7B, Gemma 3 de Google — ejecutan a velocidades prácticas en laptops de consumidor mediante herramientas tales como llama.cpp, Ollama y Apple MLX. El desafío de ingeniería dominante es mantener la calidad de salida dentro de límites de precisión impuestos por cuantificación, un área activa de investigación en 2025–2026.

Ejemplo

Una aplicación de transcripción médica ejecutada en un iPad emitido por el hospital convierte la dictación del médico a notas clínicas estructuradas completamente en el dispositivo, satisfaciendo requisitos HIPAA asegurando que audio y datos de pacientes nunca se enrutan a través de infraestructura en la nube de terceros.

Términos relacionados

Small Language Model (SLM)Cuantización NPU (Neural Processing Unit)Data Privacy

← Glosario