Ollama acelera la ejecución local de AI en Apple M5: se necesita un Mac con al menos 32 GB de memoria
Ollama ha lanzado la versión 0.19 con aceleración por hardware para Apple M5, M5 Pro y M5 Max. Gracias a MLX y a los nuevos aceleradores, los modelos locales…
Procesado por IA desde 3DNews AI; editado por Hamidun News
Ollama añadió aceleración de hardware para Apple M5, M5 Pro y M5 Max, para que los modelos de IA locales en macOS se ejecuten notablemente más rápido. El nuevo esquema funciona en modo preview y requiere un mínimo de 32 GB de memoria unificada.
Qué Cambió
Ollama es una de las herramientas más prominentes para ejecutar modelos de lenguaje grandes localmente en Windows, Linux y macOS. En la versión 0.19, los desarrolladores movieron las operaciones de Apple Silicon a un nuevo modo basado en MLX — el propio framework ML de Apple, que utiliza mejor la memoria unificada del chip y sus bloques computacionales. Para los usuarios, esto significa inicios de respuesta más rápidos y velocidades de generación más altas sin ir a la nube y sin transmitir datos a un servicio externo.
El punto clave es que la aceleración está actualmente vinculada específicamente a la familia Apple M5. Según Ollama, la aplicación ha aprendido a acceder a los nuevos GPU Neural Accelerators en los chips M5, M5 Pro y M5 Max. Estos son los que proporcionan la mejora tanto en el tiempo hasta el primer token como en la velocidad general de salida. Esto es especialmente importante para escenarios donde el modelo no solo responde en una interfaz de chat, sino que continuamente recibe contexto largo, herramientas e historial de acciones.
Dónde se ve la Mejora
En los números, la actualización se ve bastante práctica. En la prueba oficial de Ollama, la empresa comparó la versión 0.19 con 0.18 en el modelo Qwen3.5-35B-A3B: la velocidad de prefill aumentó de 1154 a 1810 tokens por segundo, y decode de 58 a 112 tokens por segundo. Para cuantización int4, los desarrolladores prometen números aún más altos — hasta 1851 tokens por segundo en prefill y hasta 134 en decode. Esta es una diferencia ya notable no solo en benchmarks, sino también en el trabajo cotidiano.
"Esta es la forma más rápida de ejecutar
Ollama en Apple Silicon", escriben los desarrolladores en el anuncio de lanzamiento preview.
Se espera un desempeño más rápido no solo para chats locales comunes, sino también para herramientas donde el modelo procesa continuamente código, comandos y prompts largos:
- asistentes personales como OpenClaw
- agentes de código como Claude Code, OpenCode y Codex
- sesiones largas con prompts de sistema compartidos y ramificación de diálogo
- escenarios locales donde importan la privacidad y la baja latencia
Adicionalmente, Ollama actualizó el mecanismo de caché. Ahora la aplicación puede reutilizar caché entre diferentes conversaciones, guardarlo en puntos de prompt exitosos y mantener prefijos comunes en memoria más tiempo. Para escenarios de código y agentes, esto importa más de lo que parece: cuando una herramienta frecuentemente vuelve al mismo contexto de sistema, reducir el reprocesamiento innecesario de prompt acelera directamente las respuestas.
Limitaciones y Detalles
La limitación principal es simple: necesitas una Mac con al menos 32 GB de memoria unificada. Para IA local, esto es crítico porque en Apple Silicon la memoria se comparte entre la CPU, GPU y otros aceleradores, y los modelos grandes consumen rápidamente la capacidad disponible. En otras palabras, la noticia concierne no a cualquier Mac M5, sino solo a configuraciones suficientemente caras donde hay suficiente memoria para el propio modelo, caché y carga de trabajo.
Hay una segunda limitación: por ahora se trata de una implementación preview y un conjunto inicial bastante estrecho. En el anuncio, Ollama específicamente señaló que el lanzamiento primero acelera el nuevo modelo Qwen3.5-35B-A3B con configuraciones para tareas de programación. El soporte para otras arquitecturas e importación más conveniente de modelos personalizados sigue en progreso. Es decir, esto no es aceleración instantánea de "todo de una vez," sino el primer paso hacia una optimización más profunda de IA local para nuevas Macs.
Por separado vale la pena señalar el soporte para NVFP4 y mejoras que acercan la ejecución local a entornos de producción. NVFP4 reduce los requisitos de memoria y ancho de banda sin pérdida significativa de calidad, lo que significa que los usuarios pueden obtener resultados más cercanos a lo que ofrecen los proveedores modernos de inferencia. Combinado con MLX, esto convierte a Ollama de solo un wrapper de modelo conveniente en una plataforma local más seria para desarrollo y experimentación.
Qué Significa Esto
Para el mercado de IA local, esta es una señal importante: Mac se está convirtiendo cada vez más en una máquina de trabajo no solo para ejecutar pequeños modelos con pesos abiertos, sino también para escenarios de agentes completos. Para desarrolladores y usuarios avanzados, la ventaja es clara — menos latencia, más privacidad, menos dependencia de la nube. Pero esta historia aún no se volverá convencional: el costo de entrada sigue siendo alto debido al requisito de Apple M5 y 32 GB de memoria.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.