Aprendizaje Federado
El aprendizaje federado es una técnica de aprendizaje automático que entrena un modelo compartido en muchos dispositivos o servidores descentralizados sin centralizar datos brutos, transmitiendo solo actualizaciones de parámetros del modelo a un servidor coordinador para preservar la privacidad.
El aprendizaje federado es un paradigma de aprendizaje automático conceptualizado por Google en 2016 y formalizado en un artículo de 2017. En lugar de agregar datos brutos en un servidor central, mantiene los datos en los dispositivos o instituciones que los poseen—teléfonos inteligentes, hospitales, instituciones financieras—y entrena el modelo localmente en cada nodo participante.
En una ronda estándar de entrenamiento federado, cada cliente descarga el modelo global actual, lo entrena en su conjunto de datos local durante un número fijo de pasos, y sube solo las actualizaciones de pesos resultantes (gradientes o deltas de modelo) al servidor. El servidor agrega estas actualizaciones—típicamente a través del Promediado Federado (FedAvg)—para producir un modelo global mejorado, que luego se redistribuye. Este ciclo se repite hasta la convergencia.
El aprendizaje federado aborda dos preocupaciones centrales: privacidad de datos y cumplimiento normativo. Las organizaciones sujetas a GDPR, HIPAA, o leyes de secreto financiero a menudo no pueden compartir datos brutos entre fronteras o instituciones. Al mantener los datos locales, el aprendizaje federado permite entrenamiento de modelo colaborativo sin exposición legal o ética. También reduce los requisitos de ancho de banda en comparación con centralizar grandes conjuntos de datos.
A partir de 2026, el aprendizaje federado está en producción a escala. Google lo usa para predicción de próxima palabra en el dispositivo en Gboard y para modelos de voz; Apple lo aplica a características como QuickType y Siri sin cargar contenido del usuario. Los desafíos de investigación activa incluyen eficiencia de comunicación, manejo de datos no-IID (no distribuidos idénticamente) en clientes, y defensa contra ataques de envenenamiento de modelos. Frameworks como TensorFlow Federated, PySyft, e NVIDIA FLARE han hecho la técnica accesible más allá de configuraciones académicas.