Seguridad

Privacidad de datos

La privacidad de datos en IA se refiere a las prácticas, controles técnicos y requisitos legales que rigen cómo se recopila, almacena, utiliza y protege la información personal durante el desarrollo e implementación de sistemas de IA. Cubre riesgos específicos de la IA, incluida la memorización de datos de entrenamiento e inferencia de atributos sensibles.

Los sistemas de IA entrenados con grandes conjuntos de datos encuentran frecuentemente información personal — nombres, registros de salud, comunicaciones y registros de comportamiento — ya sea como insumos deliberados de entrenamiento o como inclusiones incidentales en datos web raspados. La privacidad de datos rige quién tiene derecho a controlar esta información, bajo qué condiciones se puede utilizar para entrenar la IA, cuánto tiempo se puede retener y qué protecciones se aplican cuando los resultados de la IA podrían exponer o inferir detalles personales. En marcos regulatorios, "datos personales" se define ampliamente: el Reglamento General de Protección de Datos (RGPD) de la UE cubre cualquier información que pueda identificar a un individuo directa o indirectamente, incluidos atributos inferidos.

Las medidas técnicas de privacidad en IA incluyen privacidad diferencial — agregar ruido matemático calibrado a los gradientes de entrenamiento para que el modelo no pueda reproducir de manera confiable registros de entrenamiento individuales — y aprendizaje federado, donde el entrenamiento ocurre localmente en dispositivos del usuario y solo las actualizaciones agregadas del modelo se comparten con un servidor central. En el tiempo de inferencia, los controles de acceso, filtrado de salida y minimización de datos reducen el riesgo de exponer información sensible. Legalmente, los mecanismos incluyen requisitos de consentimiento informado, derechos del sujeto de datos (acceso, supresión y portabilidad), limitación de propósito y acuerdos contractuales de tratamiento de datos entre desarrolladores de IA y fuentes de datos.

Los modelos de IA entrenados en corpus de escala de internet han demostrado memorización medible — la capacidad de reproducir pasajes verbatim del texto de entrenamiento, incluida información de identificación personal, cuando se solicita apropiadamente. La investigación de Carlini et al. (2021) mostró que GPT-2 podría ser solicitado para producir direcciones de correo electrónico, números de teléfono y nombres presentes en sus datos de entrenamiento. Más allá de la memorización, los sistemas de IA pueden inferir atributos sensibles como condiciones de salud, opiniones políticas o estado financiero a partir de insumos aparentemente inocuos, creando riesgos de privacidad secundarios que las regulaciones existentes no anticiparon originalmente.

Para 2026, la Ley de IA de la UE impone obligaciones específicas de IA además del RGPD, requiriendo documentación de fuentes de datos de entrenamiento y prohibiendo ciertos usos de datos personales sensibles en sistemas de alto riesgo. La autoridad de protección de datos de Italia (Garante) bloqueó temporalmente ChatGPT en marzo de 2023 por preocupaciones del RGPD, lo que resultó en que OpenAI implementara mecanismos de exclusión del usuario y solicitudes de eliminación de datos para usuarios europeos. La privacidad diferencial es estándar en Apple y Google para el entrenamiento de modelos en el dispositivo, aunque su adopción en el preentrenamiento de modelos de lenguaje grande sigue siendo limitada debido al balance entre precisión y privacidad a escala.

Ejemplo

Un hospital que implementa una herramienta de diagnóstico de IA utiliza aprendizaje federado para que los registros de pacientes nunca abandonen sus servidores; solo las actualizaciones de pesos de modelo cifradas se comparten con el proveedor, satisfaciendo los requisitos del RGPD mientras permite que el modelo global mejore a partir de datos clínicos distribuidos.

Términos relacionados

Aprendizaje Federado Datos de Entrenamiento Regulación de IA On-Device AI

← Glosario