ZDNet AI→ original

Quand les données anciennes compromettent le déploiement de l'IA : risques et solutions

Les entreprises se précipitent pour utiliser les anciennes données lors du déploiement de systèmes d'IA — elles semblaient être de la poussière d'archives…

Traité par IA depuis ZDNet AI ; édité par Hamidun News
Quand les données anciennes compromettent le déploiement de l'IA : risques et solutions
Source : ZDNet AI. Collage: Hamidun News.
◐ Écouter l'article

Les entreprises se hâtent de déployer des systèmes d'IA et, dans la précipitation, utilisent toutes les données disponibles pour entraîner les modèles — y compris les archives datant de plusieurs années ou plus. Et là les attendent de nombreuses mauvaises surprises qui pourraient faire échouer l'ensemble du projet en dernier moment.

Pourquoi les anciennes données sont soudainement devenues de l'or

Jusqu'à récemment, les entreprises conservaient les données historiques simplement — par le principe « cela pourrait servir un jour ». Mais avec l'explosion de l'IA, ces archives se sont soudainement transformées en ressource précieuse. Les modèles ont besoin de données en énormes quantités, et les archives contiennent déjà des millions d'enregistrements.

Pourquoi collecter de nouvelles données pendant des années si la base historique est déjà prête ? De plus, les anciennes données représentent souvent des schémas à long terme — des tendances qui se répètent d'année en année, des exceptions qui apprennent au modèle à bien fonctionner dans les cas limites. Cela réduit le temps de développement et abaisse les coûts de collecte de nouvelles données.

La logique est attrayante, mais les données d'archives datant de 5 à 10 ans n'ont jamais été examinées du point de vue des normes modernes de sécurité et de confidentialité.

Les risques cachés dans les archives

Lorsque les auditeurs commencent à examiner attentivement les anciennes données, ils trouvent :

  • Noms complets, numéros de documents et numéros de sécurité sociale en clair
  • Enregistrements de salariés licenciés il y a 5 ans mais non supprimés de la base de données
  • Mots de passe, clés API et jetons autrefois enregistrés en clair
  • Données de personnes d'autres pays — violations du RGPD et des lois locales
  • Données mal étiquetées — transactions mal classifiées, erreurs dans les étiquettes
  • Enregistrements en doublon et contradictoires qui entraînent le modèle avec du bruit au lieu du signal

Lorsqu'on déploie un tel modèle, les régulateurs et les juristes trouvent rapidement les problèmes. Tout le travail est gelé. Il faut refaire la préparation des données, réentraîner le modèle, mener une nouvelle vérification. Le projet qui devait prendre 3 mois traîne pendant un an.

Comment gérer le risque en pratique

Il y a une approche simple : avant d'utiliser les anciennes données, effectuer trois étapes. La première — un audit complet de la sécurité de l'archive : qui a créé les données, à quelles fins, quand, contiennent-elles des informations confidentielles, se conforment-elles aux normes modernes ? La deuxième étape — le nettoyage. Supprimer les enregistrements des personnes qui ne consentent plus à la réutilisation, éliminer les informations sensibles, corriger les erreurs d'étiquetage. La troisième étape — la documentation : d'où viennent les données, combien de temps elles ont été collectées, qui les a étiquetées, quelles hypothèses sont sous-jacentes.

Les entreprises omettent souvent ces trois étapes dans la

précipitation et en paient le prix avec des mois de retard et des révisions.

Conclusion

Le déploiement de l'IA n'est pas seulement une question d'ingénierie et d'algorithmes. C'est la gestion des données en tant qu'actif. Les anciennes données nécessitent autant (ou plus) de soins en matière de sécurité et de qualité que les nouvelles. La précipitation dans le déploiement coûte presque toujours plus cher que le temps passé à la préparation et à la vérification.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…