Découvrez toutes les sessions à la demande du Sommet sur la sécurité intelligente ici.
Les assistants numériques du futur promettent de faciliter le quotidien. Nous pourrons leur demander d’effectuer des tâches telles que la réservation d’un hébergement pour un voyage d’affaires en dehors de la ville en fonction du contenu d’un e-mail ou de répondre à des questions ouvertes qui nécessitent un mélange de contexte personnel et de connaissances publiques. (Par exemple : « Ma tension artérielle est-elle dans la plage normale pour une personne de mon âge ? »)
Mais avant que nous puissions atteindre de nouveaux niveaux d’efficacité au travail et à la maison, une grande question doit être résolue : comment pouvons-nous fournir aux utilisateurs des garanties de confidentialité solides et transparentes sur les informations personnelles sous-jacentes qui apprentissage automatique (ML) utilisent-ils pour arriver à ces réponses ?
Si nous nous attendons à ce que les assistants numériques facilitent les tâches personnelles qui impliquent un mélange de données publiques et privées, nous aurons besoin de la technologie pour fournir un « secret parfait », ou le niveau de confidentialité le plus élevé possible, dans certaines situations. Jusqu’à présent, les méthodes antérieures ont soit ignoré la question de la confidentialité, soit fourni des garanties de confidentialité plus faibles.
Doctorat en informatique de troisième année à Stanford. étudiant Simran Arora a étudié l’intersection du ML et de la vie privée avec un professeur associé Christophe Ré comme son conseiller. Récemment, ils ont entrepris de déterminer si les modèles de base émergents – de grands modèles ML formés sur des quantités massives de données publiques – détiennent la réponse à cette question urgente de confidentialité. Le papier résultant a été publié en mai 2022 sur le service de préimpression ArXiv, avec un cadre proposé et une preuve de concept pour l’utilisation du ML dans le contexte de tâches personnelles.
Le secret parfait défini
Selon Arora, une garantie de secret parfait satisfait à deux conditions. Premièrement, à mesure que les utilisateurs interagissent avec le système, la probabilité que les adversaires apprennent des informations privées n’augmente pas. Deuxièmement, comme plusieurs tâches personnelles sont accomplies en utilisant les mêmes données privées, la probabilité que des données soient accidentellement partagées n’augmente pas.
Avec cette définition à l’esprit, elle a identifié trois critères pour évaluer un système de confidentialité par rapport à l’objectif du secret parfait :
- Confidentialité : dans quelle mesure le système empêche-t-il la fuite de données privées ?
- Qualité : Comment le modèle exécute-t-il une tâche donnée lorsque le secret parfait est garanti ?
- Faisabilité : l’approche est-elle réaliste en termes de temps et de coûts engagés pour exécuter le modèle ?
Aujourd’hui, les systèmes de confidentialité de pointe utilisent une approche appelée apprentissage fédéré, qui facilite la formation de modèles collectifs entre plusieurs parties tout en empêchant l’échange de données brutes. Dans cette méthode, le modèle est envoyé à chaque utilisateur, puis renvoyé à un serveur central avec les mises à jour de cet utilisateur. Les données sources ne sont jamais révélées aux participants, en théorie. Mais malheureusement, d’autres chercheurs ont découvert qu’il était possible de récupérer des données à partir d’un modèle exposé.
La technologie populaire utilisée pour améliorer la garantie de confidentialité de l’apprentissage fédéré s’appelle confidentialité différentiellequi est une approche statistique de la protection des informations privées. Cette technologie nécessite que l’implémenteur définisse les paramètres de confidentialité, qui régissent un compromis entre les performances du modèle et la confidentialité des informations. Il est difficile pour les praticiens de fixer ces paramètres dans la pratique, et le compromis entre confidentialité et qualité n’est pas normalisé par la loi. Bien que les chances d’une violation puissent être très faibles, un secret parfait n’est pas garanti avec une approche d’apprentissage fédéré.
“Actuellement, l’industrie a mis l’accent sur le raisonnement statistique”, a expliqué Arora. « En d’autres termes, quelle est la probabilité que quelqu’un découvre mes informations personnelles ? L’approche de confidentialité différentielle utilisée dans l’apprentissage fédéré oblige les organisations à faire des choix entre l’utilité et la confidentialité. Ce n’est pas idéal.
Une nouvelle approche avec des modèles de fondation
Quand Arora a vu à quel point les modèles de fondation comme GPT-3 effectuer de nouvelles tâches à partir de simples commandes, souvent sans nécessiter de formation supplémentaire, elle se demandait si ces capacités pouvaient être appliquées à des tâches personnelles tout en offrant une plus grande confidentialité que le statu quo.
“Avec ces grands modèles de langage, vous pouvez dire” Dites-moi le sentiment de cette critique “en langage naturel et le modèle génère la réponse – positive, négative ou neutre”, a-t-elle déclaré. “Nous pouvons ensuite utiliser exactement le même modèle sans aucune mise à niveau pour poser une nouvelle question avec un contexte personnel, comme” Dites-moi le sujet de cet e-mail “. ”
Arora et Ré ont commencé à explorer la possibilité d’utiliser des modèles de fondations publiques prêts à l’emploi dans un silo d’utilisateurs privés pour effectuer des tâches personnelles. Ils ont développé un cadre simple appelé Foundation Model Controls for User Secrecy (FOCUS), qui propose d’utiliser une architecture de flux de données unidirectionnel pour accomplir des tâches personnelles tout en préservant la confidentialité.
L’aspect unidirectionnel du cadre est essentiel car cela signifie que dans un scénario avec différentes étendues de confidentialité (c’est-à-dire un mélange de données publiques et privées), l’ensemble de données du modèle de fondation public est interrogé avant l’ensemble de données privé de l’utilisateur, empêchant ainsi les fuites en arrière. dans l’espace public.
Tester la théorie
Arora et Ré ont évalué le cadre FOCUS par rapport aux critères de confidentialité, de qualité et de faisabilité. Les résultats ont été encourageants pour une preuve de concept. FOCUS assure non seulement la confidentialité des données personnelles, mais il va également plus loin pour masquer la tâche réelle que le modèle a été invité à effectuer ainsi que la manière dont la tâche a été accomplie. Mieux encore, cette approche n’obligerait pas les organisations à définir des paramètres de confidentialité qui font des compromis entre l’utilité et la confidentialité.
En ce qui concerne la qualité, l’approche du modèle de base rivalisait avec l’apprentissage fédéré sur six des sept critères de référence standard. Cependant, il a sous-performé dans deux scénarios spécifiques : lorsque le modèle a été invité à effectuer une tâche hors domaine (ce qui n’est pas inclus dans le processus de formation) et lorsque la tâche a été exécutée avec de petits modèles de base.
Enfin, ils ont examiné la faisabilité de leur cadre par rapport à une approche d’apprentissage fédéré. FOCUS élimine les nombreux cycles de communication entre les utilisateurs qui se produisent avec l’apprentissage fédéré et permet au modèle de base pré-formé de faire le travail plus rapidement grâce à l’inférence, ce qui rend le processus plus efficace.
Risques liés au modèle de fondation
Arora note que plusieurs défis doivent être relevés avant que les modèles de fondation puissent être largement utilisés pour des tâches personnelles. Par exemple, la baisse des performances de FOCUS lorsque le modèle est invité à effectuer une tâche hors domaine est préoccupante, tout comme la lenteur d’exécution du processus d’inférence avec de grands modèles. Pour l’instant, Arora recommande que la communauté de la confidentialité considère de plus en plus les modèles de base comme une référence et un outil lors de la conception de nouveaux critères de confidentialité et de la motivation du besoin d’apprentissage fédéré. En fin de compte, l’approche de confidentialité appropriée dépend du contexte de l’utilisateur.
Les modèles de fondation introduisent également leurs propres risques inhérents. Ils sont coûteux à préformer et peuvent halluciner ou mal classer les informations lorsqu’ils sont incertains. Il existe également un problème d’équité dans la mesure où, jusqu’à présent, les modèles de base sont principalement disponibles pour les langues riches en ressources, de sorte qu’un modèle public peut ne pas exister pour tous les paramètres personnels.
Les fuites de données préexistantes sont un autre facteur de complication. “Si les modèles de base sont formés sur des données Web qui contiennent déjà des informations sensibles divulguées, cela soulève un tout nouvel ensemble de problèmes de confidentialité”, a reconnu Arora.
Pour l’avenir, elle et ses collègues du Laboratoire de recherche brumeux à Stanford étudient des méthodes pour inciter des systèmes plus fiables et permettre des comportements en contexte avec des modèles de base plus petits, mieux adaptés aux tâches personnelles sur des appareils utilisateur à faibles ressources.
Arora peut imaginer un scénario, pas trop éloigné, où vous demanderez à un assistant numérique de réserver un vol sur la base d’un e-mail mentionnant la planification d’une réunion avec un client hors de la ville. Et le modèle coordonnera la logistique du voyage sans révéler aucun détail sur la personne ou l’entreprise que vous allez rencontrer.
“Il est encore tôt, mais j’espère que le cadre FOCUS et la preuve de concept inciteront à une étude plus approfondie de l’application des modèles de fondation publique aux tâches privées”, a déclaré Arora.
Nikki Goth Itoi est rédactrice pour le Stanford Institute for Human-Centered AI.
Cette histoire est apparue à l’origine sur Hai.stanford.edu. Droits d’auteur 2022
DataDecisionMakers
Bienvenue dans la communauté VentureBeat !
DataDecisionMakers est l’endroit où les experts, y compris les techniciens travaillant sur les données, peuvent partager des informations et des innovations liées aux données.
Si vous souhaitez en savoir plus sur les idées de pointe et les informations à jour, les meilleures pratiques et l’avenir des données et de la technologie des données, rejoignez-nous sur DataDecisionMakers.
Vous pourriez même envisager contribution d’un article ton propre!