2018 | SDT: Sécurité des données textuelles

Axe : IID – Scilex
Coordinateur : Cyril GROUIN
Objet du groupe de travail : sécurité des données textuelles contenues dans des documents ou des bases de données
Productions Scientifiques :
En attente de CR
Financement Labex en : 2016


Ce groupe de travail rassemble des thématiques traitées dans deux axes du LabEx :
– SciLex : Software Reliability and Security : Security of Systems (tâche 1)
– DataSense : Data intelligence : Making sense of complex, heterogeneous data and knowledge (tâche 2) ; Machine learning: meta-learning and multi-task (tâche 3)

Le groupe de travail SDT est fondé par trois équipes :

  • LIMSI (Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur), équipe ILES (Informations, Langues Ecrites et Signées) : Cyril Grouin (CNRS), Thomas Lavergne (Université Paris-Sud), Aurélie Névéol (CNRS), Pierre Zweigenbaum (CNRS)
  • INRIA-LIX (Laboratoire d’Informatique de Polytechnique), équipe COMETE (Concurrency, Mobility and Transactions) : Catuscia Palamidessi (INRIA Saclay), Kostantinos Chatzikokolakis (LIX, CNRS)
  • CEA-LIST, équipe LVIC (Laboratoire de Vision et d’Ingénierie des Contenus) : Olivier Ferret, Gaël de Chalendar

Le groupe de travail « Sécurité des données textuelles » (SDT) aborde plusieurs problématiques de recherche autour de la sécurité des données textuelles contenues dans des documents ou des bases de données. L’objectif global de ce groupe de travail vise à identifier le point d’équilibre entre protection des données (textes, bases de données, ressources) et réutilisation de ces données par des tiers.

Trois problématiques sont couvertes par ce groupe de travail :

  • 1°/ Anonymisation et risques de réidentification__ : ce premier point concerne (i) l’anonymisation (au sens large) des données identifiantes contenues dans des textes (tels que les comptes-rendus cliniques ou les tweets) et (ii) l’évaluation des risques de réidentification de textes anonymisés. Dans le domaine médical, de récentes études ont porté sur les risques de réidentification des patients à partir de corpus anonymisés (Dankar et al., 2012). Dans une étude préliminaire, nous avons pu mettre en évidence le fait que les risques de réidentification de patients sont cependant dépendants de connaissances antérieures sur le codage médical et d’un accès aux systèmes d’information patient (Grouin et al., 2015). Nous souhaitons poursuivre ce travail en abordant l’anonymisation de données identifiantes au moyen de techniques assurant un risque minimal de réidentification.
  • 2°/ Protection des données dans les modèles __: les modèles créés par les outils d’apprentissage statistique (machine-learning) modélisent les informations observées à partir de textes (possiblement confidentiels) porteurs d’annotations réalisées par des humains (par exemple, l’étiquetage des mots d’un texte en parties du discours : nom, verbe, adjectif, adverbe). Les modèles construits par ces outils (tel l’outil Wapiti (Lavergne et al., 2010) qui implémente les champs aléatoires conditionnels) comportent des informations spécifiques ou agrégées, issues des corpus d’origine. Ces informations peuvent être utilisées pour reconstruire une partie des textes d’origine, ce qui pose un problème de confidentialité. Parce que les modèles statistiques peuvent servir à anonymiser des données textuelles ou être appris à partir de données confidentielles d’une part (Faessler et al., 2014), et parce que des sociétés vivent du travail d’annotation de corpus d’autre part, il est nécessaire de protéger les données présentes dans les modèles. Un corolaire de cette activité concerne la manière de protéger des ressources non ouvertes, parce que privées ou non diffusables en clair, afin de les utiliser dans des outils en libre accès. Empêcher la reconstruction des données ou des annotations d’origine constitue un champ de recherche que nous souhaitons développer dans le cadre de ce groupe de travail.
  • 3°/ Optimisation de la confidentialité différentielle__ : interroger une base de données peut conduire à transgresser la confidentialité des données de cette base, même si les données individuelles ne sont pas directement accessibles. Un moyen de contrer cette problématique consiste à n’autoriser que des requêtes agrégées (par exemple, l’âge moyen de patients affectés par une maladie donnée). Le résultat de la requête, combiné à des informations publiques, peut permettre de retrouver les informations d’un individu particulier. La confidentialité différentielle est une approche fondée sur le principe de l’ajout de bruit dans les résultats d’une requête, afin de rendre plus complexe le lien qui existe entre la réponse à la requête et la donnée individuelle (Alvim et al., 2014). Contrairement aux techniques d’anonymisation, la confidentialité différentielle est plus robuste à des attaques fondées sur la combinaison à des informations publiques. L’ajout de bruit conduit à une dégradation de la précision de la réponse, et par conséquent, de l’utilité de la base de données. Dans ce groupe de travail, nous souhaitons étudier les mécanismes qui permettent de trouver un compromis entre la confidentialité différentielle et l’utilité de la base de données. En particulier les mécanismes qui, parmi ceux qui garantissent le niveau désiré de confidentialité, proposent une utilité maximale.

Associated Internship project 1:
Responsible researcher:

Selected candidate: Pas de stagiaire trouvé.
Master:Data science
University:
Date:
Digicosme axis: Datasense
Project Summary:
Etudier les possibilités d’appliquer des outils et approches du traitement automatique des langues (TAL) sur des données chiffrées. Deux axes de recherche sont ainsi proposés :

  • étudier la possibilité d’utiliser des outils du TAL (pour des tâches génériques telles que l’étiquetage en parties du discours ou le repérage d’entités nommées, etc.) sur des données chiffrées, en mettant notamment en évidence les adaptations et limites techniques de ces outils
  • analyser l’évolution des performances de ces outils selon qu’ils sont appliqués sur des données chiffrées ou non chiffrées

Perspectives:


Séminaires

  • lundi 10 juillet 2017, 11h – LIMSI, bâtiment 508, rez-de-chaussée, salle de conférence, Plan accès.~~__
    • Title: A multi-layered method to detect phishing websites
    • Abstract: As internet grows and ease the life of the users, thieves also entered this field. Phishing is one type of internet thieves’ attack. In phishing, a legitimate website is forged and tries to deceive the users to steal their valuable information.Since the first phishing attacks in 1990s, many methods were introduced to mitigate these attacks. List-based methods, which are the most popular in commercial tools, are prone to zero-day attacks; furthermore, user-based methods cannot provide enough coverage; consequently, modern methods are based on website analysis.In this thesis, a novel detection system was introduced which is based on multi-layered architecture. This system includes three detection methods in three layers. In the first layer, using online information, high-profile legitimate websites are detected and forwarding the phishing detection of this layer to the second layer would prevent high false positive of these information. In the second layer, tries to find a textual similar website to detect phishing; as phishing websites are a copy of legitimate one and in the contrary, legitimate websites are unique. In the third layer, using heuristic parameters, detection of low-profile legitimate websites is completed.The proposed method was implemented and tested against real-world websites, including all three groups of high-profile and low-profile legitimate websites and phishing ones and the results are compared to two similar previous works, Cantina and Cantina+. Results show improvement in all groups; furthermore, the key improvement was in false positive of detecting low-profile legitimate websites. The F-measure was improved from 67.61% and 87.01% in previous works, respectively; to 97.72% in the proposed method; but the time overhead is higher to the previous works, the speed of detection in proposed method depends on the kind of the website.
    • Keywords: Phishing, Internet security, Website analysis, F-measure, Multi-layered architecture.
    • Bio:Hossain KORDESTANI, BSc in Computer Hardware Engineering (2010, University of Tehran, Tehran, Iran) and MSc in Information Security (2013, Amirkabir University of Technology, Tehran, Iran). This talk is a translation from my defense which was done in June 2013 for partial fulfillment of the requirements for MSc in Information Security. I currently am a member of R&D group of Maidis (Chatou, France), working on an IoT-based monitoring system for patients with chronic diseases. My current study mostly concerns artificial intelligence and I prefer to switch back to applied security.
  • Mardi 14 mars 2017 – LIMSI, bâtiment 508, rez-de-chaussée, salle de conférence.

Après un rappel des activités de chacun des partenaires impliqués dans le groupe de travail, avec un focus particulier sur les thématiques du GT, les participants ont réfléchi au moyen de combiner les différentes méthodes utilisées dans chaque équipe. Nous avons convergé sur la possibilité de s’inspirer de la méthode differential privacy pour constituer des corpus textuels sensibles préalablement désidentifiés. Cette méthode consiste à ajouter du bruit au résultat d’une requête puis à filtrer les résultats. Elle a été appliquée avec succès par l’équipe Comète du LIX sur une application de géolocalisation. Les techniques de k-anonymat et de l-diversité sont également envisagées comme méthodes de pseudonymisation, ainsi que la prise en compte des fréquences d’utilisation des phrases dans un corpus, et des mots dans un corpus, pour faciliter l’identification des informations identifiantes en corpus, ou pour sélectionner des phrases dont on est sûr (par leur répétition) qu’elles ne contiennent aucune information identifiante.

Deux candidatures ont été reçues pour le stage proposé dans le cadre du GT. Des prises de contact ont été entreprises auprès de l’étudiant ayant un profil correspondant aux compétences requises pour le stage.

Enfin, des pistes ont été envisagées pour inviter en séminaire des personnes travaillant sur l’une des thématiques du GT, en particulier les contributeurs au numéro spécial de la revue TAL sur l’Ethique et le TAL.

  • Mardi 29 novembre 2016 de 14h à 16h en salle de conférence du LIMSI – bâtiment 508, rez-de-chaussée.