2017 | TALSEM: Traitement Sémantique des Données Textuelles 

Axe : IID
Coordinateur : Brigitte GRAU
Objet du groupe de travail : Traitement Sémantique des Données Textuelles


Ce groupe de travail rassemble des thématiques traitées dans l’axe DataSense et la tâche 2 :

  • Data intelligence : Making sense of complex, heterogeneous data and knowledge.

Il aborde les thématiques : implication textuelle, paraphrase, désambiguisation sémantique

Le groupe de travail TALSEM propose de centrer ses activités sur le traitement sémantique des données textuelles. L’un de ses champs de recherche, nommé en anglais «~machine reading~», consiste à construire une machine (ou un algorithme) capable de lire des textes écrit en langage naturel, c’est-à-dire de les comprendre, d’en extraire des connaissances et de les représenter sous une forme structurée de manière à pouvoir les réutiliser dans d’autres tâches. L’une des caractéristiques de la langue est que toutes les connaissances nécessaires à sa compréhension ne sont pas explicites dans un texte : les êtres humains effectuent naturellement des inférences de manière à construire un sens, en mettant en œuvre des compétences linguistiques variées, du raisonnement de sens commun, des connaissances dans des domaines de spécialité ou leur propre expérience. Les machines ne disposent pas de ces capacités initiales. Dès lors qu’elles sont incapables d’élaborer des inférences, elles ne peuvent combler les informations manquantes dans les textes et ne peuvent donc vraiment les comprendre.

Le groupe de travail se propose d’étudier ces mécanismes de compréhension et d’inférence, qui constituent l’un des verrous actuels en TAL (Traitement Automatique des Langues). L’objectif est d’étudier ces mécanismes d’inférence au niveau linguistique : comment décider que deux textes, ou extraits de texte, sont en relation d’inférence.
Il se centrera sur la résolution de tâches qui en constituent le cœur : la résolution automatique d’inférences textuelles, la reconnaissance de paraphrases ou de similarités sémantiques et ce, à différents niveaux de granularité, allant du mot au texte.

Tous ces problèmes requièrent de gérer la variabilité linguistique en s’appuyant sur des connaissances et des représentations très diverses (sac de mots, séquences de mots, représentations structurées, représentations distribuées) et sont abordées en grande partie par des méthodes d’apprentissage supervisé.

Quelles que soient les techniques développées (alignement de textes, traduction ou réécriture, apprentissage profond (deep learning), etc.), elles obtiennent encore des résultats très largement améliorables sur des tâches de compréhension de texte qui reste un horizon encore non dépassé. Ces tâches font ainsi l’objet d’une attention très forte actuellement et situent la compréhension de textes comme l’un des domaines phares de l’Intelligence Artificielle, aidées en cela par l’existence d’outils d’analyse linguistique de base largement disponibles.

Nous proposons deux types d’activités:

  • des séminaires, pour permettre la découverte et la discussion autour de méthodes de résolution récentes, présentées par les partenaires impliqués dans le GT ou par des invités. Il est prévu 1 séance par mois ;
  • la mise en commun de ressources et de jeux de données, pour partager et comparer des méthodes facilement. Nous proposons de mettre en place une plate-forme pour analyser des textes proposant un accès simple fondé sur une plate-forme existante au LIMSI. Les ressources ainsi centralisées seront des corpus et outils libres d’accès.

Séminaires


CDD ingénieur de recherche adossé au GT – Mise en place d’une plate-forme pour analyser des corpus

  • Responsable Scientifique :
  • Candidate : Marine Bletrix
  • Période du contrat : 6 mois – mai-juillet 2017
  • Objectif : Mettre en commun des ressources pour entraîner, évaluer et comparer des algorithmes permettant d’établir des relations sémantiques entre énoncés en langage naturel.
  • Outils développés

Plate-forme pour analyser des corpus de texte
proposant un accès simple fondé sur une plate-forme existante au LIMSI Bui-Quang et al., 2016. Elle s’appuie sur un environnement Docker, ce qui permet de la déployer facilement, et propose une interface Web.
Mise à disposition du corpus WebQuestions auquel a été ajouté des passages réponses afin de tester des outils de mise en relation question-passage réponse.