2017 | TALSEM: Traitement Sémantique des Données Textuelles

Axe : IID
Coordinateur : Brigitte GRAU
Objet du groupe de travail : Traitement Sémantique des Données Textuelles

Ce groupe de travail rassemble des thématiques traitées dans l’axe DataSense et la tâche 2 :

Data intelligence : Making sense of complex, heterogeneous data and knowledge.

Il aborde les thématiques : implication textuelle, paraphrase, désambiguisation sémantique

Le groupe de travail TALSEM propose de centrer ses activités sur le traitement sémantique des données textuelles. L’un de ses champs de recherche, nommé en anglais «~machine reading~», consiste à construire une machine (ou un algorithme) capable de lire des textes écrit en langage naturel, c’est-à-dire de les comprendre, d’en extraire des connaissances et de les représenter sous une forme structurée de manière à pouvoir les réutiliser dans d’autres tâches. L’une des caractéristiques de la langue est que toutes les connaissances nécessaires à sa compréhension ne sont pas explicites dans un texte : les êtres humains effectuent naturellement des inférences de manière à construire un sens, en mettant en œuvre des compétences linguistiques variées, du raisonnement de sens commun, des connaissances dans des domaines de spécialité ou leur propre expérience. Les machines ne disposent pas de ces capacités initiales. Dès lors qu’elles sont incapables d’élaborer des inférences, elles ne peuvent combler les informations manquantes dans les textes et ne peuvent donc vraiment les comprendre.

Le groupe de travail se propose d’étudier ces mécanismes de compréhension et d’inférence, qui constituent l’un des verrous actuels en TAL (Traitement Automatique des Langues). L’objectif est d’étudier ces mécanismes d’inférence au niveau linguistique : comment décider que deux textes, ou extraits de texte, sont en relation d’inférence.
Il se centrera sur la résolution de tâches qui en constituent le cœur : la résolution automatique d’inférences textuelles, la reconnaissance de paraphrases ou de similarités sémantiques et ce, à différents niveaux de granularité, allant du mot au texte.

Tous ces problèmes requièrent de gérer la variabilité linguistique en s’appuyant sur des connaissances et des représentations très diverses (sac de mots, séquences de mots, représentations structurées, représentations distribuées) et sont abordées en grande partie par des méthodes d’apprentissage supervisé.

Quelles que soient les techniques développées (alignement de textes, traduction ou réécriture, apprentissage profond (deep learning), etc.), elles obtiennent encore des résultats très largement améliorables sur des tâches de compréhension de texte qui reste un horizon encore non dépassé. Ces tâches font ainsi l’objet d’une attention très forte actuellement et situent la compréhension de textes comme l’un des domaines phares de l’Intelligence Artificielle, aidées en cela par l’existence d’outils d’analyse linguistique de base largement disponibles.

Nous proposons deux types d’activités:

des séminaires, pour permettre la découverte et la discussion autour de méthodes de résolution récentes, présentées par les partenaires impliqués dans le GT ou par des invités. Il est prévu 1 séance par mois ;
la mise en commun de ressources et de jeux de données, pour partager et comparer des méthodes facilement. Nous proposons de mettre en place une plate-forme pour analyser des textes proposant un accès simple fondé sur une plate-forme existante au LIMSI. Les ressources ainsi centralisées seront des corpus et outils libres d’accès.

Séminaires

Mardi 19 mars 2019, à partir de 14h, LIMSI, salle de conférences, Bât.507
- 14:00 The current trend of AI applications to legal domain and PROlog-based LEGal reasoning system: PROLEG, Ken SATOH, National Institute of Informatics (NII)
- 14h45 Legal, Medical, and Conversational Natural Language Processing: Challenges in Question Answering, Dialog System and Automatic Judgement/Diagnosis Support, Yoshinobu KANO, Shizuoka University
Mardi 30 octobre 2018, à partir de 14h, LIMSI, salle de conférences, Bât.507
- - Résumés et biographie des intervenants
- 13:00 Welcome and introduction of speakers
- 13:10-14:40 Exploring POS Tagging for Learner English, Ryo NAGATA, Konan University
- 14:40-15:10 On the Importance of Word Rewarding for Adequate Neural Machine Translation, Yuki ARASE, Osaka University
- 15:10-15:30 Coffee break
- 15:30-15:50 Can LSTMs find reducible constituents? Hiroshi NOJI，AIST
- 15:50-16:20 Project Introduction: Multimodal Context Understanding for Neural Machine Translation, Takashi NINOMIYA, Ehime University
- 16:20-16:30 Closing remarks
Mardi 19 juin 2018 : Journée sur le traitement automatique de la langue biomédicale
Jeudi 26 Octobre 2017 : Apprentissage de connaissances sémantiques : adaptation de plongements lexicaux (words embeddings) à des connaissances externes, Olivier Ferret (CEA LIST) – Présentation
Jeudi 28 septembre 2017, 15h, LIMSI : De la recherche de réponses à des questions à la compréhension ciblée de textes: présentation et évolution du domaine, Brigitte Grau (LIMSI-CNRS) – Programme slides
Jeudi 6 juillet 2017, 14h30, LIMSI, Timothy Miller, Boston Children’s Hospital, Introduction to sequence models for Natural Language Processing

CDD ingénieur de recherche adossé au GT – Mise en place d’une plate-forme pour analyser des corpus

Responsable Scientifique :
- Brigitte Grau, LIMSI, Olivier Ferret
Candidate : Marine Bletrix
Période du contrat : 6 mois – mai-juillet 2017
Objectif : Mettre en commun des ressources pour entraîner, évaluer et comparer des algorithmes permettant d’établir des relations sémantiques entre énoncés en langage naturel.
Outils développés

Plate-forme pour analyser des corpus de texte
proposant un accès simple fondé sur une plate-forme existante au LIMSI Bui-Quang et al., 2016. Elle s’appuie sur un environnement Docker, ce qui permet de la déployer facilement, et propose une interface Web.
Mise à disposition du corpus WebQuestions auquel a été ajouté des passages réponses afin de tester des outils de mise en relation question-passage réponse.