2018 | MAEL - Labex DigiCosme

MultimediA Entity Linking.

Axe : DataSense
Coordinateurs : Hervé Le Borgne
Nom & Prénom du Candidat : Omar Adlali
Institutions : CEA list, LIMSI
Laboratoire gestionnaire : CEA list
Adossé à l’action DigiCosme : GT D2K & GT TAL&SEM
Durée & Dates de la mission : 1 an – Juin 2018 – mai 2019

Description :

The main purpuse of this project is to determine how the visual information may be useful for an Entity Linking system. To put inplace such a Multimedia Entity Linking (MEL) system, several question need to be addressed:

which type of entity can benefit from an additive visual information ? One can imagine that a portrait may help to identify a person, although it can also be one more source of ambiguity. Similarly, an article containing a named entity relative to an organization may be illistrated by its logo, but also by a portrait of its CEO or headquarters.
At a large scale, one can imagine that different detectors may be used, depending on the concept that one want to extract. Hence, how to get a relative homogeneous visual representation, despite of possible multiple approaches to extract it ?
how to manage incoherent information coming from visual and textual modalities ?
Last but not least, the evaluation of such a MEL system is a challenge in itself since it does not exist any dataset for this. Buiding it at a realistic scale, while avoiding classical bias of manual (and tedious) annotation, is one of the first challeng eof the MAEL project.

Seminar :

Multimodal entity linking for tweets
Speaker Omar Adjali
Date 9/12/2019 — 14h30-15h30
Place amphithéâtre 34, bâtiment 862, NanoInnov (2 boulevard Thomas Gobert, Palaiseau)

In many natural language processing applications (e.g., information retrieval, sentiment analysis), entity linking (EL) has emerged as a crucial task that allows leveraging information about named entities from a knowledge base. It consists in mapping ambiguous named mentions within a text to entities defined in a knowledge base. While most of the existing approaches mainly rely on textual information, the emergence of social media platforms gives the opportunity to gather a lot of data where text and images are related. However, unlike standard textual document, social media posts analysis poses new challenges to NLP researchers, since despite the large amount of available data, social media posts are often short and noisy with a poor context making the entity linking task more difficult. Through this talk, we propose to investigate the multimodal entity linking task on tweets where both textual and visual information are exploitable and demonstrate experimentally on a new dataset that the visual modality can help improving the entity linking task.

Publications :

Adjali O., Besançon R., Ferret F., Le Borgne H. et Grau B. Multimodal Entity Linking for Tweets, European Conference on Information Retrieval (ECIR), Lisbon, Portugal, 14-17 April, 2020
Adjali O., Besançon R., Ferret F., Le Borgne H. et Grau B. Building a Multimodal Entity Linking Dataset From Tweets, International Conference on Language Resources and Evaluation (LREC), Marseille, France, 11-16 May, 2020

French description :

Contexte :
La normalisation des entités nommées présentes dans les requêtes est connue pour son impact positif sur les processus de recherche d’information . La désambiguïsation d’entités nommées, également appelée entity linking, consiste à lier automatiquement des mentions d’entités identifiées dans un texte et des entités présentes dans une base de connaissances aboutissant ainsi à une normalisation non équivoque desdites entités.

Une telle tâche est parfois généralisée à un système plus complexe visant à désambiguïser globalement tous les concepts d’un texte par rapport à une base de connaissances donnée, que ce soient des entités nommées ou des expressions nominales (e.g. Wikify ou Babelfy). Un système de désambiguïsation d’entités comporte usuellement trois composants principaux (Ji et al., 2014). Premièrement, le texte requête est analysé pour y identifier des « mentions d’entités » susceptibles d’être désambiguïsées au regard de la base de connaissances de référence. Ensuite, pour chaque mention d’entité, le système produit plusieurs « entités candidates » à partir de la base. Finalement, il sélectionne la meilleure entité parmi les candidates. L’une des principales difficultés, dans ce contexte, est de pouvoir gérer le très grand nombre d’entités généralement présentes dans la base qui donnent lieu à un grand nombre d’ambiguïtés.

La désambiguïsation d’entités nommées en tant que telle concerne à ce jour des données textuelles exclusivement, mettant en regard des problématiques de traitement automatique de la langue et de représentation de la connaissance. MAEL a pour but d’utiliser l’information visuelle pour aider à la désambiguïsation, chaque fois que cela peut être utile. C’est bien entendu le cas quand le document analysé est multimodal par nature, tel un texte accompagné de photos illustratives, ou encore les sous-titres (ou la transcription audio) d’une vidéo. La reconnaissance visuelle d’une personne, d’un film, d’un lieu ou d’une organisation via son logo facilitera alors grandement la désambiguïsation. Plus subtilement, certains concepts sont plus facilement représentables visuellement que textuellement, notamment en ce qui concerne les couleurs.

Objectif :
Le principal objectif du post-doc est de déterminer comment l’information visuelle peut être profitable à un système de désambiguïsation d’entités nommées.

La mise en place d’un système d’entity linking multimédia nécessite l’exploration de plusieurs questions. Il s’agira tout d’abord de déterminer quel type d’entité peut bénéficier de la prise en compte de la dimension visuelle d’une part, et les méthodes disponibles pour y extraire cette information d’autre part. On pense par exemple à la reconnaissance de visage pour les personnes ou à la reconnaissance de logo pour des organisations. La spécificité des approches permet généralement un gain significatif des performances de reconnaissance. Néanmoins, une telle hétérogénéité des approches pose plusieurs problèmes. En premier lieu, le système risque vite de devenir surdimensionné en terme de complexité s’il doit faire appel à une batterie de détecteurs visuels pour chaque désambiguïsation. Une pré-sélection des outils visuels à mettre en œuvre en fonction du type d’entité intègre une possible erreur d’identification dudit type et ne peut donc pas le corriger. De plus, en cas de multimodalité par exemple, il ne peut être exclu que texte et image ne soient pas strictement cohérents. Par exemple, un article traitant d’une annonce relative à une organisation peut être illustré par le portrait de l’un de ses dirigeants ou d’un porte parole, de l’un de ses produits phares, ou encore des bâtiments de son siège social.
Ainsi, l’un des principaux défis est d’établir une représentation homogène de l’information visuelle en dépit d’une possible hétérogénéité des méthodes utilisées pour l’extraire. De plus, cette représentation visuelle doit aussi être aisément comparable aux représentations issues du texte. La fabrication d’un espace commun à toutes ces représentations apparaît comme une piste prometteuse, bien que possiblement ardue à mettre en œuvre. Les co-encadrants du post-doc ont déjà proposé de tels espaces dans le contexte de la recherche et la classification cross-modale, pour les modalités texte et image. Par ailleurs, ils ont aussi mis en place un système d’entity linking textuel comportant plusieurs millions d’entités dans la base de connaissances pour le CEA et ont explorés l’apprentissage joint de représentations distribuées des mots et des entités dans le même espace qui permet d’établir un modèle robuste pour la comparaison entre le contexte local de la mention d’entité et les entités candidates pour le LIMSI.

A grande échelle, la fabrication d’une base de connaissance multimédia est aussi un défi, à la fois en terme de collecte de données et de leur annotation. Dans le domaine de la vision, cette problématique est activement traitée depuis la ré-émergence de l’apprentissage profond en 2012. Les co-encadrants du post-doc ont eu des contributions dans ce domaine, concernant d’une part l’utilisation de données faiblement annotées pour apprendre des réseaux convolutifs et d’autre part l’amélioration de la représentation visuelle dans un contexte de transfert d’apprentissage en ayant un coût d’annotation quasi nul.

Productions Scientifiques :

Adjali O., Besançon R., Ferret F., Le Borgne H. et Grau B. Multimodal Entity Linking for Tweets, European Conference on Information Retrieval (ECIR), Lisbon, Portugal, 14-17 April, 2020