2014 | BIPIMA 

BIPolarité de l’Information Multimédia pour l’Annotation sémantique d’images dans un contexte de médias sociaux


Début : 2014
Axe : DataSense 1,2,3
Sujet : Analyse de données multimédia et gestion des connaissances dans le contexte des médias sociaux
Directeurs : Céline Hudelot,MAS, Hervé Le Borgne, CEA list, Isabelle Bloch, LTCI
Institution :MAS / LIST
Doctorant : Sonia AJINA
Productions scientifiques :

26/07/2018 : étudiante en dépression en 3ème année. Vraisemblablement ne soutiendra pas sa thèse (Céline Hudelot)

Ressources :Image


Contexte :
La popularité des médias sociaux et des dispositifs mobiles a engendré une explosion des données non structurées disponibles et en particulier des documents multimédia. On estime, par exemple, à environ 8 milliards le nombre d’images hébergées en 2013 sur le site populaire de partage d’images Flicker. Ces grandes collections représentent de véritables gisements d’informations et de connaissances, à condition de disposer d’outils performants pour leur analyse et leur interprétation sémantique.

Ces documents multimédia sont composés, par définition, de plusieurs « mono-média », qui sont autant de sources d’information. Par exemple, dans le cas d’une image issue d’un site tel que Flickr, outre les métadonnées relatives aux conditions de prise de vue, son contenu est reflété visuellement par les pixels de l’image et textuellement par plusieurs annotations ou étiquettes appelées tags. Ces tags sont une source d’information importante, et de nombreux travaux récents ont montré que combiner cette source d’information à l’information visuelle permet d’améliorer considérablement les performances des systèmes de recherche et d’interprétation d’images. Dans les contextes des médias sociaux, les tags ne sont qu’un type de signal social disponible et de nombreux autres signaux (commentaires, notations…) ainsi que le réseau d’interaction sociale en tant que tel sont autant de sources d’informations exploitables pour la recherche sémantique d’images.

Cependant, cette information « sociale » est imparfaite et partiellement pertinente dans un objectif d’interprétation sémantique d’images. En effet les annotations sociales sont souvent libres (vocabulaire non contrôlé), dépendent des motivations propres et souvent non connues des utilisateurs, et sont souvent non corrélées à un problème particulier (annotation, recherche…). il convient donc de prendre en compte ces imperfections pour améliorer le processus d’interprétation sémantique du contenu des images.

Intérêt scientifique:
Le projet BIPIMA renchérit sur de précédents travaux portant sur l’interprétation sémantique des images (projet FRIDOM) en proposant d’une part une modélisation plus explicite et plus riche des imperfections de l’information multimédia et d’autres part de nouveaux cadres pour raisonner sur cette information multimodale imparfaite.

En particulier, le projet se propose d’exploiter la qualité bipolaire des informations dans le contexte des médias sociaux, qui permet de faire facilement la distinction entre information positive (ce qui est garanti être possible car, par exemple, avéré) et information négative (ce qui est impossible, interdit). Par exemple, prenons l’information textuelle issue des tags. On peut facilement qualifier une partie de cette information de positive (par exemple celle qui décrit réellement le contenu de l’image) et une autre comme négative (par exemple, la présence d’un tag « Tour Eiffel » interdit l’interprétation de l’image comme une chaîne de montage.

Perspectives :
La thèse de Sonia AJINA se situe à la frontière des domaines de l’intelligence artificielle (représentation des connaissances et du raisonnement), de la vision par ordinateur et de la fouille de données sociales. L’objectif et le défi principal de ce projet consiste à étudier et à caractériser les différentes sources d’information issues des médias sociaux et à les exploiter en raisonnant sur leurs caractéristiques, pour l’annotation et l’interprétation sémantique d’images. La forte dimension sociale des données visées implique de proposer de nouveaux paradigmes pour leur interprétation sémantique, d’une part parce que ces données sont fortement « bruitées  » dans ce contexte d’interprétation, mais aussi parce que leur dimension sociale, liée à une sorte d’intelligence collective, ouvre de nouvelles perspectives.

  • Étudier les différentes sources d’information disponibles dans le contexte des médias sociaux pour l’annotation et l’interprétation multimodale d’images et proposer des techniques permettant de caractériser leur polarité en vue de leur interprétation sémantique.
  • Étudier les différentes approches permettant de modéliser de manière explicite le caractère bipolaire de l’information multimédia.
  • Proposer un cadre formel permettant d’exploiter et de raisonner sur le caractère bipolaire de l’information multimédia pour améliorer la prise de décision résultant en l’annotation d’une image.
  • Étudier le comportement des modèles et du cadre proposé dans le contexte de masses de données et notamment quand ils sont appliqués à de grands corpus de données multimédia.

Sonia AJINA Image