2016 | Analyse de déclarations de personnalités politiques

Code source :https://bitbucket.org/sejla/tweet-analytics
Axe & tâche scientifique DigiCosme : DataSense, tâche 2
Porteurs du projet : Xavier Tannier
Nom & Prénom du Candidat : CEBIRIE Sejla
Email :sejla.cebiric à inria.fr
École doctorale : EDSTIC
Équipes impliquées : INRIA CEDAR, LIMSI ILES
Durée et dates de la mission : octobre 2016 – octobre 2017


Contexte :

Depuis 2015, le LIMSI (X. Tannier) et INRIA Saclay (I. Manolescu) ont entamé une collaboration sur le sujet des techniques d’analyse de contenus (analyse de texte, bases de données, Web sémantique) appliquées aux traitements journalistiques. Cette collaboration a permis la création d’une petite équipe d’enseignants-chercheurs, chercheurs, étudiants et ingénieurs, étudiant ces sujets en collaboration avec l’équipe
“Les Décodeurs” du journal Le Monde.
Cette équipe a pu s’étoffer par le biais notamment du recrutement d’un ingénieur ADT INRIA (Oscar Mendoza) pour 2 ans à partir d’octobre 2015, ainsi que de l’obtention d’un crédit de recherche Google en juin 2015 et d’un projet ANR ContentCheck (4 ans à partir de janvier 2016), focalisé sur des modèles, algorithmes et plateformes pour l’analyse de données du journalisme (https://team.inria.fr/cedar/contentcheck/).
Deux stagiaires de Master 2e année (Javier Letelier, de l’Université de Chile, et Tien Duc Cao, du Master 2 Data & Knowledge) font actuellement partie du projet. Côté chercheurs, Michael Thomazo (CR2 INRIA) participe aussi au projet.


Objectif :

Le but du projet proposé est d’étendre, consolider et enrichir un module d’analyse des déclarations des personnalités politiques, telles qu’elles apparaissent dans des contenus publiés dans la presse.
La conception et le développement de ce module ont déjà commencé ; il s’agit d’un module bien délimité et indépendant du reste du projet. À l’heure actuelle, il se présente comme un outil de recherche permettant, sur un thème donné, d’observer l’évolution et les différences de vocabulaire dans les tweets des différents partis politiques.


Résultats attendus :

Le résultat attendu est un module d’analyse des déclarations étendu avec (i) des calculs de similarités et des fonctionnalités de clustering sémantique des personnes en fonction de leurs discours et (ii) d’un démonstrateur proposant une visualisation intuitive des résultats de l’espace de personnes et discours ainsi identifié. si possible, par l’étudiant ou par une tierce personne.
Nous espérons être en mesure de proposer notre outil aux journalistes du Monde, et parvenir à réaliser des études sur certains thèmes ou certains événements, dans le but de contribuer à des enquêtes par une mise en perspective originale de l’information.


Plus-value apportée par ce financement :

Le doctorant gagnera une expérience de développement dans une équipe, sur un projet collaboratif, utilisant les bonnes pratiques de collaboration sur la conception et le développement d’un logiciel.
Du point de vue scientifique, le projet apportera des connaissances en traitement de langage naturel, en recherche d’information, et éventuellement en visualisation de données.
D’un point de vue professionnel, le projet donnera l’occasion d’étudier la conception d’une application pour un utilisateur final non expert (Le Monde) mais “cultivé” en informatique, c’est à dire ayant d’assez bonnes connaissances des outils et techniques existants, et des idées innovantes sur leurs usages possibles.