2015 | D2K : De la Donnée à la Connaissance

Axe DataSense 2
Coordinatrices : Claire Nédellec, MaIAGE ; Chantal Reynaud, LRI
Objectif : Résolution de questions complexes suivant un point de vue guidé par la tâche, combinaison de méthodes interdisciplinaires allant du traitement des données et de l’information à celui de la connaissance
Productions Scientifiques :
Financement Labex en : 2015


Documents : Lien vers le projet soumis à la commission Recherche


Problème abordé
Pour répondre à des questions complexes dans les domaines scientifiques, techniques et industriels, l’intégration de méthodes issues de très nombreux domaines des STIC est nécessaire : analyse d’images, analyse du signal, traitement de la langue, système d’information, apprentissage automatique, représentation des connaissances, logique et raisonnement, traitement de l’incertitude, modélisation dynamique et systémique, etc. La modélisation du vivant et l’optimisation de filières de transformation sont deux exemples illustratifs de telles questions complexes. Plus encore, des avancées décisives sur des questions complexes et finalisées nécessitent de prendre résolument un point de vue guidé par la tâche à traiter. La réussite repose alors sur la capacité des chercheurs à prendre en compte à tout niveau dans la résolution des problèmes une double perspective interdisciplinaire STIC / domaine d’application qui assure que les contraintes et les priorités du domaine d’application sont intégrées et qui assure également la faisabilité des solutions informatiques envisagées.

Les questions au coeur de cette problématique qui seront abordées dans ce groupe de travail sont les suivantes :

  • la représentation des entrées et les sorties des traitements. Quelle représentation de l’information utile et disponible pour un traitement, guidé par la tâche et les connaissances a priori afin d’obtenir le meilleur résultat ? Les ontologies et de manière générale la représentation formelle de connaissances apportent des réponses intéressantes à la problématique de normalisation, mais la question est bien plus large.
  • la réconciliation de données incertaines, incomplètes, hétérogènes et contradictoires est également identifiée comme un point clef (avec la prise en compte de la provenance, des conditions de production des données, des protocoles de collecte, des types de mesures). Détection de contradictions aux niveaux données et connaissances, validation et fusion.
  • la gestion de données complexes et/ou massives : optimisation du stockage et interrogation efficace de données structurées ou non, à l’aide de connaissances.
  • l’extraction d’information à partir de textes (EI, Q&A) et l’analyse d’images, guidées par les modèles de connaissances et servant à les enrichir (Ontology population). Couplage avec le raisonnement et la révision non-monotone.
  • la conception d’outils facilitateurs d’interaction :
    • Plateforme de gestion de projets collaboratifs (wiki, forum, détection et résolution de contradictions),
    • Outils informatiques coopératifs (par exemple, apprentissage et acquisition de connaissance)
    • Utilisabilité : visualisation, interaction homme-machine, ergonomie
    • Conception, réutilisation et adaptation de workflows. Infrastructures, service. Formation en ligne des utilisateurs.

Stage master adossé au GT :

Période de financement : 27 mars 2017
Coordonnées de l’étudiant : Sara Oulkfif (saraoulkfif@gmail.com)
Nom du master : Master 2 Recherche Systèmes d’information et Business Intelligence.
Coordonnées de l’université ou École : Université Paris 1 et CNAM.
Axe DigiCosme : DataSense
Tuteur(s) : Fatiha Saïs et Juliette Dibie
Objectif scientifique : Évaluation de la véracité de données d’événements en épidémiologie animales : approche guidée par la fréquence des données.
Perspectives : Rédaction d’un article et extension vers une approche hybride combinant l’argumentation et la fréquence des données.

1 CDD ingénieur adossé au GT :

CDD Ingénieur de recherche
Période de financement :du 01/05/2017 – 01/01/2018
Coordonnées de l’étudiant : Christoph Kindeldey
Axe DigiCosme : DataSense
Tuteur(s) : Jean-Daniel Fekete
Objectif scientifique : Bitcoin is the largest digital pseudo-currency worldwide and its study is of increasing interest and importance to economists, bankers, policymakers, and law enforcement authorities. All financial transactions in Bitcoin are available in an openly accessible online ledger—the (Bitcoin) blockchain. Yet, the open data does not lend itself easily to an analysis of how different individuals and institutions—or entities on the network—actually use Bitcoin. We want do design a system, BitConduite, to allow the exploration of the activity on Bitcoin.
Our system BitConduite offers a data transformation back end that gives us an entity-based access to the blockchain data and a visualization front end that supports a novel high-level view on transactions over time. In particular, it facilitates the exploration of activity through filtering and clustering interactions.
Perspectives : Currently, the raw data alone contains over 175 million transactions ( > 100 GB of raw data) and is constantly growing. Visualizing this many transactions requires techniques that work on multiple levels of data aggregation. We need to provide complete overviews of the network and also allow analysts to interactively drill down and see close details of transactions or individual actors on the network. The work will later explore other blockchains, such as Ethereum or consortium blockchains when data is available. We will conduct our research in collaboration with economists and consortium blockchain managers. Economists want to understand the activities on the blockchains and compare them with related economic activities in the real world. Consortium blockchain managers need to understand how their blockchain evolves, according to their plans and how it compares to other blockchains.
Outil développé : BitConduite


Réunions de travail

Réunion du 12/07/2017
10h00 – 13h00 LRI, Bât. 650, Ada Lovelace, salle 455. Thème : « Relier des événements à partir de données de formulaires et de texte ou Event linking from records or texts« 
Titre : Event Analytics and the Visualization of Temporal Event Sequences, Catherine Plaisant en visite à l’INRIA – Saclay (AVIZ), invité du LabEx DigiCosme – Human-Computer Interaction Lab, University of Maryland

Résumé :
The visualization of temporal event sequences contributes to a variety of tasks: reviewing individual records, helping assess data quality, finding records of interest, reviewing overall temporal patterns or understanding differences between groups of records. I will review several visualizations developed at the University of Maryland to address this topic, and then quickly scan a few other projects that may be of interest to D2K participants (and could be discussed during the rest of my visit), such as finding similar records or visualizing frequent patterns in text collections.

Liens :
EventFlow and vis of temporal sequences
See Project page
Download Presentation’s slides

And for patterns of repetitions in text
Project page
Download Presentation’s slides

Biography
Catherine Plaisant is a Senior Research Scientist at the University of Maryland Institute for Advanced Computer Studies and Associate Director of Research of the Human-Computer Interaction Lab. Catherine Plaisant has over 200 publications, on subjects as diverse as information visualization, medical informatics, universal access, decision making, digital humanities or technology for families. Her work spans the interface development lifecycle, from understanding needs and interface design to evaluation. In 2015 she was elected to the ACM SIGCHI Academy (recognizing principal leaders in the field of Human-Computer Interaction). With long term collaborator Ben Shneiderman she co-authored the 4th, 5th and 6th Editions of Designing the User Interface, one of the major books on Human-Computer Interaction.

Titre : Coreference resolution: state of the art and application to biomedical text.Timothy Miller en visite au LIMSI (ILES), invité du LabEx DigiCosme – Computational Health Informatics Program (CHIP) de l’hôpital des enfants de Boston.
Télécharger la présentation
Résumé
Problem description, early systems, and applications – What is coreference, why is it important, what are some of the early methods, and what are some important use cases that rely on solving the coreference resolution problem?
– Machine learning approaches – An overview of common machine learning approaches for the task, including pairwise, mention-synchronous, agglomerative clustering, easy-first, and even some of the unsupervised approaches
– Biomedical coreference resolution – Domain-specific issues with solving coreference, as well as an introduction to domain-specific resources that are available for the task.
– Future directions for coreference research – An introduction to hot topics in coreference resolution, including search-based learning, neural-network based representation learning, and cross-document coreference, with suggestions for how these methods can be applied to biomedical texts.

Biography
Timothy Miller, PhD, is a scientist at the Computational Health Informatics Program (CHIP) at Boston Children’s Hospital and an Instructor at Harvard Medical School. His research background is in computer science, with his thesis (2010) describing linear time syntactic models for speech repair. In his current position, he works on a variety of clinical natural language processing problems. He has made core contributions in temporal information extraction (Lin et al, 2014, Miller et al, 2013, Miller et al., 2015), UMLS relation extraction (Dligach et al, 2013), coreference resolution (Miller et al, 2012, Zheng et al, 2012, Miller et al., 2017a), and negation detection (Wu et al, 2014, Miller et al., 2017b). He also is a primary contributer to open source projects, including Apache cTAKES (clinical Text Analysis and Knowledge Extraction System) and ClearTK. He is currently interested in Bayesian grammar induction, temporal information extraction in the clinical domain, and domain adaptation for clinical NLP.


Réunion du 09/05/2017
14h00 – 17h00 LRI, Bât. 650, Ada Lovelace, salle 455. Thème : « Ouverture des données scientifiques et fouille de texte – évolution de la loi et des pratiques« 
Titre : Les données ouvertes
Sophie Aubin, animatrice du Pôle Gestion des Connaissances (GeCo) à la DIST (Délégation Scientifique et Technique) de l’INRA, Versailles.
Télécharger
Titre : Quels droits pour le TDM ?
Claire Nédellec, MaIAGE, Jouy-en-Josas, INRA.
Télécharger


Réunion du 27/02/2017
14h00 – 17h00 LRI, Bât. 650 Ada Lovelace, salle 455. Thème : « Ontologies et extraction d’informations à partir de textes« 
Titre : Validation of Claimed Relations by Different SF Systems for KBP Task
Rashedur Rahman, LIMSI, CNRS, Université Paris-Sud. Télécharger
__Titre : Extraction et classification de relations sémantiques dans des articles
scientifiques__
Kata Gabor, LIPN, Institut Galilée, Université Paris-13.

Résumé :
De nos jours, la production d’articles scientifiques croît à un rythme accéléré. Cette explosion d’information rend le travail des chercheurs, des relecteurs et des experts de plus en plus difficile. Ce problème a attiré l’attention de plusieurs chercheurs dans les domaines du web sémantique, de la scientométrie et du traitement du langage naturel, qui explorent des solutions pour fournir un meilleur accès à la littérature scientifique par une analyse sémantique profonde du contenu des textes. La compréhension profonde d’un domaine scientifique et de son état de l’art requiert l’identification des entités pertinents et les relations sémantiques qui les lient. De telles relations peuvent être extraites en utilisant ressource ontologique existante. Cependant, la disponibilité et la couverture des ressouces spécifiques sont limitées, puisque leur construction est coûteuse en termes de temps de travail et de besoin d’expertise. Ainsi, nous cherchons à mettre en oeuvre une approche non supervisée pour l’identification des relations sémantiques dans un corpus de spécialité. Notre approche ne nécessite pas des données d’apprentissage annotées et bien qu’elle soit spécifiquement dédiée à la littérature scientifique, elle reste applicable sur n’importe quel domaine pour lequel une telle littérature existe.

La présentation explorera les problématiques spécifiques à la tâche d’extraction et classification de relations de manière non supervisée. Deux approches complémentaires seront présentées. La première se concentre principalement sur les relations lexicales, et elle est basée sur la caractérisation du sens des mots individuels par des vecteurs distributionnels (word embeddings). Ces vecteurs sont créés à partir de corpus et combinés pour représenter le sens et la relation sémantique du couple d’entités. Nous proposons une nouvelle méthode de combinaison de vecteurs distributionnels qui permet de mieux estimer la similarité relationnelle entre deux couples d’entités. L’avantage de cette méthode est de pouvoir s’appliquer à des couples d’entités qui ont peu de co-occurrences dans le corpus. La deuxième approche, à son tour, s’appuie sur les contextes de co-occurrence des entités. Les couples d’entités sont caractérisés par leurs co-occurrences avec des motifs spécifiques à la relation, qui sont extraitsautomatiquement à partir du corpus. Nous montrons que cette approche peut bénéficier de la fouille de motifs séquentiels, qui crée un espace vectoriel plus adapté (moins creux) pour un clustering non supervisé. Après la présentation des résultats, nous indiquerons quelques directions vers une hybridisation des deux approches.


Réunion du 08/06/2016
14h00 – 17h00 LRI, Bât. 650 Ada Lovelace, salle 455. Thème : « Compétitions dans le domaine biomédical« 
Titre : Une tâche partagée en résumé automatique de texte : retours d’expérience.
Kevin Cohen, chercheur invité au LIMSI,CNRS. Télécharger
Titre : BioNLP Shared Task 2016 : acquisition automatique de connaissances dans les domaines des habitats bactériens et la génétique des plantes.
Robert Bossy, unité MaIAGE INRA. Télécharger

Résumé : Dans cet exposé nous décrirons l’organisation et les résulats obtenus lors de la campagne 2016 de BioNLP-ST pour les tâches « Bacteria Biotopes » et « Genetics of Seed Development ». L’élaboration de ces tâches sont guidées par un besoin d’automatisation de l’acquisition de bases de connaissances à partir de la littérature scientifique. Nous exposerons comment cet objectif a influencé l’annotation des corpus de référence et le choix des métriques d’évaluation. Les résultats obtenus par les participants montrent les capacités et les limites de l’acquisition automatique de bases de connaissances.


Réunion du 23/03/2016
14h00 – 17h00 LRI, Bât. 650 Ada Lovelace, salle 455. Thème : « Analyse de contenus multimedia« 
Titre : Indexer et enrichir la TV (sans regarder les images)
Vincent Claveau (Irisa, Rennes) Télécharger

Résumé : Avec la convergence numérique se développe de nouveaux modes de consommation de la télévision. On regarde ses émissions préférées en rediffusion (replay, catch-up TV), sur son ordinateur, ou avec tablette sur les genoux (second screen). Avec ces nouveaux usages, il est devenu possible de proposer des services innovants au téléspectateur pour enrichir son expérience.
Dans cet exposé, nous verrons comment le traitement automatique des langues peut jouer un rôle central pour construire ces services, soit en conjonction avec les autres médias (images, sons), soit sans.
Titre : Indexation multimodale de documents multimédia
Camille Guinaudeau et Hervé Bredin (Limsi, Université Paris-Saclay) Télécharger la présentation de CamilleTélécharger la présentation d’Hervé

Résumé : L’indexation de documents multimedia nécessite d’extraire les informations portées par les différentes modalités, utilisées ensemble ou séparément, pour caractériser le contenu des documents.
Au cours de cet exposé Camille Guinaudeau présentera les travaux effectués au sein du groupe du Traitement du Langage Parlé autour de l’indexation multimodale de séries télévisées et Hervé Bredin décrira la campagne d’évaluation « Multimodal Person Discovery in Broadcast TV » proposée en 2015 lors du workshop MediaEval.


Réunion du 19/02/2016
9h30 – 12h30, LRI, Bât. 650 Ada Lovelace, salle 455. Thème : « Connaissances et Raisonnement« 
Titre : Measuring Inconsistencies in Knowledge Bases
Yue Ma, Equipe LaHDAK, LRI – Université Paris-Sud – CNRS – Université Paris-Saclay Télécharger

Résumé : Reasoning about inconsistent knowledge bases has been a long-standing challenge in the AI community because inconsistencies are often unavoidable in real-world applications. In recent years, measuring inconsistency has been widely studied to give a quantitative treatment of inconsistencies. In this talk, I will first introduce the problem of inconsistency measuring, followed by the challenges in defining a proper inconsistency measure. Different approaches to setting an inconsistency measure will be presented, together with their theoretical properties and computational algorithms whenever available. Application secnarios will be discussed to show the usage of an inconsistency measure.
Titre : Semantic for Consistent Query Answering
Michaël Thomazo, Projet OAK, INRIA – Université Paris-Saclay

Résumé : I will introduce the problem of querying (« Which animals are on the sofa? ») data (« Garfield is a cat », « Garfield is a dog », « Garfield is on the sofa ») in presence of ontologies (« A cat is an animal », « A dog is an animal », « No dog is a cat as well ») when there are inconsistencies between the data and the ontology. After showing that the classical first-order semantics is not very well suited for this, I will present several alternative semantics and discuss their pros and cons.


Réunion du 13/01/2016
9h30 – 12h30, LRI, Bât. 650 Ada Lovelace, Salle 455. Thème : « Connaissances et Analyse d’images« 
Titre : Modélisation de connaissances anatomiques pour l’interprétation d’images médicales
Isabelle Bloch, LTCI, CNRS, Télécom ParisTech, Université Paris-Saclay Télécharger

Résumé : Nous présentons l’intérêt de la modélisation de connaissances pour guider l’interprétation d’images, en particulier médicales, en insistant sur les connaissances structurelles telles que des relations spatiales. Ces connaissances peuvent être modélisées sous forme d’ontologies, de graphes, ou encore de réseaux de contraintes, associés à des représentations floues de relations spatiales. Nous illustrons quelques méthodes de reconnaissance d’objets et de scènes, guidées par ces modèles, en particulier en imagerie cérébrale, pour la segmentation et la reconnaissance de structures internes du cerveau, y compris en présence de tumeurs.
Titre : Extraction/utilisation d’informations à partir d’images acquises en microscopie: quelques exemples
Alain Trubuil, INRA – CRJ, Unité MaIAGE – Jouy en Josas

Résumé : Dans cette présentation, l’objectif est de montrer sur un exemple qu’une information élaborée peut parfois être inférée à partir de données d’imagerie en apparence assez simples. Alain Trubuil s’appuie, pour cela, sur le développement précoce des embryons de plantes et montre que certaines traces du passé de l’embryon peuvent aussi être extraites et servir pour représenter et comparer des embryons.


Réunion du 13/10/2015
9h30 – 12h30, LRI, Bât. 650 Ada Lovelace, Salle 455. Thème : « Modélisation et Processus« 
Télécharger le compte rendu
– Présentation équipes :

Titre : Construction d’une ontologie multi-étapes et multi-échelles
Juliette Dibie-Barthélémy (Groupe Link – MIA – Inra & AgroParisTech) Télécharger

Résumé : We propose to face the heterogeneity of the experimental data and experts knowledge on food transformation processes by building an ontology. The Multi-Scales and Multi-Steps Ontology, MS²0, presented allows one to model a dynamic process composed of a sequence of operations that allows inputs to be transformed in several different outputs, the inputs and outputs being studied at different scales (from the microbial cell components to the target functionality at the population level). The presentation is illustrated by examples on the eco-design of the system of stabilized micro-organisms production, described at different scales (from the microbial cell components to the target functionality at the population level) and at different steps of the production process.

Titre : (Ré)-utilisation de workflows scientifiques pour une meilleure reproductibilité des expériences bioinformatiques
Sarah Cohen-Boulakia (Equipe BioInfo – LRI – UPSud) Télécharger

Résumé : L’intégration des données biologiques (hautement complémentaires) est un besoin fort pour faire progresser les connaissances en biologie. Dans ce contexte, les workflows scientifiques sont utilisés pour intégrer finement les données et faire face à leur grande hétérogénéité. Ils permettent de décrire précisément les outils bioinformatiques utilisés (et l’ordre dans lequel les utiliser) lors d’une expérience bioinformatique. Une même expérience peut alors être « rejouée » plusieurs fois (à l’identique pour faire valider un résultat par un tiers, ou en modifiant des paramètres pour mieux comprendre un résultat expérimental etc). L’utilisation (et la réutilisation) de workflows scientifiques joue donc un rôle clé dans la reproductibilité des expériences bioinformatiques.
Dans cet exposé, nous présentons d’abord les résultats d’une étude approfondie que nous avons mené de la réutilisation des workflows disponibles dans les grands entrepôts de workflows. Face au relativement faible taux de réutilisation que notre étude met en évidence, nous avons proposons des contributions suivant deux axes.
Premièrement, nous présentons des méthodes d’interrogation d’entrepôts de workflows efficaces et précises (en collaboration avec l’université de Humboldt, Berlin) pour permettre aux utilisateurs de retrouver plus rapidement et facilement des analyses existantes effectuant des tâches similaires à celles qu’ils souhaitent entreprendre. Deuxièmement, nous présentons des travaux qui visent à réduire la complexité structurale des workflows (qui peuvent avoir des structures de graphes très complexes) dans deux projets, ZOOM*userviews (avec l’université de Pennsylvanie) et DistillFlow (avec l’université de Manchester) pour rendre les workflows scientifiques plus lisibles et facile à interpréter (donc à réutiliser) pour l’utilisateur.
Enfin, nous dégageons des axes de collaboration possible avec les membres du groupe de travail D2K notamment autour des thématiques d’annotation de workflows en utilisant des ontologies et des techniques de fouille de texte.


Réunion de lancement
08/06/2015, 9h30 – 12h30, LRI, Bât. 650 Ada Lovelace, Salle 455. Télécharger le compte rendu
– Présentation équipes :

Titre : Annotations précises et personnalisées pour l’interprétation de textes décrivant des entités
(C. Alec – LRI – LaHDAK) Télécharger

Résumé : Ce travail présente une approche d’annotation sémantique de documents issus d’un corpus où chaque document du corpus décrit une entité particulière (un produit, un objet, une personne) relevant d’un même domaine. Notre but est d’interpréter chaque document, i.e. de l’annoter avec des types précis, qui traduisent des points de vue particuliers qui peuvent changer d’une application à l’autre et qui ne sont pas forcément aisément définissables. Le processus d’annotation d’un document s’appuie sur une ontologie et s’effectue en deux étapes. Les caractéristiques de base d’une entité sont tout d’abord extraites du document la décrivant, puis un raisonnement sur ces caractéristiques permet d’inférer les annotations à associer à ce document. L’approche combine de façon automatique des techniques de TAL, d’Apprentissage et du Web Sémantique et est validée sur deux domaines, celui des descriptions de destinations de vacances et celui des films.

Titre : Apprentissage automatique pour l’extraction de réseaux de régulation géniques à partir d’articles
(Dialekti Valsamou – MaIAGE-INRA et LIMSI CNRS/UPSud) Télécharger

Résumé : L’exposé porte sur l’extraction automatique de connaissances sémantiques relationnelles à partir d’articles scientifiques sur le développement de la graine de la plante modèle Arabidopsis thaliana. Les connaissances extraites permettront la reconstruction des réseaux de régulations en incluant les niveaux génétique et moléculaire, les facteurs environnementaux et les phénotypes associés. Une meilleure compréhension de ces mécanismes présente de nombreux intérêts finalisés pour l’agriculture et l’industrie. Ces connaissances sont décrites par des expressions complexes qui impliquent des entités biologiques reliées par des relations sémantiques spécialisées. L’approche retenue est celle de l’apprentissage automatique supervisé à base de noyau, appliqué à des exemples préalablement représentés et normalisés grâce à une analyse linguistique automatique profonde. La collaboration implique trois laboratoires, MaIAGE, LIMSI et IJPB, à l’interface de l’extraction d’information et de la biologie.


Équipes participantes, avec contact pour chacune

  • MaiAGE, équipe Bibliome : Claire Nédellec ; équipe BioSys : Alain Trubuil
  • LRI, équipe LaHDAK : Chantal Reynaud ; équipe Modhel : Yolaine Bourda ; équipe Bioinformatique : Christine Froidevaux
  • LIMSI CNRS, équipe ILES : Brigitte Grau ; équipe TLP : Camille Guinaudeau
  • Télécom ParisTech, LTCI, équipe TII : Isabelle Bloch
  • Inra et AgroParisTech, MIA-Paris, équipe Link : Juliette Dibie
  • LIST, équipe LVIC : Olivier Ferret
  • LAL : Balázs Kegl
  • INRIA Saclay, équipe AT-SAC : Gregory Grefenstette ; équipe AVIZ : Jean-Daniel Fekete ; équipe ILDA : Emmanuel Pietriga
  • IBISC, équipe Arobas : Fariza Tahi
  • MAS, équipe LogiMAS : Céline Hudelot
  • GMPA, équipe Malices : Nathalie Perrot
  • Prism, équipe ADAM : Béatrice Finance