Animatrices : Claire Nédellec et Fatiha Saïs
Axe 3 IID (data sense), principalement IID-1 : Data management, knowledge representation and reasoning
Partant du constat que les données et les connaissances sont partout, multiformes, multi-sources, complexes et volumineuses, la communauté scientifique internationale et française s’est intéressée aux processus de publication, d’intégration et de raffinement de ces données et connaissances à travers des initiatives telles que Linked Open Data, TeraData et BioPortal. L’utilisation de ces données et connaissances soulève plusieurs défis pratiques, théoriques et sociétaux pour permettre aux systèmes et aux personnes de faire des prédictions, prendre des décisions, établir des diagnostics, etc.
L’exploitation et la compréhension de ces données et connaissances résident dans la capacité à traiter des données très hétérogènes, de différents types (texte, relationnel, graphiques, flux, images, données de capteurs), provenant de divers domaines (sciences de la vie, astronomie, santé, finance, villes intelligentes, culture) et associées à des connaissances représentées dans de différents formalismes (graphiques, thésaurus, ontologies, règles, contraintes).
L’une des réussites dans ce domaine est par exemple la capacité de créer, de publier et d’exploiter des graphes de connaissances au moyen de divers outils et services et cela dans de nombreux domaines d’applications. Les graphes de connaissances sont un moyen de contribuer à la création de systèmes intelligents qui intègrent des connaissances et des données à grande échelle. Les premiers graphes de connaissances représentés suivant les langages standards du W3C (RDF, OWL, SPARQL) sont apparus en 2007 grâce à des projets académiques DBpedia et Yago. Depuis la création du « Google Knowledge Graph » en 2012, un fort engouement est visible chez beaucoup d’entreprises du numérique et bien d’autres (e.g. Facebook, eBay, Amazon, Bloomberg, la communauté européenne) visant à créer, à raffiner et exploiter les graphes de connaissances dans différentes applications comme les moteurs de recherche, les assistants personnels, les chat-bots.
L’exploitation de représentations riches des données telles que les graphes de connaissances pour répondre à différents besoins applicatifs a généré une émulation très positive dans divers domaines de recherche, tels que le web sémantique, les bases de données, la représentation de connaissances et raisonnement, le NLP et l’apprentissage automatique. Ils ont également été à l’origine d’avancées scientifiques et interdisciplinaires importantes dans ces différents domaines. Il est également important de noter que l’intégration de méthodes et de techniques provenant de disciplines aussi diverses permettent de concevoir des approches originales et plus efficaces pour le traitement de certains problèmes difficiles, mais génère en même temps de nouveaux défis scientifiques d’ordre théoriques et pratiques, par exemple sur des approches hybrides combinant des techniques de ces différentes disciplines.
Ces questions rassemblent une communauté significative de chercheurs du site Paris-Saclay de l’axe IID de DigiCosme.
Le Groupe de Travail proposé s’intéressera aux approches issues de ces différentes disciplines pour l’exploitation et la compréhension de ces données et connaissances et qui répondent par exemples aux défis suivants :
- La gestion de données complexes et/ou massives : optimisation du stockage et interrogation efficace de données structurées ou non, à l’aide de connaissances.
- L’acquisition de connaissances à partir de sources de données complexes et hétérogènes (données structurées et non structurées).
- La représentation des entrées et sorties des traitements. Quelle représentation de l’information utile et disponible pour un traitement, guidé par la tâche et les connaissances a priori afin d’obtenir le meilleur résultat ? Les ontologies et de manière générale la représentation formelle de connaissances apportent des réponses intéressantes à la problématique de normalisation, mais la question est bien plus large.
- La conception d’outils facilitateurs d’interaction : plateforme de gestion de projets collaboratifs (wiki, forum, détection et résolution de contradictions) ; visualisation, interaction homme-machine et ergonomie ; conception, réutilisation et adaptation de workflows.
- La conception de systèmes intelligents utilisant des approches hybrides d’apprentissage automatique, de représentation des connaissances et de raisonnement pour le traitement de problèmes complexes et l’apprentissage en tenant en compte les contraintes du domaine.
- La représentation des connaissances et raisonnement avec incertitude, préférences et incohérences.
- La qualité des données et des connaissances : complétion, validité des faits et des connaissances, données FAIR, provenance, etc.
- Le respect de la vie privée dans les processus d’acquisition, de stockage et de traitement de données à caractère personnel.
- L’évolution et temporalité des données et des connaissances : méthodes incrémentales, représentation de l’évolution, validité temporelle des données et des connaissances, etc.
Activités
Les participants du groupe de travail sont des chercheurs du domaine des STIC, impliqués dans des recherches fondamentales et finalisées. L’activité principale du groupe de travail sera une activité de séminaires qui permettra aux participants de partager un paradigme commun et structurant. La dynamique du groupe sera fondée sur l’intérêt partagé pour la résolution de questions finalisées dans un aller-retour constructif entre recherche fondamentale et appliquée. Le domaine des Sciences du Vivant au sens large est un domaine d’application attractif et bien investi par de nombreuses recherches en STIC dans l’UPSay. Il pourra constituer un domaine privilégié de l’activité du groupe, mais de façon non exclusive. La réflexion pourra s’articuler autour d’un cas d’étude à définir en fonction des intérêts partagés des participants.
Les séminaires font en particulier intervenir
- des experts des domaines d’application pour présenter de façon pédagogique des questions finalisées, par exemple en biologie, santé, robotique, etc.
- des chercheurs travaillant aux interfaces interdisciplinaires qui contribuent à formaliser des problèmes bien posés pour nourrir les travaux du groupe.
- des chercheurs qui présenteront des résultats finalisés
- et bien sûr des chercheurs en STIC dans un objectif de partage de connaissances plus fondamentales.