2019 | PASADENA – Prédiction et analyse de données structurées et hétérogènes

Axe : IID
Coordinateurs : Arthur Tenenhaus (L2S), Flora Jay (LRI) et Maxime
Sangnier (LPSM, LIP6)
Laboratoire gestionnaire : L2S
Autres laboratoires impliqués : IBISC, INRIA, LIMSI, LIX, LRI, LTCI, MICS
Équipes concernées et liste des participants :

Au sein de l’Université Paris-Saclay
• LTCI (Télécom ParisTech) : Chloé Clavel, Slim Essid, Florence d’Alché-Buc
• L2S (CentraleSupélec) : Tous les membres du groupe Signaux et Statistique du L2S
• CVN (CentraleSupelec) Nikos Paragios, jean-christophe Pesquet, Emilie chouzenoux, Fragkiskos, Hugues Talbot
• MICS (CentraleSupelec) : Sarah Lemler, Véronique Letort, Paul-Henry CournèdeNeurospin (CEA) : Vincent Frouin, Cathy Philippe
• INRIA (Parietal) Bertrand Thirion Gael, Varoquaux, Lenka Zdeborová, Alexandre Gramfort, Thomas Moreau, Hicham Janati
• LRI (Université Paris-Sud) : Flora Jay, Guillaume Charpiat
• IBISC (Université d’Evry Val-d’Essonne) : Blaise Hanczar, Farida Zehraoui, Fariza Tahi
• Lamme (Université d’Evry Val d’Essonne) : Marie Szfaranski, Christophe Ambroise
• CMAP (École Polytechnique) : Zoltan Szabo, Julie Josse
• LIX (École Polytechnique) : Frank Nielsen
• LIMSI: François Yvon
• SATIE: Pascal Larzabal
• Centre National de Recherche en Génomique Humaine (CEA): Edith Le Floch, Morgane Pierre-Jean

Extérieur à l’Université Paris-Saclay
• LPSM, LIP6 (Sorbonne Université) : Maxime Sangnier
• Institut du Cerveau et de la Moelle Epinière (ICM) : Caroline Peltier, Francois Xavier-Lejeune, Ivan Moszer, Etienne Camenen
• INRIA (ARAMIS) : Stanley Durrleman, Olivier Colliot
• Université de Dallas : Hervé Abdi
• Institut Pasteur : Vincent Guillemot
• Université de Montpellier : Joseph Salmon
• CBIO, Mines ParisTech, Institut Curie, INSERM : Chloé-Agathe Azencott
• AgroParisTech : Julien Chiquet
• CREST ENSAE: Marco Cuturi


Présentation :

De nombreux domaines tels que la bioinformatique, la chimiométrie, le génie biomédical ou encore le multimédia sont caractérisés par des données numériques complexes provenant de sources multiples, hétérogènes, souvent interconnectées et potentiellement de grande dimension (e.g. données omiques multimodales, données d’imagerie multimodales, vidéos, etc…). En plus de cette structure globale, chaque source d’information peut présenter une structure spécifique complexe (e.g. structure tensorielle, graphe, arbre, séquence) explicite ou non dans les différentes données. Ces données ne peuvent être réduites à un simple tableau individus × variables et requièrent une analyse intégrée permettant de tirer profit des complémentarités qui existent entre les différentes sources. Cependant, les méthodes traditionnelles, pour être utilisées, requièrent d’altérer leur organisation naturelle au risque de perdre l’information pertinente. Ainsi, le développement de méthodes statistiques d’analyse de données capables d’épouser les structures globales et spécifiques est essentiel pour qui souhaite extraire de l’information pertinente.

Nous distinguons trois grandes problématiques autour de l’analyse de ces données :
(i) L’analyse (non-supervisée) des relations entre modalités (e.g. identification des liens entre données omiques, correspondance entre vidéo, audio et sous-titres) qui peut notamment aller jusqu’à l’inférence d’une structure cachée (e.g. pour la structuration automatique de vidéos, en chapitres, scènes, séquences, etc.)
(ii) Celle de la classification/régression (supervisée) à partir de données hétérogènes (e.g. la détection d’opinions dans un signal audio-visuel)
(iii) La prédiction structurée (de manière fortement ou faiblement supervisée) qui vise à prédire un type de données à partir d’un autre (e.g. la compréhension de scènes visuelles en multimédia, ou l’automatic captionning).

Dans chacune de ces thématiques, la prise en compte de la structure des données peut prendre plusieurs formes : un espace de représentation bien choisi, une régularisation appropriée ainsi que des algorithmes robustes au bruit et aux données manquantes. Les équipes intéressées par ce groupe de travail développent différents types d’approches dans des domaines applicatifs parfois lointains. Un des intérêts de ce groupe est donc de se placer au niveau méthodologique et de répondre ensemble aux défis suivants :
1. Extraction de l’information pertinente noyée dans un ensemble de variables éclatées en plusieurs tableaux (eux-mêmes potentiellement structurés).
2. Réduction de la dimension par projection et/ou sélection de variables.
3. Identification de structure à partir de données hétérogènes.
4. Prédiction de classes, de sorties vectorielles à partir de données hétérogènes.
5. Prédiction d’un type de données en fonction d’un ou plusieurs autres.