2018 | YAGO 

Extending the YAGO Knowledge Base


Axe : DataSense
Sujet : Extending the YAGO knowledge base
Directeurs de thèse : Fabian SUCHANEK
Institution : Télécom ParisTech
Doctorant : Thomas REBELE
Début : 2015
Date de soutenance : 19 juillet 2018
Productions scientifiques :

  • Thomas Rebele, Thomas Pellissier Tanon, Fabian M. Suchanek: “Bash Datalog: Answering Datalog Queries with Unix Shell Commands”, International Semantic Web Conference (ISWC), 2018
  • Thomas Rebele, Katerina Tzompanaki, Fabian M. Suchanek: “Adding Missing Words to Regular Expressions”, Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2018
  • Thomas Rebele, Arash Nekoei, Fabian M. Suchanek: “Using YAGO for the Humanities”, Workshop on Humanities in the Semantic Web (WHISE), 2017
  • Thomas Rebele, Katerina Tzompanaki, Fabian M. Suchanek: “Visualizing the addition of missing words to regular expressions”, International Semantic Web Conference (ISWC) demo track, 2017
  • Thomas Rebele, Fabian M. Suchanek, Johannes Hoffart, Joanna Asia Biega, Erdal Kuzey, Gerhard Weikum: “YAGO: a multilingual knowledge base from Wikipedia, Wordnet, and Geonames”, International Semantic Web Conference (ISWC) short paper track, 2016
    • Hiep Le, Thomas Rebele, Fabian M. Suchanek: “Open Digital Forms”, Theory and Practice of Digital Libraries (TPDL/ECDL) demo track, 2016

Ressources :


Contexte :
Une base de connaissances est un ensemble de faits sur le monde. Parmi elles se trouve YAGO, une des premières à être générée automatiquement à grande échelle. Cette thèse se concentre sur l’extension de la base de connaissances YAGO en améliorant l’extraction de contenu et son accès.

Résultats :
La première contribution principale consiste en l’augmentation de la quantité des faits sur les personnes. Pour se faire, cette thèse décrit des algorithmes et des heuristiques permettant d’extraire d’avantage de dates de naissance et de décès, d’indications sur le sexe et de lieux de résidence. Ces données sont ensuite utilisées dans le cadre d’études en humanités numériques.

La deuxième contribution principale présente deux algorithmes permettant de réparer automatiquement une expression régulière afin qu’elle corresponde à un ensemble de mots donnés. Des expériences sur divers jeux de données montrent l’efficacité et la généralité de l’approche. Comparés aux travaux précédents, le rappel est amélioré tout en conservant une précision similaire, voire supérieure.

La dernière contribution est un système de traduction de requêtes sur des bases de données en scripts Bash. Cela permet de prétraiter des jeux de données en utilisant des requêtes Datalog et SPARQL sans installer de logiciel au-delà d’un système d’exploitation de type Unix. Les expériences montrent que les performances de notre approche sont comparables à celles des meilleures solutions du marché.