GlobalAtlas — Wikipédia

GlobalAtlas (ou Global Atlas) est une base de connaissances libre centrée sur les noms propres destinée au Web sémantique[1]. GlobalAtlas est utilisé principalement dans le domaine de la veille pour des domaines aussi divers que la télévision, l'équitation, l'athlétisme, le transport aérien ou la téléphonie.

Mécanisme de construction

[modifier | modifier le code]

La base de connaissances est constituée par extraction automatique de trois Wikipédias (en anglais, en français et en espagnol) avec les traductions vers quinze autres langues (allemand, danois, grec, italien, letton, lituanien, maltais, néerlandais, polonais, portugais, roumain, slovaque, suédois, suédois, tchèque). L'extraction part des dumps Wikipedia.

L'algorithme d'extraction opère sur les types de données suivants:

  • le titre de la page de Wikipedia,
  • l'analyse linguistique automatique de la première phrase du texte à l'aide de la chaîne d'analyse TagParser. Cette caractéristique est importante car elle permet de collecter des informations sur des pages sans infobox, ce qui représente un nombre important de pages.
  • le titre de l'infobox, qui est quelquefois différent du titre de la page,
  • le type de l'infobox, qui est une ressource cachée mais accessible via le dump,
  • le contenu de l'infobox,
  • les liens de traduction.

L'extraction séparée des trois langues principales (anglais, français et espagnol) est suivie d'une fusion des entrées via les liens de traduction entre ces trois langues. Ensuite, les liens de traduction vers les quinze autres langues sont ajoutés sous forme de variantes graphiques.

Notons que les catégories ne sont pas utilisées car leur qualité et leur contenu ont été jugés comme étant trop hétérogènes pour être exploités automatiquement de manière fiable.

Modèle de donnée

[modifier | modifier le code]

Les données sont structurées conformément à LMF qui est le standard ISO des dictionnaires électroniques. Les objets principaux sont d'une part les entrées lexicales (la classe LexicalEntry dans le jargon LMF) pour représenter les graphies des noms propres, et d'autre part, le Synset pour regrouper les entrées lexicales synonymes.

Ainsi par exemple, « Nicolas Sarkozy » est une entrée lexicale et « Sarko » en est une autre. Ces deux objets sont connectés à une même instance de Synset. Une entrée lexicale qui est un multi-mots est décomposée en une liste ordonnée d'autres entrées lexicales. C'est le cas pour « Nicolas Sarkozy » qui comporte un prénom et un nom de famille. Ce n'est le cas pour « Sarko ».

Les connaissances encyclopédiques sont portées par l'instance de Synset et non par l'entrée lexicale. Ces informations encyclopédiques dépendent du type d'objet. Ce sera par exemple le pays du siège social pour une société, ou la latitude/longitude pour une ville. Les synsets sont organisés de manière précise selon une ontologie exprimée en OWL et comportant un millier de nœuds[2].

Chaque Synset dispose d'un identifiant stable dans le temps et non-recyclé, c'est-à-dire qu'en cas de suppression dans Wikipedia, l'identifiant n'est pas réaffecté à un autre Synset.

De manière systématique, GlobalAtlas respecte les standards ISO pour les constantes à tous les niveaux. Par exemple, les chiffres d'affaires sont exprimés conformément à l'ISO-4217 pour le codage de la devise (ex: INR pour la roupie indienne). Ou encore, le pays du siège social d'une société, qui permet de déterminer la nationalité d'une société, est exprimé conformément à l'ISO-3166 alpha-3 (ex: BOL pour Bolivie). De même, les valeurs linguistiques comme le genre grammatical respectent le registre des méta-données de l'ISO défini par l'ISO-12620 (www.isocat.org).

Comparaison

[modifier | modifier le code]

GlobalAtlas se distingue de DBpedia ou SemanticPedia sur les points suivants:

  • chaque DBpedia est spécifique à une langue alors que GlobalAtlas est la fusion de 18 langues, ce qui permet d'avoir accès à des noms spécifiques à une culture qui ne sont pas reportés dans les Wikipedias des autres langues. Prenons par exemple les noms des journalistes espagnols: ils sont éventuellement décrits dans le Wikipédia en espagnol mais pas dans les autres Wikipédias. La réciproque s'applique, ainsi une information culturelle locale française sera accessible à un espagnol.
  • DBpedia est mis à jour tous les six mois. GlobalAtlas est mis à jour tous les 15 jours avec environ 6000 mots nouveaux en moyenne.
  • GlobalAtlas analyse le texte de l'article pour absorber les noms qui n'ont pas d'infobox, ce que ne fait ni DBpedia, ni SemanticPedia.
  • DBpedia est formaté en RDF et GlobalAtlas est produit en XML / LMF. Notons que GlobalAtlas pourrait être formaté en RDF si besoin s'en faisait sentir, cela ne pose pas de problème technique particulier.

En revanche, GlobalAtlas a plus de similarité avec Freebase qu'avec DBpedia, tout en étant de taille beaucoup plus petite.

Dénombrement

[modifier | modifier le code]

En , GlobalAtlas comporte 1,1 million d'entrées lexicales et 700 000 synsets. GlobalAtlas a été construit par Gil Francopoulo (Tagmatica/Spotter)[3], Frédéric Marcoul (Spotter), David Causse (Spotter) et Grégory Piparo (Spotter). Son objectif porte davantage sur l'obtention des noms et leurs variantes plutôt que sur la richesse des informations encyclopédiques.

Références

[modifier | modifier le code]
  1. Chapitre: Global Atlas: proper nouns, from Wikipedia to LMF, in Gil Francopoulo (sous la direction de) LMF Lexical Markup Framework, ISTE / Wiley 2013 (ISBN 978-1-84821-430-9)
  2. Gil Francopoulo, François Demay, A Deep Ontology for Named Entities, International Conference on Computational Semantics, Interoperable Semantic Annotation Workshop, Oxford 2011
  3. Global Atlas : Extraction des noms propres depuis Wikipedia