Cet article fait suite aux deux articles de présentation sur le travail d’alignement des Entités Nommées:
Entités Nommées et Alignement
Présentation des ressources extérieures pour l’alignement de l’Entité Nommée placeName

 Lors du travail sur l’alignement de l’Entité Nommée (EN) placeName avec des ressources extérieures au corpus ISTEX, plusieurs questions ont été soulevées. Ces questions n’ont pas été approfondies car excentrées par rapport à l’objectif principal d’alignement d’EN. Les décisions prises quant à ces questions ont été de faire au plus général et l’équipe laisse donc ouvert toutes les possibilités de redécoupage des informations en fournissant l’ensemble  des données collectées pour l’utilisateur.

  1.  La problématique de la polysémie et de l’homonymie

Dans la phase de recherche des EN, récupérées dans le corpus, dans les ressources extérieures à celui-ci, l’évidence de la polysémie est apparue. En effet, certaines EN font référence soit à différents lieux soit au même lieu possédant des caractéristiques administratives différentes.

a.  Une EN et plusieurs lieux distincts

Il n’est pas rare dans le cas de noms de villes, que plusieurs pays possèdent une ville avec la même dénomination. Prenons l’exemple de “San Diego”. Cette ville est présente dans plusieurs pays à travers le monde, pour n’en citer que quelques uns : les États-Unis, le Venezuela, la Colombie, le Guatemala ou encore  Cuba.

ExempleSD

De plus il n’est pas rare non plus qu’un même pays possède plusieurs villes du même nom. En France notamment, il est possible de trouver plusieurs fois la ville de Gondreville mais celle-ci se situe dans différentes régions.

Exemple Gondreville

Pour ces occurrences là, l’alignement ne  pose donc aucun problème car ce sont des EN distinctes, il suffit de créer une entrée dans LODex pour chacune d’entre-elles.

b. Une EN et plusieurs informations

Certaines EN sont répertoriées un certain nombre de fois selon les ressources, cela étant dû généralement à la multiplicité de leur statut. La ville de Tokyo par exemple, est présente en deux entrées distinctes. Dans un cas c’est la capitale du Japon (soit la métropole) qui est décrite et dans l’autre cas la préfecture. Cette différence de statut génère aussi des différences sur d’autres points tels que la population ou la géolocalisation. Cela renforce l’idée que ce sont deux entrées distinctes même si elles font référence à la même EN.

Pour éviter la multiplication des entrées pour une même EN, dans LODex, la solution serait de concaténer les informations pour fournir à l’utilisateur l’ensemble des informations relatives à l’EN par un seul champ. Mais cela pose un problème, quand pour une même EN, les informations diffèrent selon la ressource pour un même statut.

Toujours avec l’exemple de Tokyo, dans le cas où c’est le statut Métropole qui est décrit, la population peut varier d’un million entre Wikidata et GeoNames. Cela pose donc un problème de discrimination informationnelle avant celui de la concaténation. Ce choix pouvant être fait par rapport à la récence de l’information ou encore par rapport au degré de fiabilité, à déterminer,  de la ressource utilisée.

tokyo-infos

Il existe aussi des pays où certains lieux sont dénommés de la même manière et semblent faire référence à la même EN. Si l’on reprend l’exemple de San Diego, dans GeoNames, cette EN est présente plusieurs fois dans certains pays. En effet, pour la République de Cuba, San Diego représente différentes localités, c’est-à-dire “une zone mineure non délimitée au caractère indéfini”¹. Malgré cette forte proximité géographique apparente, cette différence de quelques centièmes sur la géolocalisation crée diverses entrées dans GeoNames.

ExempleSanDiego

Dans le cadre du projet LODex, le choix a été fait de créer une entrée pour chaque EN par ligne présente dans GeoNames, sans se préoccuper de son référentiel. Cependant, il serait intéressant, pour la lisibilité de l’utilisateur, de réunir les EN dénommant un même lieu, dont les seules différences se trouvent au niveau de la géolocalisation. Une des solutions serait d’effectuer une distance entre les géolocalisations afin de créer un périmètre pour chaque EN proches, et similaires sur d’autres critères (le statut, la région etc.). Cela permettrait d’obtenir une sorte de moyenne entre diverses géolocalisations, qui ne définirait plus l’EN comme un point sur une carte mais comme une aire.

2. La problématique des différentes variantes d’écriture

Il arrive que dans le corpus ISTEX, la même EN soit dénommée différemment. Entre autres, à travers l’utilisation de différentes variantes linguistiques telles que les formes sous différentes langues (anglais, français etc.), telles que l’utilisation d’acronymes ou telles que des variations de formes. Ces variantes linguistiques n’ont pas d’impact sur la recherche de ces EN dans les ressources extérieures au corpus ISTEX. Il est donc possible de regrouper ces fiches semblables sous la même dénomination tout en rappelant les autres formes linguistiques.

Cependant, le choix de la variante linguistique dominante est complexe car cela peut se faire soit par rapport à la première variante apparue dans le corpus ISTEX, soit par rapport à la variante la plus fréquente ou encore par rapport à la variante la plus explicite. Dans le cadre du projet LODex, la décision a été de ne pas choisir et donc de créer une entrée par variantes linguistiques même si celles-ci font référence à la même EN explicitement.

Exemple EN USA

Le socle de données produites par LODex sur les EN, n’est qu’un exemple de ce qui peut être réalisé avec cet outil. Le liage sémantique de ces EN, avec des ressources extérieures au corpus utilisé, est un des traitements possibles par l’utilisateur. Toutefois, cet ensemble de données peut mener aussi à une utilisation différente, comme par exemple l’analyse purement linguistique. Ainsi, ce procédé pourrait conduire par exemple vers une étude probabiliste (le nombre d’occurrences etc.) ou encore vers une étude comparative (la distance entre ces données, la concordance, etc.). Toutes ces manipulations  seront ainsi susceptibles de mener à des résultats numériques, représentables graphiquement.

Elise Moreau


¹ locality : “a minor area or place of unspecified or mixed character and indefinite boundaries” , GeoNames