Un pan du projet LODex consiste en l’alignement automatique d’Entités Nommées (EN) avec des ressources extérieures. Ces EN ont été extraites au préalable dans les différents corpus du projet Istex, grâce à des graphes Unitex-CasSys.

L’activité d’extraction d’informations dans un corpus consiste à repérer et annoter des éléments textuels saillants (un mot ou un groupe de mots) possédant un contenu particulier sur le plan sémantique. Dans le cadre des EN, ces éléments peuvent être des noms propres, tels que des noms de personnes, des lieux, des organisations ou encore des éléments lexicaux tels que les dates, les URL etc.

L’étiquetage de ces entités ne possède pas réellement de norme et peut se faire sous forme d’un balisage (XML, TEI etc.), de commentaires, ou encore d’un surlignage soumis à un code couleurs etc. Généralement celui-ci se fait grâce à une ou plusieurs grammaires formelles associées à des modèles statistiques ainsi qu’à des bases de données variées.

Dans le cadre du projet Istex, l’étiquetage a été fait grâce à un balisage XML sur le modèle TEI (Text Encoding Initiative) mais de manière simplifiée. En effet le détail du modèle TEI est beaucoup plus précis que celui utilisé par l’équipe Istex-RD, par exemple dans le cas de noms de personnes :

  • Le standard TEI, décrit les noms de personnes comme un ensemble appelé <persName> composé de sous-ensembles qui peuvent être le prénom <surname> et le nom de famille (ou autre) <forename> :
  • Dans le cas du projet Istex, ces sous-ensembles disparaissent pour éviter l’ajout d’ambiguïtés et faciliter l’étiquetage des EN :

Au final, il a été décidé par l’équipe d’Istex-RD de ne garder que sept étiquettes différentes (hors attributs), qui permettent d’annoter soit :

  • Les noms de personnes (persName)
  • Les lieux géographiques (geogName)
  • Les lieux administratifs (placeName)
  • Les noms d’organisations (orgName)
  • Les dates (date)
  • Les références (ref)
  • Les bibliographies (bibl)

Les étiquettes orgName et ref possèdent des attributs type afin d’effectuer dans un cas une différenciation entre les organismes financeurs/les projets financés et les organismes hébergeurs de ressources , et dans l’autre cas les références de type citations, de type URL et de type bibliographiques qui pointent vers la fin des documents.

Dans le cadre du projet LODex, le travail sur les EN a pour objectif d’effectuer un alignement automatique entre ces entités et des ressources extérieures au corpus (par exemple, la base de données GeoNames, la base de données Data.Bnf ou encore Wikidata).

Cet alignement permet un ajout sémantique sur les EN. Ainsi les utilisateurs ont la possibilité d’avoir accès à des informations supplémentaires (de type numériques ou géographiques, par exemple) sur les EN récupérées dans les textes d’Istex. L’accès direct aux fiches de ces ressources est également présent, pour des informations complémentaires (de type historiques etc.).

Télécharger (PDF, 23KB)

Pour l’implémentation dans LODex, la présentation des informations relatives aux EN ainsi que les liens qui leur sont attribués se fait sous format tabulaire. La première colonne est un ajout fait pour la facilitation du travail d’alignement, afin que l’équipe puisse voir quel type d’entités nommées nous retrouvons dans les articles.  Le nom de l’EN est présent dans la deuxième colonne, puis viennent les informations supplémentaires, présentes ou non dans les ressources extérieures, qui ont été désignées comme principales par l’équipe. Viennent ensuite les URI vers les fiches dont sont tirées ces informations ainsi que les URI d’autres ressources, qui sont cette fois facultatives à titre de complément sémantique possible.

Télécharger (PDF, 39KB)

Le remplissage de ce document tabulaire se fait de manière automatisée, grâce à la récupération automatique, effectuée selon un algorithme congruent, des informations recherchées dans les différentes ressources extérieures. (Voir l’article de présentation des ressources extérieures)

Pour conclure, le travail sur l’algorithme de récupération automatique d’informations a soulevé diverses problématiques auxquelles nous n’avons pas apporté de réponse tranchée, car elles sont excentrées de l’objectif premier du projet LODex mais qui mériteraient une réflexion plus approfondie. Une présentation de ces problématiques est réalisée dans un autre article. (Voir l’article sur les problématiques soulevées par l’alignement des Entités Nommées.)


Lexique :

Unitex : C’est un logiciel permettant un traitement automatique de corpus de textes en langue naturelle à l’aide de ressources linguistiques. (Guide d’annotation des entités nommées ISTEX, Enza Morale)

CasSys : CasEN est une cascade de reconnaissance des entités nommées ; elle est implantée avec le programme de création de cascades CasSys présent sur la plate-forme Unitex. CasSys un outil d’exploration et d’annotation de corpus dont le prototype a été créé au Laboratoire d’Informatique de Tours. (Guide d’annotation des entités nommées ISTEX, Enza Morale)

Elise Moreau

One Response to “Entités nommées et alignement”

  1. Chris

    A la recherche d’info sur la reconnaissance d’entités nommées, je suis tombé sur votre site.
    En l’absence de réel standard en la matière, votre article est très instructif. Je vous remercie pour le partage de connaissance qui m’a permis de mieux comprendre l’utilisation de entités nommés et la manière d’y lier des ressources connexes.

    NB: le lien vers la “présentation des ressources extérieures” semble rompu

comments are closed