La base de travail est constituée par le guide rédigé au sein de l’équipe Istex RD et l’ensemble des type d’entités nommées sélectionnées.

L’idée, à l’instar jeu article-type, est de reprendre les informations dans une phase de “curation”  pour les enrichir et les qualifier dans le respect des normes et standards du web sémantique (normalisation d’écriture, mise en conformité des normes et standards, …)  avant ingestion dans l’outil LODEX, et ce pour offrir une plus grande visibilité et une meilleure lisibilité aux contenus que l’on souhaite valoriser.

Un identifiant explicite est donc choisi et écrit selon les règles et conventions décidées lors de la mise en œuvre du premier jeu de données Article-type.

Dans ce jeu de 9 items, la notion d’exemple est une caractéristique particulière. Il est intéressant et opportun de ne pas se limiter à 1 exemple dans chaque langue mais au moins deux afin de montrer les différentes façons d’annoter les EN.

 

Cette première étape de sélection opérée, une phase de “curation” des données (normalisation d’écriture, mise en conformité des normes et standards, …) intervient avant ingestion dans l’outil, et ce pour offrir une plus grande visibilité et une meilleure lisibilité aux contenus que l’on souhaite valoriser.

Chaque jeu de données, ou table, ouvre une instance spécifique dans LODEX  (“EzLODEX”). Ainsi, chaque jeu une fois stabilisé et ingéré sera pérenne, autrement dit accessible avec une adresse pérenne selon la définition de Sébastien Peyrard, responsable des traitements automatisés, BnF .

Pour aligner le jeu de données avec des ressources extérieures il est indispensable d’associer, à chaque colonne, le vocabulaire du LOV le plus pertinent et adapté. Ce choix n’est pas trivial et il est spécifique pour chaque application. Dans le cas de LODex, des tests ont été entrepris afin de mesurer l’impact du choix des vocabulaires disponibles dans le contexte. L’équipe en assume la subjectivité et le caractère expérimental.

Cette réflexion conduit à réaliser le schéma de modélisation suivant :

 

Vous trouverez le jeu de données “entité nommée” publié dans le cadre du projet LODEX ici : http://named-entity.lod.istex.fr/

Pour en savoir plus, voir aussi :

Entités nommées et alignement

Présentation des ressources extérieures pour l’alignement de l’Entité Nommée placeName

Problématiques soulevées par l’alignement de l’EN placeName