Le premier jeu de données s’appuie sur le travail de l’équipe ISTEX DATA. Il concerne les types de document et plus particulièrement le type Article. (http://article-type.lod.istex.fr/)

Le jeu de données comprend 8 items qu’il est nécessaire de qualifier et de documenter. Pour constituer le fichier à ingérer dans LODEX, le choix du tableur excel a été effectué. Aussi pour chaque ligne (entrée) du tableau, plusieurs colonnes ont été ajoutées et correspondent à des valeurs (alphanumériques) de différentes natures pour enrichir, décrire, préciser ou documenter la donnée initiale.

type article fichier initial

Cette première étape de sélection opérée, une phase de “curation” des données (normalisation d’écriture, mise en conformité des normes et standards, …) intervient avant ingestion dans l’outil, et ce pour offrir une plus grande visibilité et une meilleure lisibilité aux contenus que l’on souhaite valoriser.

Chaque jeu de données, ou table, ouvre une instance spécifique dans LODEX  (“EzLODEX”). Ainsi, chaque jeu une fois stabilisé et ingéré sera pérenne, autrement dit accessible avec une adresse pérenne selon la définition de Sébastien Peyrard, responsable des traitements automatisés, BnF .

Pour aligner le jeu de données avec des ressources extérieures il est indispensable d’associer, à chaque colonne, le vocabulaire du LOV le plus pertinent et adapté. Ce choix n’est pas trivial et il est spécifique pour chaque application. Dans le cas de LODex, des tests ont été entrepris afin de mesurer l’impact du choix des vocabulaires disponibles dans le contexte. L’équipe en assume la subjectivité et le caractère expérimental.

schéma conceptuel type article

La qualification de chaque colonne dans LODEX intervient dans la construction automatique et structurée du permalien, ou adresse pérenne, autrement appelée URI.