Voyage en toute “pérénnité” – mettre à jour ses papiers

Nous nous intéressons au système ARK comme solution à notre volonté de publier entre autre les ressources du fonds ISTEX et tout object numérique que nous sommes amenés à traiter et valoriser. Nous souhaitons  fournir une vue  publique de celles-ci grâce à notre expérimentation et au démonstrateur LODEX.

Pas d’ARK sans une demande préalable à la California Digital Library (CDL) pour obtenir un NAAN qui garantit et affecte la partie pérenne de l’ARK. Nous avons donc adressé une demande par courriel à ark@cdlib.org

Le type, ou schème, d’identifiant “ark:” déclare qu’il s’agit d’un identifiant ARK. Le numéro d’autorité nommante (NAAN : Name Assigning Authority Number) identifie une institution habilitée à attribuer des ARK.

Une réponse très rapide nous a transmis le NAAN de l’Inist-CNRS : 67375. Le NAAN obtenu auprès de la CDL, l’est pour l’unité INIST-CNRS et non pour le CNRS.

Pour l’attribution d’un identifiant ARK, LODex a adopté une solution non centralisée, selon les préconisations de la CDL. Le choix, pour la résolution d’ARK, est de s’affranchir du service tarifé (service EZID) proposé par la CDL.

Constitution d’un ARK : le choix de LODex

Anatomie d'un ARK

Anatomie d’un ARK (exemple de Gallica)

Si l’on reprend l’anatomie générale d’un ARK, on observe des parties

  • variables avant /ark et après le Naan/
  • une partie fixe  ark:/naan/

RQ : Ce numéro sur 5 caractères, unique au sein du schème “ark:”, est attribué gratuitement à toute institution qui en fait la demande par la California Digital Library, qui en assure la maintenance et l’unicité. Il est consigné dans le répertoire des autorités nommantes (“NAAN registry“). Le nom ARK est un identifiant non signifiant attribué par l’autorité nommante. Il peut être composé de préfixes, qui permettent de regrouper de grands ensembles de ressources selon des critères laissés à l’appréciation de l’autorité nommante. Le nom ARK est composé d’une chaîne de caractères alphanumériques à l’exclusion des voyelles. Il est recommandé, bien que non obligatoire, de terminer le nom ARK par un caractère de contrôle

LODex : caractéristiques et choix

Dans cet article seule la partie à partir de “ark:” est concernée. Le choix est d’utiliser dix caractères, pour permettre à la fois de rester assez court et ne pas pénaliser la “citabilité”, de tenir compte des contraintes  techniques de la capacité “32 bits”. De plus il est impératif de respecter la notion d’opacité de l’identifiant en  assurant  que les termes de l’identifiant n’ont aucun rapport explicite avec la signification de l’objet désigné. L’équipe a dans ce contexte opté pour l’exclusion des voyelles, par exemple.

Trois méthodes ont été examinées. La solution retenue est d’utiliser des  caractères alphabétiques pour augmenter les combinaisons possibles. Et ainsi de laisser à la discrétion du sub-publisher  la responsabilité entière de la cohérence et du respect des règles (liberté et autonomie dans le cadre). Pour en savoir plus sur le choix de l’équipe LODex consulter nomenclature ARK.

Exemple fictif pour LODex: http://data-set.lod.istex.fr/ark:/67375/KGB-1235kjgh5

RQ :

  • seuls les caractères latins sont autorisés et préconisés.
  • il ne s’agit pas de réduire l’attribution et la gestion des ARK à une simple gestion d’identifiant de base de données mais prendre en compte un aspect intellectuel dans la construction. Par exemple, l’introduction d’une classification bibliothéconomique dans la constitution de l’ark (DEwey, CDU, Pascal-Francis, Medline,…) pourra être étudiée.

En effet la constitution d’ARK met en jeu et engage une rencontre entre différents métiers, différentes communautés et différents univers : documentation, IST, informatique…

Après avoir déterminé une des deux méthodes, il est essentiel de réfléchir sur le contenu sémantique de l’ARK qui repose plus sur une construction intellectuelle que mathématique.

Il ne reste plus qu’à créer un registre d’ARK et à… générer des ARK.