Depuis quelques semaines, l’équipe ISTEX-RD travaille en coopération avec une autre équipe du Département Projets et Innovation de l’INIST : l’équipe LODEX : http://lod.istex.fr/.
Les enrichissements produits par l’équipe ISTEX-RD apparaissent sous forme d’un standoff (balise placée après les métadonnées du document et conforme aux standards de la TEI). Ce standoff est composé d’un header suivi d’une ou plusieurs <listAnnotation> regroupant soit des éléments détectés dans le document (mots-clés, entités nommées…), soit des catégories attribuées au document.
Une partie du projet LODEX consiste à aligner de manière automatique les enrichissements produits par ISTEX-RD avec des ressources extérieures comme la base de données GeoNames, la base de données Data.bnf, le MeSH (Medical Subject Headings) ou encore la CDU (Classification Décimale Universelle).
Exemple de standOff pour la catégorisation Refcode (bases Pascal et Francis de l’INIST) appliquée à 1 document :
enrichissement catégorisation ISTEX-RD ISTEX-RD
L’élément standOff de ce document est distribué sous licence Creative Commons 4.0 non transposée (CC BY 4.0)
Ce standOff a été créé dans le cadre du projet ISTEX – Initiative d’Excellence en Information Scientifique et Technique
00000000000000000000000000000000000000000000000000 catégorisation par approche statistique - Bayésien Naïf SCIENCES APPLIQUEES, TECHNOLOGIE ET MEDECINE SCIENCES EXACTES ET TECHNOLOGIE TERRE, OCEAN, ESPACE GEOPHYSIQUE EXTERNE
Dans le standOff, l’attribut « scheme » de la balise <keywords> renvoie à une page LODEX où les catégories Refcode sont renseignées :
Exemple : La catégorie « Géophysique externe » est documentée avec la base de données Wikipédia et alignée avec la catégorie correspondante de la CDU (expérimentation LODEX en cours, la présentation de la page pourra subir des changements).
Besoin d'aide ?
Consultez notre Faq, la documentation Istex ou nos tutoriels
N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !