Facette type de publication et contenu
L’API ISTEX vous propose des facettes qui sont un moyen de filtrer sur une collection de données et ainsi permettre à l’utilisateur final d’affiner ses recherches en sélectionnant les critères à ajouter. Elle agit en complément de la requête, en se basant sur celle-ci.
Étant donnée la volumétrie d’ISTEX, nous avons pensé qu’il fallait proposer un filtre pour sélectionner ou mettre de côté certains types de documents et de contenus lors d’une recherche. Plusieurs facettes sont proposées (corpus, langue, catégorie …) mais nous allons faire un focus particulier sur la facette ‘type de publication’ et ‘type de contenu‘.
Si vous souhaitez en savoir plus, vous pouvez consulter la documentation sur les facettes dans la rubrique API ISTEX mais vous pourrez également accéder à l’ensemble de la documentation pour tous les usages d’ISTEX.
Homogénéisation des types de contenu :
Il faut préciser qu’il s’agit d’une facette à 2 niveaux car le type de contenu est rattaché au type de publication sélectionné.
Cette catégorisation émane du type d’article original fourni par l’éditeur mais a nécessité un gros travail d’homogénéisation qui doit être réalisé pour chaque corpus car le libellé des types de contenu est différent selon les éditeurs et leur descriptif peut varier selon les disciplines et les revues, quelquefois, seul un code à 2 ou 3 lettres est renseigné par l’éditeur dans les métadonnées. Par exemple, un article de recherche peut être renseigné dans les métadonnées éditeurs avec les valeurs suivantes : original paper, research, paper, categtxt… Il peut aussi y avoir une absence totale de valeur ou des données renseignées dans des champs non repris, dans ce cas, les publications sont classées dans le type de contenu ‘other’.
L’homogénéisation des types de contenu est un exercice complexe car il faut composer avec des disciplines et éditeurs divers, une hétérogénéité et volumétrie importante des données. Il a été réalisé avec beaucoup de rigueur mais peut bien évidemment être sujet à discussion.
Rappelons également que rien ne vaut la lecture d’un article pour en mesurer le contenu et la qualité !
Le jeu de données dans data.istex.fr
Afin de documenter les données ISTEX, il existe dans data.istex.fr un jeu de données type de publication et type de contenu qui vous permettra d’en savoir plus sur la description de ces jeux de données.
Les types de publication :
- journal (20 642 663 documents)
- book-series
- database
- book
- reference-works
Besoin d'aide ?
Consultez notre Faq, la documentation Istex ou nos tutoriels
N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !