Nous avons le plaisir de vous annoncer que le corpus éditeur « Nature » présent sur la plateforme ISTEX depuis décembre 2014 s’est enrichi de 8979 objets documentaires depuis cette semaine, pour un total de 388 746 documents pour ce corpus !
En effet, grâce à l’évolution récente des outils permettant le chargement des données sur la plateforme ISTEX, nous avons pu intégrer des documents qui étaient auparavant rejetés et mis de côté pour des raisons techniques.
Cette mise à jour du corpus Nature apporte également quelques nouveautés :
- Les entités-caractères des fichiers XML éditeur sont à présent correctement résolues et remplacées par les caractères UTF-8 correspondant. Ces entités étaient jusqu’alors complètement ignorées et absentes des formats Mods, TEI et JSON.
- Le format TEI est maintenant issu du XML éditeur, et non plus du format Mods, ceci grâce aux feuilles de style XSLT du projet Pub2TEI ISTEX. Cette modification permet d’obtenir un TEI plus riche, qui conserve la structuration du plein-texte quand celui-ci est présent dans le XML éditeur. Les plus curieux pourront relire le billet de blog dédié Pub2TEI dans ISTEX.
- D’autres corrections de bugs plus anecdotiques.
Cette mise à jour porte à 23 026 111 le nombre total d’objets documentaires disponibles sur ISTEX.
Bonne (re)découverte à toutes et à tous
Pascale pour l’équipe Textes & Corpus – ISTEX
Besoin d'aide ?
Consultez notre Faq, la documentation Istex ou nos tutoriels
N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !