Si vous êtes familier avec Istex et ses outils associés, vous connaissez sans doute Istex-DL, l’application web qui permet de télécharger jusqu’à 100000 documents dans différents formats (PDF, texte brut ou autre).
Depuis la version 4.21, l’application permet de sélectionner des formats prédéfinis en fonction de l’usage souhaité. Pour démarrer, nous avions proposé un premier usage Lodex, qui permet d’obtenir une archive directement importable dans ce logiciel dédié à la valorisation de données structurées.
Aujourd’hui, nous sommes heureux de vous annoncer la création d’un connecteur avec un autre outil : « CorText ». Conçue initialement à l’intention des chercheurs en sciences humaines et sociales, la plateforme CorText est destinée à la fouille, l’analyse et l’exploitation de corpus textuels hétérogènes. Elle propose un grand nombre de traitements automatiques, depuis les classiques traitements de la langue, étape essentielle en fouille de textes, jusqu’à des analyses plus poussées telles que le clustering, l’analyse de réseaux sociaux, ou encore l’exploration et la visualisation de données temporelles ou spatiales.
Grâce à ce nouvel usage, vous pourrez extraire un corpus de publications Istex avec une sélection de formats (TEI, Cleaned et Teeft) automatiquement reconnus et exploités par CorText Manager, au moyen du parseur Istex déjà existant.
CorText est un logiciel en libre accès, il est utilisable par tout un chacun depuis un simple navigateur Web.
Nous vous invitons donc à tester ce nouvel usage CorText dans Istex-DL et à exploiter librement ces données dans CorText selon vos besoins.
Pour plus d’informations, consulter la documentation d’Istex-DL et le site officiel de CorText.
À tous, bons téléchargements sur https://dl.istex.fr !
Besoin d'aide ?
Consultez notre Faq, la documentation Istex ou nos tutoriels
N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !