Un nouveau format « TXT Cleaned » – pour texte nettoyé – est disponible dorénavant dans Istex. Il contient le texte intégral en texte brut :
* sans mise en forme,
* sans image,
* sans tableau,
* sans formule.
Ainsi, seul le contenu textuel des paragraphes, compris entre le résumé et les références bibliographiques, est conservé.
Destiné à une utilisation en fouille de textes, ce format supplémentaire de texte intégral vise à éviter les problèmes que peuvent parfois entraîner pour les outils de TDM les figures, tableaux et formules présents dans les publications.
Sur 25 608 042 documents présents aujourd’hui dans la base Istex, 12 574 680 disposent d’un format « TXT Cleaned », soit 49% !
Pour quels documents ?
Pour savoir quels documents bénéficient de ce format de texte nettoyé, un nouvel indicateur – nommé tdmReady – a été ajouté à l’API, dont la valeur « true » permet de repérer ces documents.
Retrouvez-les donc en interrogant :
- l’API Istex au moyen du champ
qualityIndicators.tdmReady:"true"
Ex. : recherche du nombre de « TXT Cleaned » par Corpus éditeur
https://api.istex.fr/document/?q=(qualityIndicators.tdmReady:"true")&facet=corpusName[*]&size=0
- le démonstrateur et sa recherche avancée sur le champ qualityIndicators.tdmReady
Identifiés par un nouveau logo, vous visualisez immédiatement les formats « TXT Cleaned » existants dans les résultats de votre recherche, leur contenu étant accessible par un simple clic sur l’icône :
Comment en disposer ?
Pour vos travaux de fouille de textes, téléchargez un corpus de publications au format « TXT Cleaned » en utilisant l’application Istex-DL !
A cette fin, deux solutions vous permettent de les sélectionner :
- ajoutez le critère
"AND qualityIndicators.tdmReady:true"
à votre équation - cochez, dans l’option « Usage personnalisé », le format « CLEANED » de texte intégral.
Seules les publications possédant un format « TXT Cleaned » seront extraites.
Vous avez désormais à disposition une solution pour optimiser l’exploitation par des outils de TDM de votre corpus en texte intégral. Le « Text mining » sur les légendes de figures, les tableaux, etc. du texte intégral reste bien entendu toujours possible en utilisant le format TXT classique.
Bonne découverte de ce nouveau format et de son utilité !
Clément pour l’équipe Istex
_________________
En savoir plus :
Besoin d'aide ?
Consultez notre Faq, la documentation Istex ou nos tutoriels
N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !