Dans un projet de fouille de textes, l’élaboration d’un corpus de qualité représente une première étape clé pouvant conditionner la réussite de ce projet.
L’équipe Istex vous accompagne dans cette étape cruciale en mettant à votre disposition :
- des outils pour rechercher, télécharger, affiner votre corpus
- une expertise dans la définition de votre besoin et dans l’utilisation des différents outils associés à Istex
Rechercher des documents
Istex Search est un service dédié à la constitution de corpus.
Au moyen d’une interface ergonomique directement connectée à l’API, il exploite toute la richesse du moteur de recherche Elastic search pour interroger la base Istex, et facilite votre recherche grâce à un assistant à la construction de requêtes.
Il vous permet ensuite d’explorer les résultats de votre recherche et de délimiter peu à peu les contours de votre corpus grâce à :
- des indicateurs offrant une vue synthétique sur votre corpus
- des filtres prédéfinis pour une première exploration de vos résultats
- une notice détaillant chacun des documents
- un accès aux documents en texte intégral, à leurs métadonnées, ainsi qu’à leurs enrichissements, dans différents formats
- une sélection personnalisée des documents de votre corpus.
Télécharger
Une fois votre recherche finalisée, Istex search vous permet de télécharger massivement vos résultats.
Configurez votre téléchargement afin d’adapter votre corpus à votre usage :
- soit par une sélection personnalisée des formats et types de données souhaités
- soit grâce à nos passerelles avec des outils du monde académique (Lodex, CorText, Gargantext) qui sélectionnent automatiquement les fichiers requis par ces outils et facilitent ainsi l’exploitation de vos résultats.
Définissez ensuite vos options de compression pour obtenir votre corpus sous forme d’archive compressée.
Istex Search est un service tout nouveau et en constante évolution. N’hésitez pas à le tester et à nous faire part de vos retours.
Accès à ce service : Istex Search
Affiner un corpus
Lodex est un outil open source dédié à la valorisation de données structurées.
Il vous permet d’importer votre corpus directement téléchargé depuis Istex Search et de paramétrer à votre guise l’affichage de vos données afin de les exposer et les visualiser dans un site web dédié.
Vous pourrez ainsi naviguer dans le contenu de votre corpus au moyen de filtres et de graphiques qui vous offriront différents angles de vues sur les métadonnées et les enrichissements des documents le composant.
Cette exploration vous permettra d’analyser la pertinence de votre corpus par rapport à vos besoins et aux applications visées, et vous donnera ainsi des clés pour affiner votre requête et télécharger votre corpus définitif via Istex Search au moyen d’une boucle itérative.
Pour accéder à ce service, prenez contact avec l’équipe Istex.
Des corpus prêts à l’emploi
Vous disposez d’un outil de fouille de textes et souhaiteriez le tester sur un corpus de publications scientifiques ?
Vous avez besoin de vous inspirer de cas d’utilisation similaires à celui que vous envisagez ?
Retrouvez sur le site Istex Corpus, nos collections de corpus spécialisés issus de la base Istex.
Des corpus exemples
Thématiques ou non, s’intéressant à une problématique ou concernant une discipline scientifique donnée, conçus pour évaluer les performances d’un outil spécifique ou applicables à toute une gamme d’outils assurant certaines tâches, tous nos corpus spécialisés ont été réalisés pour répondre à des cas d’usages particuliers en fouille de textes.
Des corpus réutilisables
Les pages Istex Corpus consacrées à chaque collection vous offrent une description des corpus et une exploration de leur contenu. Elles vous proposent aussi le moyen de les utiliser tels quels ou en les adaptant à vos propres besoins de fouille, car tous nos corpus sont téléchargeables via l’application Istex Search, aux formats qui vous intéressent. Pour vous simplifier la vie, ils sont aussi partageables avec vos pairs.
N’hésitez plus, venez explorer l’ensemble de nos collections !
Accès à ce service : corpus scientifiques
Des corpus à la demande
Vous souhaitez créer votre propre corpus ? Tous les services, proposés dans l’encart “Accès rapide aux services”, sont là pour vous aider dans votre entreprise.
Si néanmoins vous souhaitez être accompagné sur l’une des étapes ou sur la totalité du parcours de constitution de votre corpus, pour qu’il corresponde à votre besoin et à l’application que vous souhaitez en faire, l’équipe Istex est disponible pour vous répondre.
Nous pouvons préciser ensemble le périmètre de votre demande, vous aider à construire une requête affinée en sélectionnant parmi toutes les astuces disponibles les plus adaptées, vous guider dans la prise en main des outils d’extraction de corpus et d’exploration des résultats, jusqu’à l’obtention d’un corpus que vous aurez validé en fonction des finalités poursuivies.
Que cet accompagnement se fasse par mail ou en visioconférence, que vous ayez besoin de quelques précisions ou d’un accompagnement plus poussé, voire d’une formation individuelle à l’un ou l’autre de nos services, n’hésitez pas à prendre contact avec l’équipe Istex !
Pour un usage avancé
Si le terme API n’a plus de secret pour vous, si le mot « moissonneur » ne vous fait pas peur, si vous êtes familier du monde GitHub, ou tout simplement curieux et désireux d’en savoir plus, explorez les possibilités techniques de la plateforme Istex pour appréhender et vous approprier ses usages avancés.