Démarrez votre projet de fouille de textes – ou Text and Data Mining (TDM) – en constituant votre corpus à l’aide des ressources Istex !
Découvrez dans cette vidéo les nombreux atouts d’Istex pour le TDM :
Dans un projet de TDM, l’élaboration d’un corpus de qualité représente une première étape clé qui peut conditionner la réussite de ce projet. L’équipe Istex vous accompagne dans chaque phase de constitution de votre corpus en mettant à votre disposition :
- des outils de recherche, de téléchargement, d’analyse de corpus
- une expertise dans la définition de votre besoin et dans l’utilisation des différents outils associés à Istex
Rechercher des documents
Le démonstrateur vous permet de rechercher vos documents dans la base Istex au moyen d’une interface pédagogique, directement branchée sur l’API Istex.
Celle-ci vous offre ainsi la possibilité :
- d’utiliser toute la richesse de requêtage du moteur de recherche Elastic Search
- de filtrer les résultats au moyen de facettes pré-définies
- d’accéder aux documents en texte intégral, à leurs métadonnées, ainsi qu’à leurs enrichissements lorsqu’ils existent, dans les différents formats disponibles
Accès à ce service : Démonstrateur
Télécharger un corpus
L’interface Istex-DL permet le téléchargement massif des résultats de votre recherche dans la base Istex.
3 étapes suffisent pour obtenir votre corpus sous forme d’archive compressée :
- délimitez votre corpus en spécifiant la requête
- choisissez le ou les formats adaptés à votre usage
- configurez votre téléchargement
Des passerelles avec des outils du monde académique sont proposées afin de sélectionner automatiquement les fichiers nécessités par ces outils et ainsi faciliter l’exploitation de vos résultats.
Pour l’heure, il existe une passerelle avec Lodex, qui vous permet d’analyser votre corpus à l’aide de représentations graphiques et CorText.
D’autres connexions avec des outils de fouille de textes sont à venir.
Spécificités d’Istex-DLAccès à ce service : Istex-DL
Analyser un corpus
Lodex est un outil open source dédié à la valorisation de données structurées.
Il vous permet d’importer votre corpus directement téléchargé depuis Istex-DL et de paramétrer à votre guise l’affichage de vos données afin de les exposer et les visualiser dans un site web dédié.
Vous pourrez ainsi naviguer dans le contenu de votre corpus au moyen de filtres et de graphiques qui vous offriront différents angles de vues sur les métadonnées et les enrichissements des documents le composant.
Cette exploration vous permettra d’analyser la pertinence de votre corpus par rapport à vos besoins et aux applications visées, et vous donnera ainsi des clés pour affiner votre requête et télécharger votre corpus définitif via Istex-DL.
Pour accéder à ce service, prenez contact avec l’équipe Istex.
Des corpus à la demande
Vous souhaitez créer votre propre corpus ? Tous les services, proposés dans l’encart “Accès rapide aux services”, sont là pour vous aider dans votre entreprise.
Si néanmoins vous souhaitez être accompagné sur l’une des étapes ou sur la totalité du parcours de constitution de votre corpus, pour qu’il corresponde à votre besoin et à l’application que vous souhaitez en faire, l’équipe Istex est disponible pour vous répondre.
Nous pouvons préciser ensemble le périmètre de votre demande, vous aider à construire une requête affinée en sélectionnant parmi toutes les astuces disponibles les plus adaptées, vous guider dans la prise en main des outils d’extraction de corpus et d’exploration des résultats, jusqu’à l’obtention d’un corpus que vous aurez validé en fonction des finalités poursuivies.
Que cet accompagnement se fasse par mail ou en visioconférence, que vous ayez besoin de quelques précisions ou d’un accompagnement plus poussé, voire d’une formation individuelle à l’un ou l’autre de nos services, n’hésitez pas à prendre contact avec l’équipe Istex !
Des corpus prêts à l’emploi
Vous disposez d’un outil de fouille de textes et souhaiteriez le tester sur un corpus de publications scientifiques ?
Vous avez besoin de vous inspirer de cas d’utilisation similaires à celui que vous envisagez ?
Retrouvez sur le site data.istex, à la rubrique Corpus scientifiques, nos collections de Corpus spécialisés issus de la base Istex.
Des corpus exemples
Thématiques ou non, s’intéressant à une problématique ou concernant une discipline scientifique donnée, conçus pour évaluer les performances d’un outil spécifique ou applicables à toute une gamme d’outils assurant certaines tâches, tous nos corpus spécialisés ont été réalisés pour répondre à des cas d’usages particuliers en fouille de textes.
Des corpus réutilisables
Grâce à l’outil Lodex, les pages data.istex consacrées à chaque collection vous offrent une description des corpus et une exploration de leur contenu. Elles vous proposent aussi le moyen de les utiliser tels quels ou en les adaptant à vos propres besoins de fouille, car tous nos corpus sont téléchargeables via l’application Istex-DL, aux formats qui vous intéressent. Pour vous simplifier la vie, ils sont aussi partageables avec vos pairs.
N’hésitez plus : explorez l’ensemble de nos collections en cliquant directement sur le service Corpus scientifiques !
Notre offre de formations
L’équipe Istex assure auprès de différents publics, dans différents contextes, des formations à l’exploitation optimale de la base Istex et de ses services, pour des besoins documentaires ou de fouille de textes.
Formations passées
Depuis 2019, les membres de l’équipe Istex ont partagé leur expertise avec vous, au travers d’ateliers et de conférences, dans près d’une dizaine de villes françaises.
Formations à venir
Une formation passée vous aurait intéressés ? Pas de panique, de nouvelles formations sont ou seront prochainement proposées.
Pour un usage avancé
Si le terme API n’a plus de secret pour vous, si le mot « moissonneur » ne vous fait pas peur, si vous êtes familier du monde GitHub, ou tout simplement curieux et désireux d’en savoir plus, explorez les possibilités techniques de la plateforme Istex pour appréhender et vous approprier ses usages avancés.