Istex offre à la communauté scientifique française l’opportunité d’utiliser son infrastructure et ses outils pour bénéficier des techniques de « Text and Data Mining » sur des documents présents dans Istex mais également sur vos propres données.
L’objectif est de proposer à tous, experts en traitement automatique du langage, ou non, des services en ligne, des ressources ou des outils pour faciliter l’exploration ou l’exploitation de corpus textuels.
Services TDM
Vous souhaitez homogénéiser ou enrichir vos données bibliographiques grâce à un DOI ? grâce à l’attribution d’identifiants (codes RNSR, IdRef, ORCID) ? Vous souhaitez analyser le contenu de vos données en les indexant, en les classant ou en extrayant des entités nommées ?
Ces services sont pour vous. Ils mettent en œuvre des algorithmes d’apprentissage automatique, de traitement automatique du langage ou des terminologies. Vous avez ainsi accès à des traitements spécialisés, sans avoir à manipuler de langage de programmation, sans paramétrage complexe, ni connaissances a priori.
Nous développons et mettons à votre disposition :
- des outils de TDM (Text and Data Mining) faciles à mettre en œuvre
- couplés à un outil de création de tableaux de bords dynamiques.
Quels services ?
Nous proposons plusieurs services, que nous utilisons et mettons à disposition. La liste des services en production ainsi que leur documentation est accessible sur le site « ISTEX TDM »
On peut distinguer deux grandes familles de web-services :
- les services qui s’exécutent sur des métadonnées comme la source des documents, les affiliations des auteurs…
- les services qui s’exécutent sur du texte comme le titre, les résumés, le texte intégral.
Retrouvez le détail des services de TDM proposés : ISTEX TDM
Comment s’en servir ?
Vous pouvez faire appel à ces services de différentes manières, suivant vos besoins et vos compétences :
- via Lodex, outil open source de visualisation de données structurées développé à l’Inist
- via IA Factory, interface de chargement de corpus et d’exécution d’outils de TDM
- via une ligne de commandes (outils curl, wget, ou autres)
- via des programmes (peu importe le langage de programmation, pourvu que ce dernier puisse accéder au web)
Un site est disponible pour tester ces outils de TDM : Tester
Parallèlement nous proposons un catalogue qui recense les outils de TDM gratuits. En naviguant sur le site, vous trouverez des applications qui répondent à vos besoins.
Catalogue des outils de TDM existants : TM tools explorer
Vous ne trouvez pas l’outil adapté à votre besoin ? Contactez nous afin d’évaluer ensemble la faisabilité d’un nouvel outil.
Vous avez développé un programme de fouille de textes innovant et vous souhaitez le mettre à disposition de la communauté ? Contactez nous afin d’estimer la faisabilité d’intégration de votre outil.
Ressources terminologiques
Vous avez besoin de contenus terminologiques pour vos projets de fouille de textes ou pour toute autre utilisation ? Nous mettons à votre disposition, en accès libre, sur Loterre, des terminologies multilingues et multidisciplinaires répondant aux principes FAIR (Facile à trouver, Accessible, Interopérable et Réutilisable) et conformes aux standards du web des données ouvertes et liées (LOD).
Accéder aux terminologies
- Consulter les terminologies : Loterre
- Accéder aux services de Loterre, à son SPARQL endpoint et à son API : Services, SPARQL endpoint et API
- Explorer la cartographie de Loterre et rechercher une terminologie répondant à vos besoins: Loterre Explorer
Utiliser les terminologies en fouille de textes
Rechercher des documents
Loterre est une source multilingue de mots-clés pouvant vous aider dans la rédaction d’une requête d’interrogation pour la constitution d’un corpus de documents.
Enrichir et explorer un corpus
Le contenu textuel des documents d’un corpus peut être annoté avec les concepts des terminologies de Loterre, grâce à nos web services, dans une instance Lodex.
Il est alors possible de naviguer dans le corpus au moyen de filtres et de graphiques portant sur ces concepts et d’accéder ainsi à une exploration du contenu scientifique des documents.
Les terminologies de Loterre peuvent aussi être utilisées pour enrichir les métadonnées bibliographiques.
Exemples de réalisations
- Exploration de la thématique IA et Astrophysique
- Indexation automatique d’un corpus Psychologie et neurosciences de la mémoire
Besoin d’une terminologie spécifique ?
En tenant compte de l’usage et du domaine scientifique envisagés, nous pouvons :
- vous proposer une ou plusieurs ressources de Loterre
- étudier la création d’une nouvelle terminologie ou l’adaptation d’une ressource existante
- vous accompagner dans la création de votre propre ressource terminologique
Exemple de création d’un thésaurus en paléoclimatologie.
Nous vous proposons parallèlement l’exploration d’une sélection de ressources externes : Vocabs Explorer
Une terminologie à valoriser ?
Loterre est à votre disposition pour exposer et partager vos terminologies.
Hébergement de corpus
Vous souhaitez analyser votre corpus de documents à travers un site web dédié. L’infrastructure Istex propose à ses membres la création et l’hébergement d’instance Lodex pour vos propres données.
- Chargez votre corpus de documents,
- configurez son affichage,
- enrichissez-le avec les services d’enrichissement et
- transformez le tout en site web.
Vous disposez ensuite de votre propre site web sur vos données, pour analyser son contenu pour vous même ou pour le diffuser dans le cadre vos projets.
Pour accéder à ce service, prenez contact avec l’équipe Istex.