Dans le cadre des nouveaux services proposés par l’infrastructure Istex, opérée par l’Inist-CNRS, voici la première présentation d’un outil autonome et interopérable pour la fouille de textes ou TDM (Text and Data Mining).
Parmi les 38 web services recensés sur le catalogue Istex TDM, le web service intitulé scientometrixClass a été présenté à la 29ème rencontre de la Société Francophone de Classification (SFC) par Léo Gaillard et Lucas Anki, les développeurs de ce service.
Son objectif ? Comme son nom le laisse entendre, il classe automatiquement chaque document d’un corpus en anglais dans les 3 niveaux de la classification canadienne Science-Metrix.
Sa spécificité ? Il classe les articles scientifiques à partir de l’analyse de leur résumé et non en fonction de la revue dont ils sont issus.
La méthode ? Il vectorise 2,5 millions de documents issus d’Istex, et utilise le modèle de langage BERT, l’algorithme de KPPV (K plus proches voisins) optimisé et la bibliothèque Faiss.
Vous ne comprenez pas ? Ce n’est pas grave, cela ne vous empêchera pas de l’utiliser.
Son utilisation ? Comme pour une partie des autres web services :
– via Lodex, un outil open source de visualisation et de traitement de données structurées développé à l’Inist. Cette plateforme permet d’importer vos données, de les traiter selon vos besoins, avec nos web services, de visualiser les résultats de façon dynamique et enfin de les publier sous forme de site web.
– via IA Factory, interface de chargement de corpus et d’exécution d’outils TDM
– via une ligne de commandes (outils curl, wget, ou autres, pour des utilisateurs plus avancés)
Si vous souhaitez en savoir plus, retrouvez :
Venez consulter le catalogue des web services ISTEX TDM pour trouver des outils d’aide à l’analyse de données et de textes.
Valérie Bonvallot pour l’équipe TDM
Besoin d'aide ?
Consultez notre Faq, la documentation Istex ou nos tutoriels
N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !