Les collections de corpus spécialisés, exposées sur data.istex et accessibles directement via la page des Corpus scientifiques, offrent des aperçus diversifiés du contenu scientifique d’Istex, tout en procurant des cas d’application ou d’utilisation d’outils de TDM.

Parmi toutes nos collections, citons trois exemples de corpus qui poursuivent des objectifs différents sur une même tâche de fouille de textes : la détection d’entités nommées. Chacun d’eux a fait l’objet d’une publication.
Laissez-vous inspirer…


Beethoven

Illustre une stratégie de constitution de corpus

La collection de corpus Beethoven, créée à l’occasion du 250ème anniversaire du compositeur allemand, est destinée à la détection d’entités nommées spécifiques de la musique pour ensuite enrichir un graphe de connaissances, le graphe DOREMUS.
Cette collection illustre une stratégie itérative de constitution d’un corpus scientifiquement pertinent et adapté aux exigences des outils de fouille.

En savoir plus

Collection de corpus Beethoven sur data.istex

image illustrant le corpus Animalia100

Animalia 100

Compare trois outils de détection de noms d’espèces animales

Au sein de la collection Systématique, le corpus Animalia 100 regroupe des documents de zoologie dans lesquels les entités nommées scientifiques de type espèces animales ont été détectées au moyen de trois outils de TDM : entity-fishing, développé par la société Science-Miner, IRC3sp et T+rex, tous deux créés à l’Inist-CNRS.
L’alignement avec des bases de données de référence a permis d’établir et d’ajouter la classification taxinomique de chaque espèce détectée dans le corpus.

En savoir plus

EN-ISTEX

Offre des annotations manuelles vérifiées

Parmi la collection de corpus annotés manuellement, le corpus EN-ISTEX est un corpus gold standard de 200 documents en texte intégral dans lesquels les entités nommées propres à ISTEX ont été annotées manuellement, et leur fiabilité, calculée au moyen d’un accord inter-annotateur.
Ce corpus peut être réutilisé pour évaluer la performance de tout outil de reconnaissance d’entités nommées. Outre les offsets des entités nommées de chaque document, un guide d’annotation est disponible et téléchargeable pour vous aider dans votre propre projet.

En savoir plus

Corpus EN-Istex sur data.istex

besoin d'aideBesoin d'aide ?

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Écrivez-nous

fermer la modale