En mai 2023, data.istex s’enrichissait d’un nouveau corpus intitulé Machine Translation. Il offrait d’explorer l’aspect diachronique de la traduction automatique grâce à la projection d’une terminologie bilingue sur le texte intégral des publications Istex.  More data is better data ? Dans l’objectif d’augmenter la pertinence et la couverture chronologique du corpus, l’équipe Istex souhaitait ajouter d’autres publications à cette première version du corpus. Cet objectif est atteint dans la nouvelle version du corpus, intitulée Machine Translation V2, publiée aujourd’hui au sein de la collection Traduction de data.istex.

Logos ressources corpus
Une interrogation croisée

Le corpus Machine Translation V2 est une expérimentation visant à incorporer des données issues d’autres ressources à des données Istex. Les données ajoutées sont issues d’une interrogation croisée des ressources Crossref, HAL, PubMed et des thèses du Sudoc des chercheurs français. Cette incorporation a nécessité plusieurs ajustements parmi lesquels la suppression des doublons et la récupération du texte intégral*.

Les résultats de l’expérimentation

Cette interrogation croisée a permis de collecter 637 nouveaux documents possédant une date de publication plus récente et apportant des informations relatives à la recherche française sur la traduction automatique. Comme attendu, les publications ajoutées appartiennent majoritairement à l’approche neuronale (neural machine translation), approche la plus contemporaine dans l’histoire de la traduction automatique.

D’un point de vue scientifique, cette première expérimentation montre l’intérêt d’incorporer des données externes à des corpus Istex. D’un point de vue technique, elle a permis à l’équipe d’établir, puis de tester, une méthodologie de constitution corpus mixte alliant des publications de plusieurs ressources avec des formats et des structures différentes.

Pourquoi pas une version 3 du corpus pour continuer d’enrichir ce panorama historique de la traduction automatique ?
To be continued

Mathilde, pour l’équipe Istex

A lire aussi


*Pour annoter les textes intégraux des documents, l’équipe a utilisé le web-service pdf2text (en phase de test) permettant de récupérer les textes intégraux à partir des URL des articles en Open Access.

besoin d'aideBesoin d'aide ?

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Écrivez-nous

fermer la modale