À l’occasion de la journée internationale des langues signées du 23 septembre 2024, l’équipe Istex a constitué un nouveau corpus traitant de la diversité des langues visuo-gestuelles dans le monde.
L’Assemblée générale des Nations Unies rappelle que cette journée internationale est l’occasion “de soutenir et de protéger l’identité linguistique et la diversité culturelle de toutes les personnes sourdes et malentendantes, ainsi que l’ensemble des personnes qui utilisent la langue des signes”. Elle est célébrée depuis 2018 pendant la semaine internationale des sourds.
Découvrez et naviguez dans le corpus Langue Signées.
Le corpus en quelques chiffres
1,5 milliard c’est le nombre de personnes sourdes ou malentendantes dans le monde selon l'OMS. 2 207 c’est le nombre de publications scientifiques constituant le corpus. Chacune d’entre elles a été annotée pour déterminer la langue des signes étudiée. 65 c’est le nombre de langues signées citées dans le corpus. Chaque langue dispose d’une fiche présentant ses caractéristiques générales grâce à des requêtes SPARQL : nombre de signeurs, statut de la langue, pays d’origine, etc. 283 000 c’est, par exemple, le nombre de signeurs de la langue des signes française. Mais certaines langues sont pratiquées par de très petites communautés. 10 c’est ainsi le nombre de personnes qui pratiquent le Zinacantec Family Homesign, langue qui s’est développée au sein d’une famille au Mexique. 1960 c’est la date de la première recherche significative sur les langues des signes menée par William Clarence Stokoe (Sandler, 1999). Réprimées, interdites (Lane & Battison, 1978) et longtemps considérées comme du mime ou de la pantomime, les langues des signes ont été reconnues comme langues à part entière tardivement. 4 c’est le nombre d’alignements proposés dans le corpus. Les langues ont été alignées avec des ressources donnant accès à des informations linguistiques : Ethnologue, Glottolog 5.0, The World Atlas of Language Structures Online et Wikidata. 3 c'est le nombre de web services TDM qui ont permis d'enrichir le corpus. |
Quelques mots sur les aspects techniques
Le corpus Langues Signées rejoint la collection SHS de Data Istex.
Comme tous les corpus de Data Istex, ce corpus est exposé grâce à l’outil open source Lodex. Le texte intégral nettoyé, fourni par Istex Search, a été annoté grâce à un script Python permettant de détecter une des langues signées citée dans Glottolog 5.0. Il a bénéficié d’enrichissements produits par des web services de fouille de textes développés au sein de l’infrastructure Istex. Pour en savoir plus consulter l’article De la base documentaire au TDM.
L’équipe Istex remercie chaleureusement Camille Challant, spécialiste du traitement automatique des langues signées, pour sa contribution scientifique à l’élaboration de ce corpus.
Mathilde, pour l’équipe Istex
Besoin d'aide ?
Consultez notre Faq, la documentation Istex ou nos tutoriels
N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !