La plateforme ISTEX est déployée et hébergée dans les locaux de l’Inist à Vandoeuvre-lès-Nancy, sur une infrastructure matérielle virtualisée à l’aide de l’hyperviseur VMWare.
Elle se compose de plus de 80 machines virtuelles dédiées à différents usage :
- Chaîne de traitements (préparation des données, reformatages, enrichissements…)
- Moteur de recherche Elasticsearch (indexation des données)
- API (exposition des données)
- Services supplémentaires
Les données sont stockées sur une baie dédiée et sauvegardées périodiquement pour assurer pérennité et possibilité de restauration en cas d’incident.
Nous gérons actuellement environ 100 To de données de différente nature :
- Données éditeur brutes (publications scientifiques, formats hétérogènes)
- Données documentaires générées (normalisées et enrichies)
- Données d’index, pour les besoins du moteur de recherche
- Code source et binaires, permettant d’exécuter les applications
- Systèmes d’exploitation, permettant d’exécuter les machines virtuelles
- Images et conteneurs Docker, permettant d’exécuter une partie de nos applications
- Sauvegardes
Outre les logiciels nécessaires au fonctionnement de l’infrastructure elle-même, la plateforme s’appuie sur un socle applicatif développé en interne répondant aux besoins métiers spécifiques d’ISTEX.
Les applications développées s’appuient très largement sur des composants Open Source performants, fiables et éprouvés : Elasticsearch, Redis, NodeJS, ExpressJS, Docker…
En retour, une grande partie de nos développements sont publiés sous licence libre sur la plateforme Github (plus de 50 *repositories*) et référencés sur la plateforme nationale des codes sources du secteur public. Certaines briques sont publiées directement sur les registres publics Docker Hub et Npmjs.