La mission de Software Heritage est de collecter, préserver et partager tous les logiciels disponibles publiquement sous forme de code source, dans le but de construire une infrastructure commune et partagée au service de l'industrie, de la recherche, de la culture et de la société dans son ensemble[12].
Le code source des logiciels est collecté depuis des plateformes d'hébergement de code, comme GitHub, GitLab.com ou Bitbucket, et des archives de paquets, comme npm ou PyPI, et est intégré dans une structure de données spécifique, un arbre de Merkle, qui est le cœur des archives de Software Heritage[13]. Les artefacts qui se trouvent dans les archives sont associés à des identifiants appelés SWHID[14].
Afin d'augmenter les chances de préserver les archives du Software Heritage sur le long terme, un programme de miroir a été mis en place par ENEA[15] en 2018 et FossID[16] depuis .
En 2017, l'Inria a signé un accord avec l'UNESCO pour la préservation à long terme du code source des logiciels et pour sa diffusion, en particulier à travers l'initiative de Software Heritage[19].
En , au siège de l'UNESCO, les archives de Software Heritage[13] ont été ouvertes[2].
Le , le Software Heritage a été inclus dans le Plan national français pour la science ouverte[20].
Le , les dépôts de logiciels sur HAL sont connectés à Software Heritage[21].
En , la stratégie et la vision qui soutiennent la mission de Software Heritage ont été publiées dans un article sur Communication de l'ACM[12].
En , l'Inria et l'UNESCO ont convoqué un groupe de 40 experts internationaux qui se sont réunis à l'invitation de l'Inria et de l'UNESCO[22] ce qui a conduit à la publication en de l'Appel de Paris (Paris Call) sur le code source des logiciels[23].
En , GitHub a signé un accord avec l'Inria pour améliorer le processus d'archivage des projets hébergés par GitHub dans les archives du patrimoine logiciel[24].
Le dépôt de Software Heritage contient en novembre 2022 plus de 180 millions de projets logiciels, avec une archive de plus de 13 milliards de fichiers sources uniques[13].
Financement
Software Heritage est une organisation à but non lucratif, financée en grande partie par les dons de sponsors, qui comprennent des entreprises privées, des organismes publics et des institutions universitaires[25].
Software Heritage recherche également des soutiens pour financer des parties tierces intéressées à contribuer à sa mission. Une subvention du NLnet(nl)[26] a financé les travaux d'Octobus[27] et de Tweag[28] qui ont permis de sauver 250 000 dépôts Mercurial retirés de Bitbucket[29].
Une subvention de la Fondation Alfred P. Sloan finance des experts pour développer de nouveaux connecteurs afin d'étendre la couverture de l'archive de Software Heritage[30].
Le CNRS est également depuis novembre 2020 sponsor, à hauteur de 100 000 euros par an[31].
Développement et communauté
L'infrastructure de Software Heritage est construite de manière transparente et collaborative. Tous les logiciels développés dans le cadre de ce processus sont publiés en tant que Free/Libre Open Source Software[32]. Un programme d'ambassadeurs a été annoncé en décembre 2020 avec l'objectif déclaré de développer la communauté d'utilisateurs et de contributeurs[33].
Prix et récompenses
En 2016, Software Heritage a reçu le prix du meilleur projet de la communauté Open Source lors du Paris Open Source Summit 2016[34],[35].
En 2019, Software Heritage a reçu le prix de l'Initiative Académique du Pôle Systematic[36].
↑Paul Brown, « Software Heritage: Creating a safe haven for software », Boing Boing, (lire en ligne, consulté le )
↑Clémence Jost, « Open source: lancement de Software Heritage, la plus grande bibliothèque de codes source de la planète », Archimag, (lire en ligne, consulté le )
↑ a et bJean-François Abramatic, Roberto Di Cosmo et Stefano Zacchiroli, « Building the Universal Archive of Source Code Journal Article », Communications of the ACM, (lire en ligne, consulté le )