Une déclaration d’amour aux formats

PDF Eh? – Another Hackathon Tale

A notre ami et collègue,
Nicolas Yñesta, 1975-2020

Une histoire d’amour par Bertrand Caron,
avec Alix Bruys,Yannick Grandcolas, Thomas Ledoux, Anne Paounov, Chloé Perrot, Luc Verrier, Bibliothèque nationale de France (BnF)

[Note : This blog is a French version of A Love Letter to Formats]

La nouvelle expertise formats de la Bibliothèque nationale de France

La connaissance des formats de données conditionne directement notre capacité à tirer le maximum de l’information véhiculée par elles et à permettre à nos futurs usagers d’en faire de même. Sans cette connaissance, nous sommes réduits à ne préserver qu’un train d’octets ininterprétable et nous risquons de le restituer incorrectement1. Pour une institution conservant de l’information numérique, formaliser  une politique formats fondée sur cette connaissance est indispensable, et constitue une composante essentielle d’une politique générale de préservation numérique.

Depuis 2018, la BnF a réactivé son activité de veille et d’étude des formats de données et de métadonnées pour la pérennisation de l’information numérique, en vue de publier une politique formats révisée, justifiée et assumée. L’année 2020 a été marquée par une accélération notable du rythme des travaux qui permettra, au début de l’année prochaine, de publier un document de politique structurant, d’abord pour l’établissement lui-même, mais aussi pour ses partenaires, son réseau et ses donateurs.

Cet article présente l’activité d’étude, les méthodes de travail adoptées et les résultats attendus prochainement, et dévoile un des éléments structurants de cette politique : les critères adoptés à la BnF pour évaluer un format dans une optique de pérennisation de l’information.

La genèse

Dès la fin des années 2000, l’un des groupes de préfiguration du système de préservation de la BnF se penche sur la question des formats de données et de métadonnées. A son actif, on peut citer notamment l’étude menant au choix du format d’image fixe JPEG 2000 pour la numérisation et des taux de compression adaptés à chaque type de support2, l’analyse de formats d’empaquetage des métadonnées ayant conduit à préférer METS au standard XFDU, et la comparaison entre les formats audioMD, videoMD et MPEG-7 pour exprimer les métadonnées produites par la caractérisation des fichiers audiovisuels, au profit du dernier.

Une fois le système de préservation mis en production (2010) et durant près de huit ans, le groupe maintient une activité épisodique, sollicité sur des sujets ponctuels. C’est en 2015 qu’un rapport interne sur la gouvernance de la préservation numérique réaffirme la nécessité d’un organe de suivi et d’étude des formats de données et de métadonnées. La mise en place de ce groupe a pris près de trois ans ; c’est donc en 2018 que, redéfini et revivifié, il prend son envol !

Le groupe de travail

La charte du groupe de travail “Formats de données et métadonnées pour la préservation” (rapidement abrégé en “groupe Formats”) a été redéfinie en 2016-2017. La tâche a notamment consisté en l’identification des unités organisationnelles chargées d’apporter leur concours au groupe, soit parce qu’elles disposaient déjà d’experts reconnus sur l’un des sujets, soit parce qu’elles conservaient des collections spécialisées et avaient donc vocation à développer leur expertise sur un type de contenu spécifique.

Le groupe se compose donc aujourd’hui de 25 agents, travaillant dans les départements spécialisés (Départements des Estampes et de la photographie, des Arts du spectacle, de l’Audiovisuel, des Cartes et plans, de la Musique) et les départements supports (Départements des Systèmes d’information, de la Conservation, des Métadonnées, de la Coopération3, Images et prestations numériques4, Mission archives).

Le groupe Formats se veut également l’espace de transmission de la connaissance des experts aux bibliothécaires responsables de nouvelles collections numériques. Il vise à impliquer ces derniers dans les décisions apparemment techniques, mais qui conditionnent directement l’information conservée et ses usages futurs5.

La méthode

Afin de permettre aux experts de travailler en parallèle sur des parties différentes du document de politique et de favoriser la micro-contribution, nous avons choisi de ne pas travailler exclusivement dans la base de production de la BnF6, mais d’élaborer la partie établie collaborativement à l’aide de la plateforme de développement de logiciels GitHub (https://fr.github.com/), et plus précisément son wiki7. Une bonne partie des membres a ainsi pu découvrir et se familiariser avec cet outil désormais incontournable. Les contenus sont hébergés au sein d’un espace dédié aux hackathons de la BnF, marquant ainsi leur statut expérimental et en constante révision. L’objectif était en effet de montrer le processus de montée en compétence et de développement des savoirs et savoir-faire sur les formats de données au sein de la BnF. Chacun des contenus est donc marqué par un état d’avancement sous forme de badges : seuls ceux marqués comme « validés » sont considérés comme communicables, bien qu’on ne restreigne pas l’accès aux autres.

Étonnamment, le confinement, institué en France du 17 mars jusqu’au 11 mai, a permis au groupe de progresser significativement. Isolés chacun chez soi, libérés d’une bonne partie des contraintes liées au service public, à la gestion de marchés de numérisation, et de toutes autres tâches du quotidien, les membres du groupe ont pu consacrer un temps plus important à l’étude des formats. Étant généralement plus versé en informatique que la moyenne des agents BnF, les membres du groupe ont continué à travailler collectivement, et l’institution de visioconférences hebdomadaires sur le sujet a également favorisé la cohésion du groupe8. Enfin, le choix de l’outil GitHub s’est avéré payant car il restait accessible depuis les équipements personnels de la plupart des agents, contrairement aux bases de production de la BnF.

Les réunions régulières sont devenues une opportunité pour commencer à former à l’approche particulière que les spécialistes de préservation numérique ont des formats. Nous avons ainsi pu valoriser auprès des membres du groupe des outils développés par la communauté internationale (JHOVE, en particulier) et par la BnF (notamment le module Planification de la pérennisation développé cinq ans auparavant et encore sous-utilisé). Enfin, le groupe est l’endroit idéal pour apprendre et employer le vocabulaire commun de la préservation numérique9.

Dans le courant de l’année 2020, l’avancement en parallèle du traitement d’un volumineux fonds d’archives nativement numériques données par le cinéaste Amos Gitaï à la BnF10 a fourni un terrain d’expérimentation inespéré aux membres du groupe. Jamais la BnF n’avait reçu un don nativement numérique d’une telle ampleur : 19 To de données dans environ 200 formats de fichiers différents, dont de nombreux propriétaires, et en particulier des montages successifs au format FCP (bibliothèques ou projets Final Cut Pro 7 et X). Les opérations de préservation nécessaires, telles que les migrations réalisées sur les fichiers de format propriétaire, nous ont alors démontré que des pratiques, empiriques, et mises en œuvre dans l’urgence, ne faisaient pas une politique, bien qu’elles puissent aider, une fois étayées par de plus amples études, à l’établir.

Le résultat : une politique mieux partagée et assumée

Le résultat de ces mois de travail collectif est donc une publication annoncée pour le premier trimestre 2021.

Si nous avons mis plus longtemps que prévu pour produire une telle politique, cela est lié au constat, fait collectivement par le groupe, qu’une politique formats ne peut se contenter d’énumérer des formats acceptés. Il s’agit bien plutôt de raisonner par type de contenu et de considérer pour chacun quelles propriétés et fonctionnalités signifiantes on souhaite préserver. Cette réflexion nous engage, si cela n’avait pas été le cas, à nous poser la question de l’intention de préservation (preservation intent en anglais).

Nous avons également abandonné l’idée de faire des préconisations dans un cadre aussi général qu’une politique de formats théoriquement applicable à toutes les filières d’un établissement comme la BnF. Comme d’autres institutions avant nous, nous décrivons plutôt des préférences et les justifions par des arguments objectifs ou par des usages et choix spécifiques au contexte de la BnF.

La réflexion a commencé à aborder la question épineuse des stratégies de pérennisation, en particulier, mais pas exclusivement, face à des formats exotiques ou simplement inattendus, arrivés par le biais des nouveaux projets de collecte de données nativement numériques. Nous avons alors constaté l’intérêt de poser systématiquement la question du dilemme entre l’adaptation du contenu à l’environnement ou de l’évolution de l’environnement pour prendre en compte le contenu11. Cette formulation nous a semblé plus pertinente à notre avis que l’alternative traditionnelle « migration » contre« émulation ».

Il faut également noter que le document de politique ne contiendra pas exclusivement des contenus inédits : d’autres institutions (les Archives nationales des Etats-Unis12, la Bibliothèque du Congrès3, la Bibliothèque nationale britannique14, etc.) ont publié un équivalent. Néanmoins, ils ont deux avantages majeurs.

  • Ils sont en français et visent un public sensibilisé aux problématiques numériques mais non spécialiste de la préservation numérique ; ils ont donc été pensés dans une logique pédagogique et de concision plus que d’exhaustivité.
               
  • Ils sont évidemment adaptés aux usages, aux besoins et aux moyens de la BnF et ont été discutés, décidés et validés en commun. Si l’évaluation des formats de fichiers repose sur un certain nombre de critères objectifs, la décision de les adopter et de les traiter d’une manière ou d’une autre repose sur une pondération de ces critères spécifique à l’institution, qui devra déterminer les compromis acceptables entre compacité et robustesse, entre simplicité et efficacité, etc.

Le lectorat attendu

Le document vise trois publics différents :

  • les bibliothèques francophones conservant des données numériques qui souhaiteraient développer une politique formats ou comparer la leur à celle de la BnF,
             
  • les donateurs potentiels soucieux de fournir leurs créations sous une forme maîtrisable par la BnF,
             
  • et plus généralement, tout producteur de données intéressé par leur pérennisation, qu’il soit susceptible ou non de les confier à la BnF.

Le contenu

Le contenu du document de politique comportera trois parties principales.

  1. Les principes de la politique
    • Un glossaire des notions principales,              
    • La justification d’une politique formats,           
    • Les critères de choix,                
    • Les méthodes d’analyse des fichiers,                 
    • Dans le cas où les données seraient dans un format jugé inadapté à la politique de l’établissement, les critères à envisager afin de déterminer la stratégie de migration à adopter (format cible, méthode de migration, conservation ou non des données originales).
               
  2. La liste structurée des formats identifiés par la BnF
    • Par type de contenu et par usage, des considérations générales et les métadonnées techniques de caractérisation produites par la BnF pour juger de la pertinence, de la qualité, des usages possibles et de l’historique du fichier ;                
    • Pour chaque type de contenu et usage, la liste des formats elle-même, par niveau de préférence (formats préférés, acceptés, à l’étude et reconnus par la communauté de la préservation numérique), chacun éventuellement accompagné de la stratégie de pérennisation envisagée par la BnF.
               
  3. Une fiche par format préféré et accepté, qui le présente avec une attention particulière à tous les paramètres affectant chaque critère de pérennité, les outils identifiés et préférés par la BnF pour le produire, le modifier, le restituer, le caractériser, le valider et le migrer, et l’usage ou la présence dans les collections de l’institution.

Parmi les sections importantes, l’une d’entre elles est structurante et peut dès maintenant être dévoilée : il s’agit des critères adoptés à la BnF pour évaluer un format dans une optique de pérennisation de l’information.

Conclusion

Le groupe Formats de données et de métadonnées pour la pérennisation est donc un espace privilégié pour aborder des questions de préservation numérique et les valoriser comme des problématiques concernant le métier au premier chef, et non comme de simples questionnements techniques. Sa remise en place en tant que groupe de travail permanent, quoique longue, est désormais acquise et participe à la prise en compte par les agents et leur hiérarchie du fait que la préservation numérique est une activité récurrente.

Restera ensuite, une fois les livrables initiaux publiés en début d’année prochaine, à valoriser et faire connaître à l’intérieur même de la BnF l’activité, l’expertise et les apports du groupe, ainsi qu’à mettre en œuvre progressivement ses conclusions.

1        Pour s’en convaincre, on consultera l’article publié par la BnF lors de la précédente Journée internationale de la préservation numérique : «Le blues du JPEG : Prendre en charge correctement du JPEG 32 bits», sur le site de l’OPF, https://openpreservation.org/blogs/le-blues-du-jpeg/.

2        Les résultats de l’étude ont été synthétisés dans une communication à la conférence Archiving en 2017 sur « JPEG2000 as a preservation format for digitization: lessons learned from a library ».             

3        C’est au sein du Département de la coopération qu’est pilotée Gallica (https://gallica.bnf.fr), la solution de diffusion des documents numériques mutualisée qui propose ses services à plusieurs centaines d’établissements partenaires français.

4        Le Département Images et prestations numériques pilote la banque d’images (https://images.bnf.fr/), banque iconographique d’images numérisées et indexées au sujet.

5         Ainsi, un récent développement du groupe sur les fichiers PSD (Photoshop) a permis aux responsables de collection de prendre conscience de l’impact du format sur la capacité à conserver tous les calques d’une maquette, que l’export sous forme d’image avec les calques fusionnés supprime.

6        Cette base a actuellement pour brique technique la solution IBM Lotus Notes.

7        L’espace actuellement utilisé est https://github.com/hackathonBnF/FichesFormat/wiki.

8        Cette organisation a été plébiscitée au point qu’elle a été maintenue, au-delà du retour partiel sur site des agents BnF, jusqu’à aujourd’hui.

9        Il est intéressant de noter que l’adoption de la terminologie OAIS a été questionnée. Plutôt que de former les membres du groupe à un modèle de données complexe, et de supposer la familiarité des lecteurs des livrables avec la norme, on a préféré réutiliser un sous-ensemble cohérent de ces notions et leur donner une définition adaptée dans le document de politique.

10      Voir sur la fiche de fonds  (http://comitehistoire.bnf.fr/dictionnaire-fonds/amos-gita%C3%AF) et l’inventaire du fonds (https://archivesetmanuscrits.bnf.fr/ark:/12148/cc1063058).

11      Pour prendre un exemple, nous pouvons évoquer la question posée par les images JPEG en 32 bits CMJN évoquées dans la note 1 ci-dessus. L’alternative posée par ces images était la suivante : vu que notre chaîne de traitement s’attend à des images en RVB 24 bits, devons-nous la faire évoluer pour prendre en compte des contenus dans un autre modèle couleur, ou bien, étant donné les faibles quantités de ces contenus susceptibles d’intégrer les collections de la BnF, devons-nous les migrer versle modèle couleur RVB ?

12      Voir notamment le document U.S. National Archives and Records           Administration Digital Preservation Framework sur Github           (https://github.com/usnationalarchives/digital-preservation).

13      Voir les formats recommandés par la Bibliothèque du Congrès (Recommended Formats Statement, sur https://www.loc.gov/preservation/resources/rfs/) et leurs descriptions très riches de plusieurs centaines de formats (Sustainability of Digital Formats: Planning for Library of Congress Collections, https://www.loc.gov/preservation/digital/formats/).

14      Voir notamment les études très complètes hébergées sur le site de la Digital Preservation Coalition sur https://wiki.dpconline.org/index.php?title=File_Formats_Assessments.

379
reads

Leave a Reply

Join the conversation