Deuxième partie. Les données éclipsent les documents

Pour tout dire, l’idée de ce billet m’est venue il y a quelque temps déjà, lorsque j’ai lu l’ouvrage de Jérôme Denis, Le travail invisible des données. Éléments pour une sociologie des infrastructures scripturales, Paris, Presses des Mines, Collection Sciences sociales, 2018.

Cette lecture m’a donné envie de creuser la question de la relation entre documents et données. Elle m’a renvoyée à d’autres constats et m’a fait revisiter d’autres lectures. Ce sont ces constats que j’aborde dans cette seconde partie, après un petit panorama de publication autour des données (voir partie 1 – Le règne de la donnée) et avant de me livrer à un examen diplomatique du sujet (ce sera la partie 3).

Les données s’imposent dans la recherche

Le livre Le travail invisible des données me semble représentatif d’un nombre croissant de publications de recherche (sociologie, sciences de l’information) où le document, naguère très présent, s’efface devant le mot données. C’est une impression subjective qui mériterait d’être confirmée ou infirmée par une analyse textométrique en bonne et due forme.

Jérôme Denis est sociologue, avec une longue expérience de la gestion des données dans le monde des ingénieurs. Dans ce livre sur « le travail invisible des données », il fait le choix de laisser de côté la « sociologie avec des données » pour s’intéresser à la « sociologie des données ». Notant qu’il n’existe pas encore de définition satisfaisante de la donnée, il dépasse la question de définition du concept (« Qu’est-ce qu’une donnée ? ») pour poser la question de savoir « Quand est-ce une donnée?« . Prenant quelque distance avec les idées généralement admises que a) nous assistons à une « révolution des données » et b) que les données seraient toutes disponibles dans le big data, il s’attache à observer « les activités d’écriture et de lecture » qui participent de la fabrication des données et accompagnent leur circulation.

Jérôme Denis introduit sa réflexion par le récit d’une expérience personnelle. Lors, du décès de son père, sa famille et lui ont été confrontés (comme bien d’autres familles) à un enchevêtrement de démarches et d’échanges d’information (administration, banque, service, compte Facebook, etc.), passage obligé pour que cette réalité du décès d’un proche, en quelque sorte une donnée non écrite, devienne une donnée validée dans la société.

Ce qui m’a d’emblée frappée à cette lecture – compte tenu sans doute de ma propre culture – c’est combien la notion de « document », pourtant si ancrée dans la vie administrative et les relations contractuelles avec tous types de fournisseurs, disparaissait derrière la notion de « donnée ». Certes, il est question de documents, notamment de documents qu’il faut signer à cette occasion, et Jérôme Denis reconnaît que les documents ne sont peut-être pas aussi accessoires pour la compréhension des faits sociaux que d’autres sociologues semblent le penser. « Les documents qui accompagnent la mort, écrit Jérôme Denis, permettent de se faire une idée assez claire du caractère performatif de certaines informations. Ils font comprendre que la production des données et les activités de lecture et d’écriture qu’elle suppose, participent pleinement à la fabrique de la réalité que nos partageons ». J’ai envie d’ajouter que ce constat ne se limite pas au contexte du deuil. Donc le document est bien-là (certificat, attestation, courrier, contrat, formulaire, relevé de compte …) mais l’auteur met en avant la notion de données, collectées dans des bases de données, embarquées dans différents flux d’information, restituées dans des documents plus formels.

À la lumière de cette expérience personnelle mais aussi universelle, Jérôme Denis se livre à une observation quasiment ethnographique des données, de la façon dont elles sont « travaillées » et de leurs « travailleurs » dans différents environnements : laboratoire, administration, banque. Il relie notamment cette manipulation des données à la notion d’inscription, ou d’écrit, terme sur lequel je reviendrai dans la partie 3.

Ce travail de recherche sur les données qui nous environnent – quand elles ne nous encerclent pas…- serait peut-être à mettre en relation avec la réflexion initiée il y a quinze ans par le groupe R.T. Pédauque sur « Le document à la lumière du numérique« ; ces travaux insistaient notamment sur la redocumentarisation permise par les technologies de décomposition-recomposition des documents, alors que les données, le big data, n’avait pas encore déferlé sur le monde.

Les données s’imposent dans la réglementation

Il est loisible d’observer cet effacement progressif du document derrière la donnée, à la fois dans le discours et dans la réalité. En effet, le terme document se teinte peu à peu d’archaïsme; on est tellement habitué au document papier A4 et au fichier PDF que le qualificatif « document » accolé à des objets d’information numériques qui se présentent sous une autre forme (bases de données, vidéos, formulaires en ligne, posts sur les réseaux…) est de moins en moins compréhensible.

Mais qu’est-ce qu’un document ? La définition la plus courante dans les sciences de l’information est celle de l’ensemble formé par un support et l’information qui y est enregistrée. Ce qui est assez large et très accueillant pour les données numériques. Si on rappelle encore que l’étymologie du mot document renvoie au fait qu’il véhicule une information ou plutôt qui un enseignement (doceo en latin), on est toujours dans un concept qui dépasse largement le format A4.

Pour ceux qui n’ont jamais lu le petit ouvrage de Suzanne Briet Qu’est-ce que la documentation? (1951), il n’est pas trop tard et je les invite à cliquer sur le lien. Ils y verront, entre autres, comment une antilope capturée par un explorateur peut être considérée comme un document initial auquel sont associés divers documents scientifiques descriptifs.

Discutons, cela est toujours utile, et souvent agréable. Mais n’oublions pas l’impact de la réglementation sur les pratiques administratives et les mots qui les accompagnent. La réglementation aussi formate la réalité des choses.

De ce point de vue, le RGPD (Règlement général pour la protection des données personnelles), applicable depuis mai 2018, est un événement terminologique majeur.

En effet, ce texte essentiel pour la protection des données à caractère personnel, ce texte qui façonne largement la gouvernance des données dans les entreprises depuis plus de trois ans, ce texte qui a conduit au recrutement de dizaines de milliers de « délégués à la protection des données » (DPO), ce texte qui certes vise les excès des GAFAM mais qui oriente aussi le comportement de dizaines de milliers d’entreprise, ce texte donc parle exclusivement de données et jamais de documents.

Officiellement, dans le monde de la protection des données personnelles, le document n’a plus droit de cité. Ce n’est pas une fake news!

Plus marquant encore, la version anglaise du texte, titré GDPR (General Data Protection Regulation), a totalement évacué la notion de « record » au profit des « data ». Le mot « record » est pourtant bien plus précise que « document » en français (les records et les documents sont en archivistique anglosaxonne deux choses bien distinctes); il est aussi bien plus large dans la forme car « record » n’évoque pas uniquement un fichier A4 pour un anglo-saxon mais tout type d’enregistrement de données. Le RGPD/GDPR est assurément un coup dur porté au records management. Dès lors que les « records » sont évacués, au moins terminologiquement parlant, du champ d’application du RGPD, il est encore plus difficile qu’avant de proposer à une entreprise de déployer un projet de « records management » (archivage managérial, gouvernance des documents engageants) et cette évolution réglementaire internationale porte un coup peut être fatal à la norme ISO 15489 (2001, 2016) sur le records management naguère si vantée (et à juste titre) et aujourd’hui, bien qu’encore adolescente, si délaissée. Voir mon billet sur les mots du RGPD.

Chacun peut le vérifier, dans les 99 articles du RGPD, le mot document n’est quasiment pas utilisé pour désigner un objet documentaire constitué partiellement ou intégralement de données à caractère personnel. Une exception confirme la règle avec l’article 86 consacré aux « données à caractère personnel figurant dans des documents officiels ». Cela ne signifie pas bien sûr que les documents – car il en existe un certain nombre dans les entreprises – ne comportent pas de données à caractère personnel ni que les données à caractère personnel ne peuvent être « travaillées » pour constituer un objet documentaire nommé « document » mais la révolution terminologique est là. On pourra se consoler en remarquant que le RGPD insiste en revanche à plusieurs reprises sur la nécessité de « documenter » quelques situations, par exemple la violation de données…

Dans l’article 4 du Règlement (Définitions), les données à caractère personnel sont définies comme « toute information se rapportant à une personne physique… ». Le « traitement » de données, terme nouveau et essentiel dans réglementation, est défini comme « toute opération ou tout ensemble d’opérations effectuées ou non à l’aide de procédés automatisés et appliquées à des données ou des ensembles de données à caractère personnel, telles que la collecte, l’enregistrement, l’organisation, la structuration, la conservation, l’adaptation ou la modification, l’extraction, la consultation, l’utilisation, la communication par transmission, la diffusion ou toute autre forme de mise à disposition, le rapprochement ou l’interconnexion, la limitation, l’effacement ou la destruction ». Il serait intéressant de confronter cette énumération à la formule de Jérôme Denis: « les activités d’écriture et de lecture qui accompagnent la circulation des données ».

L’article 13 précise que le responsable du traitement (le représentant de la personne morale productrice des données) doit fournir à la personne concernée, entre autres, la durée de conservation des données à caractère personnel ou, à défaut, les critères pour déterminer cette durée », opération parfois délicate sur laquelle je reviendrai dans la troisième partie.

Une question qui, à mon avis, n’a pas été assez étudiée est le recouvrement entre le périmètre informationnel relevant du RGPD et le périmètre informationnel du records management (gouvernance des documents engageants, archivage managérial). Car il est manifeste que les personnes chargées dans l’entreprise de la protection des données au titre du RGPD et celles qui sont chargées de l’archivage (i.e. la mise en sécurité dans la durée) s’intéressent sur le terrain aux mêmes « machins », quel que soit le nom qu’on leur donne. La question, posée en 2017 lors d’une table ronde organisée par le CR2PA (Club de l’archivage managérial) chez L’Oréal laissait voir diverses interprétations de ce recouvrement. Le débat, toujours actuel, est sans doute faussé par la séparation des disciplines universitaires et des fonctions en entreprise, bien que dans un nombre de cas non négligeable, les responsabilités de DPO et de responsable de l’archivage soient exercées par les mêmes personnes.

Le document, coincé entre archives et données

En 2015, l’historien Bertrand Müller écrivait ceci (dans un texte non publié mais que l’auteur m’avait transmis): « Ces deux notions [les données et l’archive] paraissent avoir désormais un destin lié bien que ce lien soit à la fois paradoxal et récent. Paradoxal, parce que ces deux notions ont envahi l’espace sémantique du web ; elles sont l’une et l’autre omniprésentes. En même temps, ces deux notions désignent aussi des choses ou des phénomènes différents entièrement redéfinies par les pratiques numériques ».

Le document est sorti du débat…

Si le document disparaît, qu’archivera-t-on demain?

Des données?

Traditionnellement les archives sont définies comme des « documents » produits dans l’exercice d’une activité présentant un intérêt de conservation (cette formulation est un résumé de l’article 1 de la loi sur les archives de 1979). Lors de la révision de la loi sur les archives en 2008 (intégrée dans le code du patrimoine créé lui-même en 2004), on reste sur l’équivalence « archives=documents » avec une acception large de la notion de document (tous supports, toutes formes…), le cercle étant réduit par la qualité et la finalité des documents qui en font des « documents d’archives ».

Les données n’apparaissent dans définition légale des archives qu’en 2016 (il y a cinq ans, deux ans avant le RGPD) avec l’article 59 de la loi n°2016-925 du 7 juillet 2016 qui remplace « Les archives sont l’ensemble des documents, quels que soient leur date… » par « Les archives sont l’ensemble des documents, y compris les données, quels que soient leur date… ». On voit que le sujet est expédié par une brève incise qui laisse perplexe. Faut-il entendre que les données sont un sous-ensemble des documents ? Ou bien que les documents comprennent forcément données et on le mentionne juste en passant pour ceux qui en doutent? Ou encore que les documents d’archives sont composés pour certains de données, d’autres pas? Dans ce cas, les données qui ne sont pas incluses dans un document ne seraient pas des archives, ne seraient pas archivées? On aimerait en savoir plus et la question mérite d’être développée dans un environnement où la grande majorité de l’information susceptible d’être archivée est produite avec des technologies numériques.

Attendons.

Les archivistes, par ailleurs, s’intéressent à la donnée dans la réflexion, menée avec les chercheurs, sur l’exploitation des archives à l’aide des technologies. Les historiens, comme les archivistes du reste, travaillent depuis longtemps en utilisant des bases de données, alimentées par l’analyse et l’étude des documents d’archives. Ce fut le sujet de la journée d’études organisée en juin 2019 par le groupe régional Aquitaine de l’Association des archivistes français, en partenariat avec l’axe E3D du MICA Université Bordeaux-Montaigne. Le titre du colloque: « Le document, parent pauvre de la donnée. À la recherche du fonds d’archives perdu » est particulièrement alléchant avec son tryptique document-donnée-archives. L’approche est nouvelle, exploratrice, et on peut comprendre qu’elle commence par s’intéresser aux fonds d’archives existants, déjà collectés, constitués sur des supports analogiques, avant l’entrée dans le monde du tout numérique. L’expérience, et pour cause, porte davantage sur la numérisation d’archives papier (démarche postérieure à la production d’archives) que sur la fabrication de « documents » nativement numériques. Cependant il est intéressant de voir l’articulation entre les documents d’archives et les données qu’on peut en extraire, avec la projection possible du processus en sens inverse, des données vers les documents.

La brochure rédigée en 2017 par Gilbert Coutaz, avec la collaboration de Gilles Jeanmonod, et intitulée « La place de la donnée personnelle dans les archives historiques, essai d’interprétation à travers les archives de santé aux Archives cantonales vaudoises » (40 pages), propose une réflexion au carrefour de l’archivistique et du droit, plus précisément au carrefour de l’archivistique et de la réglementation sur la protection des données personnelles. Au moment où le texte a été rédigé, les archivistes européens ont fait entendre leur voix face au projet de réglementation européenne (le futur RGPD) et face à certaines interprétations radicales du droit à l’oubli conduisant à la destruction irrémédiable d’archives ou à la non-conservation d’archives qui sont pourtant, dans leur dimension de trace des vies individuelles, des sources irremplaçables de l’histoire collective. L’étude aborde « la place de la donnée nominative dans les processus d’archivage et l’ensemble du cycle de vie des documents partant de son élaboration à son sort final, soit élimination, soit versement aux Archives à des fins patrimoniales et de recherche historique ». Citant le rapport d’un groupe d’historiens sur l’histoire et les archives médicales publié en 2002, les auteurs rappellent que l’évaluation des documents contenant des données personnelles présuppose que l’on propose ces documents à l’archivage avant de pouvoir évaluer la pertinence de leur conservation. Reste à voir comment a évoluée la production de l’information médicale depuis deux décennies, entre les fichiers numériques qui s’affichent comme les héritiers des documents papier de naguère et les bases de données de santé alimentées par des flux permanents, partagées, connectées, « travaillées »… En attendant, le comptage dans ce texte des occurrences des trois mots en cause donne: donnée(s): 185; archives: 251; document(s): 50.

Partie 1 (Le règne de la donnée) – Partie 3

4 commentaires

  1. Il y a aussi le problème de l’exactitude et de la complétude des données…. En histoire, de plus en plus de recherches se baseront uniquement sur des bases de données et non sur les originaux papier. Or, rares sont les bases de données où chaque saisie a été contrôlée strictement. Pour prendre l’exemple des registres de cimetières, j’ai constaté ce jour un cas concret dans une commune (une autre). Questionné sur l’emplacement d’une sépulture de 1956, le service funéraire s’est contenté d’interroger sa base de données. La personne n’y figurait pas (en réalité, elle est pourtant enterrée dans ce cimetière, dans la tombe de sa famille où figure son nom sur une plaque). Et il y avait dans cette base une erreur de frappe sur un autre nom…. Quand j’ai demandé s’il existait des originaux de 1956 (date de l’enterrement), il m’a été répondu que « ce sont des archives qui remontent très haut » et qu’il n’est pas envisageable qu’elles existent encore. Il s’agit pourtant de 1956 ! Ce n’est pas la préhistoire. Heureusement que je ne demandais pas le 17e siècle… Il est vrai qu’on ne peut pas incriminer l’informatisation seule : sur les archives papier, il peut aussi exister nombre d’erreurs factuelles de détail (voir chez les notaires par exemple)

    • Vous soulevez un autre débat, mais très proche, et qui montre que la diplomatique est transverse aux supports car qu’est-ce que la diplomatique si ce n’est l’étude de la véracité au travers de l’exactitude et de la complétude des objets d’information et de leurs composantes. Sur le sujet, je vous invite à lire, si vous ne l’avez déjà fait, le roman de Javier Cercas Le Monarque des ombres, notamment pour ce passage d’archives inexactes sur la mort d’un jeune soldat.

  2. Bonjour Marie-Anne, je me demande si ce monde numérique n’exclut pas une partie grandissante de la population, qui maîtrisait bien le document papier. D’une expérience récente d’archiviste municipale, je retire une impression : dans une ville de 32.000 habitants, où le compte officiel facebook de la mairie est le seul et unique lieu d’information quotidienne (le site internet n’étant pas opérationnel), seuls 5000 personnes y sont abonnées. Quant à la médiathèque, seules 1500 personnes y sont abonnées…. Cela fait tout de même très peu….

    • Merci beaucoup, Isabelle, pour ce commentaire très concret. Je ne pense pas que le monde numérique soit plus exclusif qu’un autre; le numérique est là et les populations s’adaptent avec parfois une petite marge de manœuvre. Le numérique permet des tas de choses que le papier ne permettait pas. Je crois que les comparaisons les plus productives sont entre le plus et le moins au sein d’un univers (papier ou numérique) qu’entre les deux univers car on ne peut pas vraiment choisir.
      En revanche, je suis sidérée par ce que vous dites de votre commune; je dénonce régulièrement cette inféodation des petites communes aux GAFAs en n’ayant comme support d’information des administrés qu’une page Facebook, mais que ce soit aussi le cas de communes de plus de 30000 habitants, cela me navre; il y a de quoi saisir le nouveau président de l’AMF! Cela dit, Facebook est un vieux réseau (ringard disent certains) et il vaudrait faire l’analyse auprès des autres réseaux; je reste persuadée que l’information circule; la question est juste de savoir où, pour étudier de plus près la désinformation. J’aimerais savoir si cette question des espaces d’information des collectivités publiques a été étudiée par des chercheurs.

Commentaires fermés