Panama papers : 4 remarques sur la forme - Le blog de Marie-Anne Chabin

Le fond de l’affaire fait couler beaucoup d’encre (je devrais plutôt écrire : fait glisser beaucoup de doigts et de pouces sur beaucoup de claviers). Le fond de l’histoire ne m’a pas surprise et, s’il ébranle le monde politico-financier, il ne change pas mon ordinaire. En revanche, la forme des « Panama papers » a retenu toute mon attention : les mots, le système de recherche, les volumes et le point de départ de l’opération.

Terminologie documentaire et archivistique

La première remarque concerne les mots utilisés, en anglais et en français, pour parler des informations en cause. J’ai d’abord analysé le texte de référence, c’est-à-dire le texte publié par l’ICIJ (International Consortium of Investigative Journalists) sur son site.

Je pense y avoir trouvé la réponse à une première question que je me posais : pourquoi Panama papers et pas Panama Leaks ou Panama Gate ? L’appellation a été choisie par l’ICIJ, peut-être parce que dans le monde des avocats, la notion de papiers est encore très présente.

L’article est assez long (près de 6000 mots). Il présente de manière factuelle les résultats des investigations. Les termes qui désignent les sources divulguées sont principalement document et record, utilisés respectivement 36 et 31 fois ; le mot file est aussi très présent (27 occurrences) : A massive leak of documents exposes… The cache of 11.5 million records shows… The files reveal… The leaked records come from… The files contain… The secret documents suggest…

Information et data sont moins fréquents (10 et 5 fois). Ils apparaissent notamment dans les phrases suivantes : “The information from this unremunerated whistleblower documents transactions as far back as the 1970s and eventually totaled 2.6 terabytes of data” et “The data includes emails, financial spreadsheets, passports and corporate records”, que les Echos, via le Süddeutsche Zeitung présentent ainsi:

Dans les médias francophones, on trouve différentes traductions : le mot qui, dans le corpus d’articles que j’ai constitué, apparaît le plus souvent est sans doute document mais on trouve aussi fichiers et archives : « Mes collègues et moi avons analysé des archives contenant 11,5 millions de documents internes provenant des fichiers de Mossack Fonseca » (rue89) ; « La fuite contient la quasi-totalité des archives et données informatiques d’une seule et même société » (le Matin) ; « des millions de documents confidentiels, baptisés « Panama Papers » » (lci.tf1) ; « 11 millions et demi de fichiers, les archives du cabinet, depuis 1977 jusqu’à 2015. Plus de 2,6 téraoctets de données » (rtl) ; « millions de documents et données provenant des archives de Mossack Fonseca » (le Monde) ; « près de 11,5 millions de documents, piratés dans les archives » (nouvelobs) ; « 11, 5 millions de documents des archives du cabinet panaméen Mossack Fonseca » (les Échos).

Conclusion, loin des recommandations artificielles et inopérantes de l’AFNOR, le mot records est volontiers traduit par archives et c’est très clair pour tout le monde. Cela méritait d’être souligné. Le mot document est l’entité documentaire de second niveau, comme fichier qui a une connotation plus technique.

À noter aussi que le mot dossier qui est courant en français dans les expressions « dossier d’affaire » ou « dossier client » et qui aurait même pu servir de nom français à l’affaire « Dossiers panaméens » ou « Dossier Panama » (plus court) n’apparaît quasiment pas (je n’ai relevé qu’une occurrence dans les Échos). File est donc systématiquement traduit par fichier (informatique), alors qu’il a aussi le sens de dossier en français. La raison en est que face aux deux sens de file en anglais, le sens informatique l’emporte sans appel.

Le plan de classement est mort. Vive le moteur de recherche !

Les articles de presse qui détaillent un peu la méthode d’investigation du consortium (le Monde ou la Dépêche) mettent en évidence les technologies qui ont rendu possible ces révélations (mécanisme de requête approximative, logiciel de traitement de données OpenRefine, l’outil de visualisation en graphes Linkurious…).

Comme je l’explique volontiers à mes clients et à mes étudiants, le plan de classement documentaire, l’indexation, les métadonnées saisies par l’utilisateur, c’est périmé ; c’est un truc du XXe siècle. La puissance des moteurs de recherche rend d’une certaine façon caduc l’exercice de classement intellectuel. La machine ordonne (numériquement, alphabétiquement ou selon tout autre critère qu’on lui indique) beaucoup plus vite et mieux que l’humain. Le bond quantitatif est énorme. La génération actuelle des moteurs de recherche sait créer à la volée, à partir de la demande de l’utilisateur, le plan de classement qui répond le mieux à ses besoins, et qui ne sera pas forcément le plan de classement d’un autre utilisateur.

Cependant, l’efficacité des outils d’exploitation de l’information et des algorithmes de recherche doit beaucoup à la « qualité » du fonds exploité. Par « qualité », j’entends ici deux notions majeures pour l’exploitation d’un fonds d’archives : la structure et l’exhaustivité.

Ce qui importe, en effet, dans une opération de traitement algorithmique de l’information de preuve, c’est que le fonds de données dans lequel on navigue soit structuré ou structurable au travers de quelques éléments basiques qui sont constitutifs de toute action tracée ou enregistrée : une date, un lieu, un ou plusieurs acteurs identifiés et un verbe qui dit la nature de l’action (acheter, regarder, payer, entrer, sortir, autoriser, refuser, informer…).

De ce point de vue, le fonds du cabinet Mossack-Fonseca est structuré, comme l’est le fonds de tout cabinet d’avocats, d’une manière simple, hiérarchique et rigoureuse avec, comme colonne vertébrale, la liste ou le registre des clients, d’où partent les dossiers clients composés, d’une part, des documents légaux (actes de société), d’autre part, chronologiquement, des séries d’opérations (ici les tableaux de flux financiers) et des courriers/courriels échangés.

Avec un ensemble de dossiers de provenances diverses ou non structurés sur des sujets dont la liste n’est pas connue, les requêtes serait plus difficiles ou, plutôt, les résultats de ces requêtes seraient plus difficiles à interpréter et à vérifier.

Sur le plan qualitatif, il me semblerait toutefois inapproprié de parler de bond ou de seuil franchi. Les méthodes manuelle et algorithmique ne sont pas comparables ; elles sont complémentaires. En effet, l’algorithme fait gagner beaucoup en brassage de données mais l’utilisateur perd quelque chose qui a été essentiel pendant des siècles, c’est le contexte, le contact physique, direct, avec la matière étudiée, la vue du tout au départ de la recherche, l’approche en zoom du chercheur ou de l’expert qui sait percevoir en quelques secondes, par des indices visuels et sensoriels, une foultitude d’informations sur la densité des archives, sur le mode de création des dossiers, sur la fiabilité de l’information exploitée, etc.. Sauf erreur ou manque d’expérience de ma part, avec les algorithmes, on perd cela et on ne sait pas encore vraiment le remplacer. C’est peut-être ce que disent les policiers en comparant les outils technologiques de la police scientifique et le mode d’enquête des « vieux » commissaires à l’affût des comportements humains…

Autre remarque concernant l’exhaustivité. Quand le nom d’un grand de ce monde ne sort pas de la moulinette mise en place par l’ICIJ, cela ne veut pas dire que cette personne ne possède pas de société offshore quelque part ou n’a pas fraudé le fisc. Cela signifie simplement qu’elle n’est pas ou n’était pas cliente de Mossack-Fonseca. Car si le lot de documents que représentent les Panama Papers est exhaustif en termes de noms de clients et d’actionnaires, le cabinet Mossack-Fonseca (malgré sa réussite et son assise mondiale) ne détient pas le monopole de la prestation de ce genre de service. Certains journaux n’ont pas tort de le faire remarquer. Il faut veiller à ne pas confondre exhaustivité d’un fonds d’archives et exhaustivité de la connaissance.

Des volumes qui donnent le vertige… à certains

Le troisième aspect de cette analyse de forme tient au volume d’information et aux indicateurs de mesure de ce volume.

Les journalistes en général (je ne parle pas des journalistes d’investigation) et la plupart des gens qui les lisent ont le tournis devant les chiffres avancés : 11,5 millions de fichiers (4,8 millions de mails, 3,1 millions de tableaux, 2,1 millions de PDF, etc.), soit 2,6 To de données, etc.

Les réflexions de certains organes de presse sont à cet égard très révélatrices : « Le journal allemand possède son lot d’experts du data-journalisme, mais à lui tout seul, il lui aurait fallu des dizaines d’années pour éplucher l’entièreté des données collectées. » (vanityfair) ; « … selon plusieurs médias ayant épluché les fichiers provenant des archives du cabinet d’avocats basé au Panama » (Nicematin). Quant aux Échos, on y trouve une bien curieuse équivalence… : « 2,6 tera octets, soit l’équivalent de 34.665 épisodes de séries télévisées! ».

Les professionnels de l’information, ceux dont le quotidien est le traitement des documents (fichiers, mails, données) produits ou reçus par une entreprise et qui l’engagent vis-à-vis de la loi ou vis-à-vis d’autrui, ne seront pas surpris, eux, par ces chiffres, Dieu merci ! Le volume de la fuite est impressionnant, celui des données, non.

Ce qui ressort, là, c’est que le numérique atomise la perception de l’information, que la dématérialisation centuple les unités d’information. Et la société n’a pas encore établi et enseigné les indicateurs appropriés à cette nouvelle appréciation de l’information dans l’environnement numérique.

Raisonnons. Avec 240000 sociétés gérées par le cabinet Mossack Fonseca, les 11,5 millions de documents donnent une moyenne de 48 documents par dossier ce qui n’a rien d’exorbitant, certains dossiers étant très minces quand d’autres atteignent plusieurs milliers de pièces comme le signale les Échos.

Petit calcul à partir de la donnée « 11,5 millions de fichiers ». Avec l’hypothèse, très réaliste, qu’un fichier correspond en moyenne à 3 ou 4 pages d’un document ou dossier papier, on aurait donc pour le cabinet Mossack-Fonseca un ensemble de 40 millions de pages. À raison de 800 pages par boîte d’archives de 10 cm de côté, on aboutit à 5 kilomètres linéaires de documents. Avec 500 collaborateurs du cabinet, cela revient à 2 armoires de dossiers par collaborateur depuis 1977 (il y a plus de documents pour la dernière décennie que pour les années 1980 mais cela ne change rien).

En répartissant le même volume de 5 kml de dossier par les 376 journalistes qui ont travaillé à l’affaire, cela fait (de manière assez théorique, je l’admets) 14 mètres linéaires par journaliste à exploiter, ce qui n’est pas démesuré (deux grandes armoires) ; la question est plus celle de l’organisation des résultats, de l’échange entre les membres de l’équipe de journalistes et des vérifications extérieures, comme dans tout travail d’enquête.

Sans outils de mesure entre l’objet documentaire et la connaissance potentielle qu’elle referme, on risque de retomber dans un imaginaire fantasmatique. Pour ma part, je croise tous les jours des entreprises qui ont accumulé 2 To de données, et bien davantage.

Ce qui doit impressionner n’est pas le volume des données mais leur mise en commun, leur partage dans un cadre immensément plus large que le cercle des destinataires initiaux, au moyen des technologies numériques. On parle trop des données et pas assez des réseaux.

Au commencement était la messagerie électronique

À force de chercher sur le net, j’ai fini par trouver l’information essentielle qui me manquait : le point de départ de la fuite est le piratage du serveur de messagerie de Mossack-Fonseca (voir nouvelobs) : les mails, bien sûr, externes et internes, avec les pièces jointes. J’aurais aimé plus de détail mais je n’en ai pas trouvé.

La messagerie électronique est symptomatique de la question de la gouvernance d’entreprise en matière d’information. Le risque est dans les échanges incontrôlés (contenus) ou mal sécurisés (routage, stockage). C’est ce que le CR2PA, Club de l’archivage managérial, s’efforce d’expliquer au travers de ses actions. Mais les dirigeants d’entreprise se comportent plus souvent comme des cigales que comme des fourmis. . Ils risquent de se trouver fort dépourvus quand la bise sera revenue.

***

Cet article entend démontrer que la gestion de l’information est une discipline à part entière :

qui nécessite une métrique claire (à reconstruire dans le monde numérique) ;
qui se doit de concilier les concepts diplomatiques, archivistiques et documentaires avec les technologies de l’information (réseaux, cloud, moteurs de recherche, etc.);
et qui se renierait en acceptant de mettre la machine avant l’humain.

Dans l’affaire des Panama Papers, il s’agit a priori de journalistes qui, au nom du bien commun, s’en prennent à des individus supposés délinquants mais les technologies et les méthodes d’analyse sont, seraient les mêmes pour des gens malhonnêtes qui voudraient nuire à d’honnêtes citoyens.

Soyons donc vigilants, car on vit une époque formidable !