Ces deux expressions – données structurées et données non structurées – sont aujourd’hui  répandues et acceptées. C’est la première et principale façon de caractériser les données dans la société de l’information, dans les entreprises et leurs directions des systèmes d’information (DSI) mais aussi, de plus en plus, pour les responsables métiers, pour les juristes et pour les professionnels de l’information.

On parle aussi d' »informations structurées » versus « informations non structurées » mais il semble que cette appellation perde du terrain face aux données, sans doute parce que le mot information porte davantage sur le sens et que le mot donnée porte davantage sur la forme; peut-être aussi parce que le mot information en anglais ne prend pas le pluriel).

Même les métadonnées (les données sur les données) sont réparties entre métadonnées structurées et métadonnées non structurées (cf la norme d’archivage électronique MoReq).

Le sens est clair:

Données structurées: informations (mots, signes, chiffres…) contrôlées par des référentiels et présentées dans des cases (les champs d’une base de données) qui permettent leur interprétation et leur traitement par des machines.

Données non structurées: le reste, tout ce qui n’est pas organisé en base de données, c’est-à-dire la bureautique, la messagerie, les images, les vidéos, etc.

Vérification faite cependant, il n’y a pas tant de définitions que cela dans les glossaires informatiques, juridiques ou d’archivage. A noter aussi que certains sites définissent les données structurées, d’autres les données non structurées et quelques-uns les deux. Voir le petit recueil de définitions en ligne en fin d’article.

Je voudrais faire sur ces expressions trois remarques:

La première est que parler de données structurées ou non structurées est d’abord un point de vue d’informaticien spécialiste de la gestion de valeurs (noms, nombres, couleurs, etc.) réparties dans des tables (le mot valeurs est ici au pluriel). On nomme ce que l’on connaît, ce que l’on contrôle. Et le reste, eh bien, c’est « non » ceci ou cela.

L’identification d’un objet par la négative, par ce qu’il n’est pas, par une non-qualité, est réducteur et ne constitue pas un critère de gestion très efficace. Enfin, dans le monde des sciences dures, on peut comprendre la distinction entre métaux ferreux et les métaux non ferreux. Mais dans le monde de l’information, c’est très insuffisant. A titre de comparaison, je prends les toiles à la place des données: c’est comme si on parlait des toiles cirées et des toiles non cirées: c’est très bien pour les quincaillers et les marchands de déco mais c’est très flou pour la gestion des autres toiles (émeri, de tente, de Jouy, d’araignée…). Idem pour les bandes dessinées et les bandes non dessinées: c’est clair pour les libraires mais ce n’est pas opérant pour les bandes Velpeau, les bandes annonces, les  bandes passantes, les bandes organisées et j’en passe).

Ceci pour dire que la famille éclatée des « données non structurées » recouvre des quantités de réalités qu’on ne saurait réduire à une anti-définition. Bon, c’est vrai que l’on a inventé les données semi-structurées mais cette précision se cantonne toujours au format technique de l’information et n’atteint pas le niveau de la gouvernance.

Il est temps de gouverner l’ensemble des données avec des définitions positives pour mettre en relief la valeur de l’information (poids, portée, risque, richesse… – le mot valeur est là au singulier) et non son seul format.

Du reste, le RGPD ne s’y est pas trompé et on ne trouve pas ces appellations de structuré / non structuré dans le Règlement européen, si ce n’est une allusion dans la définition de fichier:  » tout ensemble structuré de données à caractère personnel accessibles selon des critères déterminés, que cet ensemble soit centralisé, décentralisé ou réparti de manière fonctionnelle ou géographique » (article 4). Toutefois, ici, c’est l’ensemble qui est structuré et non les données; pour ma part, je comprends que cet ensemble structuré peut être constitué de données structurées, de données non structurées ou d’un mélange des deux. On est donc plutôt dans la pertinence, le sens, la valeur de responsabilité et d’usage de l’information, que dans le format de données.

***

La deuxième remarque est que cette existence encombrante de données non structurées commence à préoccuper sérieusement un nombre croissant d’acteurs, alertés en quelque sorte par le RGPD, comme en témoignent, parmi d’autres, les deux articles suivants:

GDPR, quelle méthodologie adopter pour la gestion des données non structurées ? Raphael Feddawi / Responsable Architecte – Avant vente, avril 2018. Extrait: « Les entreprises disposent de deux types de données, les données structurées (stockées dans des bases de données) et les données non structurées (Filer, NAS, messagerie…). Les données non structurées sont celles qui ont toujours posé le plus de problèmes dans leur gestion.« 

Données non structurées : pourquoi sont-elles plus difficiles à sécuriser ?, juillet 2018 par Vincent Dely, Solutions Architect chez Digital Guardian Extrait: « De nombreuses initiatives de protection des données se focalisent sur la sécurisation des données structurées sans protéger suffisamment des données tout aussi sensibles mais plus difficiles à sécuriser : les données non structurées. »

Le défi des données non structurées est qu’elles sont partout, créées par tout un chacun, échappant aux règles du management comme aux logiques des outils, à la manière d’un liquide qui se répand dans tous les interstices à sa portée.

Est-ce fatal?

Non.

Le point d’attention ici est que le problème ne relève pas de la nature « non structurée » de l’information mais de la négligence, de l’indiscipline ou simplement de l’insouciance des auteurs de ces informations: expéditeurs et réexpéditeurs de mails (dont quelques-uns sont effectivement du courrier), rédacteurs de notes (dont quelques-unes sont pertinentes), amateurs compulsifs d’appareils de prise de vues (dont quelques-unes sont effectivement des photographies), producteurs de foutoirs qui sont des foutoirs avant d’être des données non structurées!

***

La troisième réflexion porte sur ce qui est en train de se passer pour une meilleure maîtrise des données. Les professionnels de l’information font des efforts pour indexer les écrits et les images, avec l’intelligence humaine, avec parfois le renfort du public (cf le crowdsourcing / l’indexation participative). https://labo.societenumerique.gouv.fr/2018/09/03/indexation-collaborative-insitutitions-culturelles-appel-public-annoter-oeuvres-documents-archives/

Mais ces efforts, éminemment louables, restent ténus face à la puissance des princes de la technologie qui s’attaquent à la question avec l’intelligence artificielle.

L’enjeu, pour les maîtres du monde technologico-commercial qui est le nôtre, est de transformer les données non structurées en données structurées, pour qu’elles puissent être exploitées et rentables (sans parler des autres enjeux de contrôle des fuites de données et de destruction des données périmées).

Un bon exemple est la démarche de Google qui crée des données structurées en analysant les vidéos. Philippe Nieuwbourg expliquait en mars 2017: Le Big Data c’est bien évidemment des données non structurées : des images, des sons, et des vidéos. Mais l’extraction de connaissances à partir des vidéos est un domaine encore exploratoire. Google semble avoir beaucoup progressé et vient d’annoncer Google Cloud Video Intelligence, une solution en Beta qui permet d’analyser des vidéos et d’en extraire de l’information structurée.

Ce n’est qu’un début et je suis, comme beaucoup, plus curieuse qu’inquiète de connaître la suite.

Cependant, le résultat d’une intervention de l’intelligence artificielle sur des « données non structurées » dépend, d’une part, de la façon dont on alimente l’algorithme au départ, d’autre part, de la façon dont sont produits les écrits et les images analysés. Or, la qualité du texte initial est une notion subjective: on peut trouver des textes d’apparence très carrée mais dénué d’intérêt voire de sens, tandis que d’autres documents portent des idées fortes mais dans une langue élaborée et pleine de subtilités. Et les images, plus encore que les textes, peuvent être « lues » différemment selon la préoccupation du lecteur ou son degré d’expertise.

On peut comparer ce sujet avec celui de la traduction automatique: la qualité de la traduction tient aux dictionnaires sur le sujet et à la qualité du texte initial. La qualité des traductions automatiques a beaucoup progressé ces dernières années mais je ne crois pas qu’elle dépasse jamais la qualité humaine d’une traduction humaine (sauf si les humains deviennent des robots). C’est que la littérature, même professionnelle, n’est pas comparable au jeu d’échecs qui n’a plus de mystère pour Deep blue). Si vous n’êtes pas convaincu, lisez le magnifique « Trois essais sur la traduction » de Jean François Billeter (Allia) – voir la présentation sur France Culture.

Il en va de même pour la « traduction » de données non structurées en données structurées.

Le risque est que l’humanité abandonne complètement le regard humain sur un texte ou une image pour se contenter de l’interprétation machine qui, toute puissante qu’elle soit, sera différente de l’interprétation humaine. Or, ne dit-on pas qu’un progrès technologique est fait pour ouvrir de nouvelles possibilités et non pour remplacer ce qui existe (le web n’a pas remplacé la télé qui n’a pas remplacé le cinéma qui n’a pas remplacé la lecture). C’est pourquoi, il est souhaitable qu’il subsiste une lecture et une interprétation non technologiques des productions informationnelles des humains. Il n’est pas question de refuser l’IA ou de prétendre qu’elle ne modifie pas nos modes de pensées; il est question de préserver la nature humaine à côté de la « nature technologique », par souci de diversité, par respect de la culture et, disons-le, pour le fun. Car il est très enrichissant, à titre individuel, de faire l’effort d’organisation de la pensée, d’analyse personnelle de ce que l’on voit ou de ce qu’on lit et que l’on peut comparer à d’autres analyses, de « structuration » collective des connaissances à partir des usages, en lien tant avec les résultats de l’IA qu’avec ce que l’Histoire nous a transmis.

Tant qu’à avoir des maîtres, je préfère sans aucune hésitation les philosophes – de tous temps et de tous pays (je parle des vrais « amoureux de la sagesse »…) – aux GAFA et autres BATX.

Il y a donc une réflexion « humaine » à promouvoir pour construire des modèles de connaissances, dans le but à la fois de nourrir les algorithmes et de créer un vertueux contrepoids à l’intelligence artificielle, histoire de ne pas perdre ses racines et la mémoire de pensée des générations qui nous ont précédés. Personnellement, je n’aime pas mettre tous mes œufs dans le même panier, ni penser que l’œuf ne vient pas de la poule…

C’est l’idée qui soutient la méthode Arcateg™: une grille de lecture des données de l’entreprise ( structurées ou non), basée sur mon expertise diplomatique (plusieurs siècles de critique du document) et sur mon expérience humaine de l’entreprise de plus de trente ans, mais enrichi par les capacités de l’IA, au travers du logiciel C3 et de la solution Mosaïk.

CQFD.

Quelques définitions et citations

Donnée

Mot, nombre, signal, chaîne de caractères, séquence de bits, morceau de matière ou tout autre élément brut enregistré dans un système d’information où il pourra être corrélé à d’autres objets et interprété pour constituer une information.

On distingue les données structurées qui correspondent aux éléments calibrés saisis dans les différents champs des bases de données, et les données non structurées qui englobent toutes les autres informations enregistrées sous forme numérique ; ce sont principalement les fichiers bureautiques et la messagerie. On parle aussi de données semi-structurées quand une partie du fichier est codifiée selon certaines règles d’écriture ou de présentation : formulaire, feuille de style, organisation structurée d’éléments textes non structurés dans des pages web, etc.

Nouveau glossaire de l’archivage

Données structurées

Les données structurées sont des informations encadrées par des balises spécifiques dans les sources de vos pages et qui permettront aux moteurs de recherche (principalement Google) d’interpréter ces données d’une certaine manière. Ces données sont ensuite affichées dans les résultats de recherche afin de les enrichir.

Wifeo

Que sont les données structurées ?

Pour faire simple, les données structurées sont le langage grâce auquel un humain peut communiquer avec les robots des moteurs de recherche. C’est par leur utilisation que Google peut mieux déchiffrer et comprendre le sens du contenu de votre site web. Les principaux moteurs de recherche, Google, Bing et Yahoo, se sont concertés et entendus pour ne gérer qu’un seul format de données structurées afin de simplifier leur utilisation. Ce format standard s’appelle schema.org. Il indique le type de données que le moteur de recherche doit interpréter.

Webmarketing

Données non structurées

Les données non structurées sont une désignation générique qui décrit toute donnée extérieure à un type de structure. Les données non structurées textuelles sont générées par les courriels, les présentations PowerPoint, les documents Word, ou encore les logiciels de collaboration ou de messagerie instantanée. Les données non structurées non textuelles, quant à elles, sont générées via des supports tels que les images JPEG, les fichiers audio MP3, ou encore les fichiers vidéo Flash.

Le MagIT

Données non structurées
Le désordre numérique tient plus particulièrement à ce qu’on appelle les données non structurées, c’est-à-dire tout ce qui n’est pas organisé et calibré dans des systèmes applicatifs ou des bases de données qui formatent l’information à l’entrée et la traitent ou l’exploitent avec de manière automatique et programmée. On peut capturer des données dans des documents ou objets non structurés pour en faire des bases de données structurées exploitables, dans un but scientifique, administratif, ou commercial. C’est ce qu’on appelle le big data.

Les mots du MOOC « Bien archiver: la réponse au désordre numérique »

Données semi-structurées

Les données semi-structurées sont des données qui n’ont pas été organisées en référentiel spécialisé, comme c’est le cas dans une base de données, mais qui comportent néanmoins des informations associées, des métadonnées par exemple, qui les rendent plus faciles à traiter que des données brutes.

Whatis