de fr it

Données

Les données naissent de l’interaction, enregistrée et calculée, entre l’instrument de mesure et l’observation. L'objectif est de créer une information codifiée (soit une référence stable) à partir de la réalité (naturelle, technique ou sociale). Les données sont collectées et traitées selon des règles basées sur l’observation, définies par les institutions qui les possèdent. Grâce à leur objectivité et leurs références stables dans le temps et l’espace, elles permettent une interprétation fiable de toutes sortes de relations, renforcent leur autorité et augmentent le pouvoir interprétatif de ceux qui les détiennent. Aujourd’hui, le terme de données recouvre les entités informationnelles produites et gérées par des ordinateurs, des serveurs ou des réseaux. Stockées, transformées ou transmises, elles prennent la forme de textes ou d’images et peuvent être triées, combinées et manipulées. On peut retracer leur histoire en observant l’évolution de leur production et de leur utilisation.

Les débuts de la collecte des données scientifiques (jusque vers 1900)

Enquête sur le logement de la commune d’Aussersihl. Feuille de données de l’immeuble sis à la Zweierstrasse 38, 1892 (Stadtarchiv Zürich, Gemeinde Aussersihl Wohnungsenquete 1892, Kreis 1-14, VI.AS.D.22).
Enquête sur le logement de la commune d’Aussersihl. Feuille de données de l’immeuble sis à la Zweierstrasse 38, 1892 (Stadtarchiv Zürich, Gemeinde Aussersihl Wohnungsenquete 1892, Kreis 1-14, VI.AS.D.22). […]
Immeuble locatif sis à la Zweierstrasse 38, à Aussersihl. Photographie, vers 1920 (Baugeschichtliches Archiv der Stadt Zürich, DMP 068772.tif).
Immeuble locatif sis à la Zweierstrasse 38, à Aussersihl. Photographie, vers 1920 (Baugeschichtliches Archiv der Stadt Zürich, DMP 068772.tif). […]

Pendant longtemps, le concept de données fut étonnamment peu utilisé dans les domaines techniques et des sciences exactes, politiques et économiques. Durant une grande partie du XIXe siècle, on employait davantage les termes ayant un sens objectif ou décrivant un processus. Ainsi, les astronomes parlaient d’"observations" et de "calculs", les ingénieurs de "propriétés" des matériaux (coefficient de dilatation, poids spécifique des métaux, etc.) et les statisticiens de "naissances" ou de "produits" lorsqu’ils analysaient les conditions démographiques ou économiques d'un Etat; lors de projets nationaux de cartographie, on notait également directement "calcul", "indication", "mesure", "angle", "réduction", "azimut" ou "résultat" dans les rapports d’observation. La notion de "données" était réservée aux valeurs numériques, élaborées au terme de plusieurs examens, bénéficiant ainsi d’une légitimation scientifique particulière. Les données n’étaient par conséquent jamais des "données brutes", mais étaient toujours recueillies de manière empirique, puis organisées, avant d’être exploitées. Dès la seconde moitié du XIXe siècle, on peut les considérer comme le produit d’une chaîne plus ou moins longue de transmission: qu’elles reflètent des réalités des sciences naturelles ou des préoccupations étatiques, elles étaient consignées par écrit, selon des formats standardisés de plus en plus exigeants, et conservées dans diverses institutions, des archives ou des bureaux (statistique, cartographie). Par son organisation et ses modes de transmission, cette manière de collecter les données effaçait progressivement, à chaque étape, le lien avec l’objet étudié ou mesuré. Les valeurs ou les données issues de ce processus perdaient ainsi la référence directe au phénomène observé et bénéficiaient d’une grande autorité (scientifique). L’instance observatrice, avec son pouvoir technique, organisationnel et administratif, prenait le pas sur l’observation directe.

Les données des administrations et des entreprises dans la société de masse (1900-1960)

Perforatrice Hollerith d’IBM. Photographie, 1945 (Musée de la communication, Berne, FB 000112).
Perforatrice Hollerith d’IBM. Photographie, 1945 (Musée de la communication, Berne, FB 000112). […]

Au début du XXe siècle, les données revêtirent une fonction prépondérante aussi hors du domaine scientifique. "Données" devint aussi un terme utilisé en administration publique et privée, en raison des progrès de la bureaucratie d’Etat et du management d’entreprise. Les sociétés possédant un nombre très élevé de clients (banques, assurances), les entreprises avec des volumes de transactions importants et constants (fiches de paie) et les offices en charge du recensement sur le territoire national jouèrent un rôle pionnier dans cette évolution. Les données des ménages, des employés ou des clients furent d’abord inscrites sur des formulaires, puis sur fiches, avant d’être enregistrées sur des cartes perforées avec l’arrivée des machines Hollerith au tournant du XXe siècle. Pour représenter ces différentes réalités, on utilisait un nombre limité de descripteurs, ce qui garantissait un rapport satisfaisant entre la qualité des données collectées et le travail formalisé nécessaire à leur gestion. Le travail effectué sur les données les rendait utilisables (fiches comptables, tableaux, cartes perforées des administrations) et accroissaient le pouvoir de ceux qui les détenaient. Ce progrès fut possible principalement grâce à l'amélioration des performances de tri que permettaient les machines Hollerith. Cette supériorité technique de l'organisation bureaucratique (Max Weber) autorisait un traitement rapide, précis et sans ambiguïté des tâches de gestion. Cependant, la force de la production et de l’utilisation des données par la bureaucratie résidait plutôt dans leur forme standardisée et la possibilité d’y recourir à volonté.

Ordinateurs centraux programmables et formats standardisés (1950-1970)

Dans l’entrepôt de l’entreprise Landis & Gyr, à Zoug, un collaborateur prépare un envoi à partir de données sauvegardées sur des cartes perforées, puis expédie par convoyeur aérien les pièces commandées. Photographie, 1957 (ETH Zürich, Archiv für Zeitgeschichte, IB LG-Audiovisuals / FA.10214).
Dans l’entrepôt de l’entreprise Landis & Gyr, à Zoug, un collaborateur prépare un envoi à partir de données sauvegardées sur des cartes perforées, puis expédie par convoyeur aérien les pièces commandées. Photographie, 1957 (ETH Zürich, Archiv für Zeitgeschichte, IB LG-Audiovisuals / FA.10214). […]

Le développement d'ordinateurs commercialisables au milieu du XXe siècle changea en quelques années la manière de traiter les données: on passa du comptage au tri, puis à la programmation et enfin au formatage. Dans de nombreux domaines, d’énormes quantités de données structurées ou non, issues de relevés (température, pression, mouvement), de formulaires (ventes, réservations, commandes, livraisons, production) ou de tâches de gestion (paiements, contrats, enquêtes, primes, salaires) furent stockées sur divers supports, théoriquement disponibles pour une analyse rapide par ordinateur. Le problème pratique que posait le traitement de cette masse, avant sa saisie dans l’ordinateur, résidait dans la création d’un format suffisamment fiable et homogène pour permettre l’analyse des données initiales. Cette contrainte informatique déplaça les problèmes de traitement en amont, lors de l’acquisition des données, qui se faisait aussi à l’aide de machines. Elle imposait une transformation des données issues des capteurs analogiques, des formulaires et des tâches de gestion pour que l’ordinateur puisse les analyser et les trier. Dans les années 1960, les utilisateurs d'ordinateurs et les fabricants commencèrent à réfléchir à la manière de préparer les données à la machine en vue de leur traitement ultérieur par la machine, ce qui donna naissance à la notion de données brutes. On développa alors un système pour les gérer en prévoyant un stockage externe. Cette évolution obligea les centres de données à posséder des capacités suffisantes pour les enregistrer. Cartes perforées, bandes magnétiques, mémoires à tambour et disques durs conservaient des données en attente de traitement; des systèmes de gestion de bases de données assuraient leur administration.

Bases de données relationnelles et Big Data (depuis 1970)

Lorsque les données étaient déjà disponibles dans un format lisible par ordinateur, elles pouvaient être utilisées sans effort supplémentaire de formatage. Toutefois, leur emploi était compliqué par le fait qu’elles étaient liées à des adresses mémoire physiques, nécessitant une programmation dans une nouvelle base de données à chaque nouvelle utilisation. Ce travail ne pouvait pas être effectué par des profanes des technologies de l'information qui dépendaient par conséquent des programmeurs pour analyser leurs données (Charles W. Bachman, "The Programmer as Navigator"). Dans les années 1970, on mit au point les bases de données relationnelles qui permirent de s’affranchir complétement de la référence à l’objet et de recombiner les données (Edgar F. Codd). Celles-ci mobilisèrent beaucoup de ressources, exigeant des modèles théoriques compliqués, même dans les détails, et nécessitèrent le développement d’un langage de requête facile à comprendre (Structured Query Language, SQL). Grâce à l’organisation des données dans des tableaux, permettant des combinaisons choisies avec un effort minimal de représentation, les données acquirent une mobilité inattendue (data independence). Elles ne furent plus liées à un modèle de représentation programmé de manière fixe et leur utilisation ne dépendit plus des adresses mémoire physiques. S’étant en outre émancipée de la référence stricte aux objets du monde réel, elles purent entrer en relation avec d’autres données. Les systèmes de gestion de bases de données relationnelles permirent des combinaisons théoriquement infinies et une plus grande liberté pour l’utilisateur non professionnel (user independence). Le potentiel qu’offrit l'utilisation de ces combinaisons donna lieu, à la fin des années 1970, à un vif débat sur l’Etat policier et conduisit à l’adoption de lois sur la protection des données, garantissant aux citoyens le droit à l’autodétermination en matière d'information et restreignant la libre circulation des données.

"Bonjour, petit hacker! Change tout de suite ton programme, je suis le casse-pieds de la protection des données". Caricature d’Eckhard Lange parue dans le Nebelspalter, 1985, no 36, p. 22 (ETH-Bibliothek Zürich, e-periodica).
"Bonjour, petit hacker! Change tout de suite ton programme, je suis le casse-pieds de la protection des données". Caricature d’Eckhard Lange parue dans le Nebelspalter, 1985, no 36, p. 22 (ETH-Bibliothek Zürich, e-periodica). […]

A la fin du XXe siècle, la mobilité des données s’accrut encore considérablement. D'une part, elles purent se combiner, sous forme de données alphanumériques, avec des URL (Uniform Resource Locators) pour former un hypertexte. En même temps, elles furent indexées par des robots (web crawler), ce qui permit à l’utilisateur dépourvu de connaissance technique d’exécuter des requêtes simples sur l'ensemble des données du World Wide Web (Internet). Au début du XXIe siècle apparut une industrie hautement spécialisée dans l’exploration des données (data mining) qui chercha à trouver, grâce aux ordinateurs et aux réseaux, des modèles (pattern) perceptibles dans des données très hétérogènes, ce qui les sortit complétement de leur contexte. D'autre part, le rôle épistémologique et économique de la masse croissante de données évolua parce que celles-ci permettent aux algorithmes autoadaptatifs de se transformer. Qualifiées dans le discours de la politique économique de "matière première de l'avenir", les données déterminent les méthodes de travail des instruments avec lesquels elles sont traitées ou analysées. Autrefois, les données étaient considérées comme des relations et des références stables à des objets en dehors de la réalité numérique. Par la suite, ce sont les multiples références créées par les algorithmes de manière largement autonome qui façonnent la représentation des données (l’explosion quantitative de ces données et leur exploitation est appelée Big Data). Les ordinateurs, les réseaux et les programmes les traitent en fonction de l'ensemble des données qu'ils génèrent afin d'en obtenir de nouvelles (aussi à propos des modèles de traitement). Le discours sur le "Big Data" a remplacé celui sur "Big Brother" en raison du volume massif de données générées (et autogénérées), ce qui conduit à une nouvelle image que la société se fait d’elle-même et à de nouvelles formes d’interactions sociales induites par les données (data driven, société numérique).

 

Sources et bibliographie

  • Codd, Edgar F.: "A Relational Model of Data for Large Shared Data Banks", in: Communications of the ACM, 13 (6), 1970, pp. 377-387.
  • De Chadarevian, Soraya: "Die 'Methode der Kurven0' in der Physiologie zwischen 1850 und 1900", in: Rheinberger, Hans-Jörg; Hagner, Michael (éd.): Die Experimentalisierung des Lebens. Experimentalsysteme in den biologischen Wissenschaften 1850/1950, 1993, pp. 28-49.
  • Lenoir, Timothy (éd.): Inscribing Science. Scientific Texts and the Materiality of Communication, 1998.
  • Gugerli, David; Speich, Daniel: Topografien der Nation. Politik, kartografische Ordnung und Landschaft im 19. Jahrhundert, 2002.
  • Hoffmann, Christoph: Unter Beobachtung. Naturforschung in der Zeit der Sinnesapparate, 2006.
  • Krajewski, Markus: "In Formation. Aufstieg und Fall der Tabelle als Paradigma der Datenverarbeitung", in: Nach Feierabend. Zürcher Jahrbuch für Wissensgeschichte, 3, 2007, pp. 37-56.
  • Yates, JoAnne: Structuring the Information Age. Life Insurance and Technology in the Twentieth Century, 2008.
  • Heide, Lars: Punched-Card Systems and the Early Information Explosion 1880-1945, 2009.
  • Daston, Lorraine; Galison, Peter: Objectivité, 2012 (anglais 2007).
  • Mayer-Schönberger, Victor; Cukier, Kenneth: Big data. La révolution des données est en marche, 2014 (anglais 2013).
  • Gugerli, David: Wie die Welt in den Computer kam. Zur Entstehung digitaler Wirklichkeit, 2018.