Daten entstehen aus dem protokollierten und kalkulierten Zusammenspiel von Messinstrumenten und Beobachtungsverfahren. Dabei geht es um das Erzeugen stabiler Referenzen auf Verhältnisse, die als natürliche, technische oder gesellschaftliche Zustände vorgestellt werden. Daten werden aufgrund institutionell festgelegter Aufmerksamkeitsregeln gesammelt und prozessiert. Mit ihrem Objektivitätsversprechen und ihrer raumzeitlichen Referenzstabilität dienen sie der verlässlichen Interpretation von Relationen, stärken ihre eigene Autorität und erhöhen die Deutungsmacht ihrer Besitzer. Gegenwärtig versteht man unter Daten die von Computern, Servern und Netzwerken verwalteten und hergestellten informationellen Entitäten, die gespeichert, transformiert und übertragen werden und als Text oder Visualisierung "lesbar" gemacht, geordnet, kombiniert und manipuliert werden. Die Geschichte der Daten kann am Wandel ihrer Herstellungs- und Verwendungszusammenhänge beobachtet werden.
Frühe wissenschaftliche Datensammlungen (bis ca. 1900)
In den naturwissenschaftlichen, technischen und staatswissenschaftlichen Kontexten der Moderne verwendete man den Daten-Begriff erstaunlich selten. Bevorzugt wurden bis weit ins 19. Jahrhundert Begriffe, die eine prozedurale oder objektivierende Bedeutung mittransportierten: In der Astronomie zirkulierten "Beobachtungen" und "Berechnungen", Techniker tauschten "Eigenschaften" von Materialien aus (z.B. Dilatationskoeffizienten oder das spezifische Gewicht von Metallen), und Statistiker publizierten "Geburten" und "Erzeugnisse", wenn sie die demografischen oder ökonomischen Verhältnisse eines Staates festhielten. Was in nationalstaatlichen Vermessungsprojekten an Beobachtungen gesammelt wurde, bezeichnete man ebenfalls ganz direkt als Berechnung, Angabe, Messwert, Winkel, Reduktion, Azimut oder Resultat. Der Begriff Daten blieb für numerische Werte reserviert, die einen hohen Verdichtungsgrad aufwiesen, mehrfach verarbeitet worden waren und sich durch besondere wissenschaftliche Legitimation auszeichneten. Sie waren nie das Gegebene, sondern mussten immer empirisch erhoben und organisatorisch verwaltet worden sein, damit sie brauchbar waren. Seit der zweiten Hälfte des 19. Jahrhunderts liessen sich Daten als Produkt einer mehr oder weniger langen Kette von Übertragungen denken, entlang derer Natur- oder Staatsverhältnisse schrittweise und mit steigenden Formatanforderungen auf Papier und von da in jene zentralen Wissensspeicher übertragen wurden, die als Anstalt, Archiv oder als Bureau bezeichnet wurden (Statistik, Kartografie). In dem Mass, wie apparative und organisatorische Übertragungsketten den direkten Bezug zu einem einzelnen Gegenstand durch transformierende Zwischenschritte abbauten, verloren die entstehenden Werte oder Daten die direkte Referenz zum Beobachteten oder Gemessenen. Was am Ende einer Aufschreibeprozedur steht, sind Daten mit hoher (wissenschaftlicher) Autorität. Die objektbezogene Referenzleistung wird vom Beobachteten auf die beobachtende Instanz und ihre prozedural-apparative und organisatorisch-administrative Autorität verschoben.
Verwaltungs- und Geschäftsdaten in der Massengesellschaft (ca. 1900 bis ca. 1960)
Im frühen 20. Jahrhundert spielten Daten nicht mehr nur in wissenschaftlichen Kontexten eine prominente Rolle. Sie wurden aufgrund der apparativen Aufrüstung in staatlichen Bürokratien und Unternehmensverwaltungen auch zu einem administrativen Begriff. Dabei hatten Dienstleistungsbetriebe mit Massengeschäft (Banken, Versicherungen), Unternehmensverwaltungen mit grossen und uniformen Transaktionsvolumina (Lohnabrechnungen) sowie die Ämter der nationalstaatlichen Einwohnerstatistik (Volkszählungen) eine stilbildende Wirkung. Haushalte, Angestellte und Kunden wurden zunächst auf Formularen, dann auf Karteikarten und schliesslich, mit der Einführung von Hollerith-Maschinen um die Wende zum 20. Jahrhundert, auf Lochkarten erfasst. Soziale Verhältnisse, Transaktionen und administrative Routinen reduzierte man auf ein möglichst kleines Set von Deskriptoren, die ein gerade hinreichend ausdifferenziertes Referenzverhältnis zwischen Verwaltungsgegenstand und formalisiertem administrativem Verfahren sicherten. Die gebuchten, tabellierten und gestanzten Register der Verwaltungen sorgten gleichzeitig für eine mächtige Faktizität der festgehaltenen Daten und erhöhten die Verfügungsgewalt derjenigen, die sie benutzen konnten. Das lag vor allem an der mit Hollerith-Maschinen gesteigerten Sortier- und Selektionsleistung in administrativen Prozeduren. Dank der technischen Überlegenheit der bürokratischen Organisation (Max Weber) liess sich aber nicht nur eine schnelle, präzise und eindeutige Verarbeitung massenhaft anfallender Verwaltungsaufgaben erledigen (Bürokratisierung). Die Stärke der bürokratisch angewendeten Datenerzeugung und -nutzung lag vielmehr in der Gleichzeitigkeit von Referenzstabilisierung und Faktizität von Daten.
Programmierbare Grossrechner und ihre Formatanforderungen (1950-1970)
Die Entwicklung kommerziell nutzbarer Computer um die Mitte des 20. Jahrhunderts verlagerte den informationstechnischen Engpass innert weniger Jahre vom Rechnen übers Sortieren hin zum Programmieren und schliesslich zum Formatieren des Inputs. In zahlreichen Anwendungsfeldern wurden riesige Mengen strukturierter und unstrukturierter Aufzeichnungen von Sensoren (Temperatur, Druck, Bewegung), Berichten (Verkauf, Reservation, Bestellung, Lieferung, Produktion) und administrativen Abläufen (Zahlungen, Verträge, Umfragen, Prämien, Löhne) in unterschiedlichsten Medien abgespeichert und konnten theoretisch von schnell arbeitenden Rechnern ausgewertet werden. Das praktische Problem im Umgang mit dieser Datenflut vor der Eingabe in den Rechner war die Herstellung hinreichend verlässlicher Referenzfilter, um eine auswertbare Homogenität der Input-Daten sichern zu können. Die strengen Formatanforderungen, die Rechner an Daten hatten, verlagerten die operativen Problemzonen in vorgeschaltete, ebenfalls maschinell ausgerüstete Daten-Erfassungsabteilungen, die als aufwändige Transformationszonen zwischen analogen Sensoren, Formularen und Prozeduren einerseits und der programmierbaren Rechen- und Sortiermaschine "Computer" andererseits konzipiert wurden. Computeranwender und -hersteller begannen in den 1960er Jahren über eine Verarbeitung von Daten vor der Datenverarbeitung nachzudenken und sprachen dabei von Rohdaten, für die eine eigentliche Datenlogistik mit ausdifferenzierter Speicherarchitektur entwickelt werden musste. Rechenzentren hatten dafür zu sorgen, dass der Datenfluss über hinreichend grosse Stau- und Warteräume verfügte. Daten wurden deshalb gleichzeitig im Lochkartenformat gestapelt, auf Magnetbändern gespeichert, auf Trommelspeichern und Festplatten für die Weiterbearbeitung zur Verfügung gehalten und mit Datenbankmanagementsystemen verwaltet.
Relationalität, Rekombinierbarkeit und Reflexivität (ab ca. 1970)
Wo Daten bereits im maschinenlesbaren Format vorhanden waren, liessen sie sich ohne zusätzlichen Formatierungsaufwand wiederverwenden. Ihre direkte Rezyklierung wurde jedoch dadurch erschwert, dass Daten an physische Speicheradressen gekoppelt waren. Deshalb musste jede neue Verwendung vorhandener Daten in einer neuen Datenbank programmiert werden. Diese Programmierarbeit konnte von informationstechnischen Laien, die sich eine Auswertung ihrer Daten in anderen Kontexten wünschten, nicht durchgeführt werden. Sie waren also auf die Unterstützung durch den "Programmierer als Navigator" (Charles W. Bachman) angewiesen. In den 1970er Jahren wurde das Ziel einer radikalen Referenzabstraktion und Rekombinierbarkeit von Daten mit relationalen Datenbankmodellen (Edgar F. Codd) angesteuert. Diese erwiesen sich als sehr ressourcenintensiv, waren als Modell und im Detail auch theoretisch anspruchsvoll und verlangten zudem nach der Entwicklung einer leichtverständlichen Abfragesprache (Structured Query Language, SQL). Mit der Speicherung in beliebig verknüpfbaren Tabellen mit minimalem Repräsentationsaufwand erhielten die Daten jedoch eine ungeahnte Beweglichkeit (data independence). Daten waren nun weder an ein festprogrammiertes Repräsentationsmodell gebunden, noch hing ihre Verwendung von physischen Speicheradressen ab. Zudem emanzipierten sie sich von der strikten Referenz auf real existierende Objekte und konnten dafür beliebige Relationen mit anderen Daten eingehen: Unter dem Regime von relationalen Datenbankmanagementsystemen erhielten Daten eine theoretisch unbegrenzte Rekombinierbarkeit, die mit einem erhöhten Freiheitsgrad ihrer (nichtprofessionellen) Nutzerinnen und Nutzer verbunden war (user independence). Die Ausweitung der Nutzungsmöglichkeiten, welche die Datenkombination potenziell erzeugte, führte Ende der 1970er Jahre zu einer intensiven Debatte über den Überwachungsstaat sowie zu Datenschutzgesetzen, die Bürgerinnen und Bürgern eine informationelle Selbstbestimmung garantieren sollten, indem sie die freie Zirkulation von Daten einschränkten.
Gegen Ende des 20. Jahrhunderts wurde die Beweglichkeit der Daten nochmals drastisch gesteigert. Zum einen liessen sie sich aus alphanumerischen Daten mit Uniform Resource Locators (URL) als Hypertext neu kombinieren. Gleichzeitig wurden sie von autonom arbeitenden Webcrawlern so indexiert, dass der gesamte Datenbestand des World Wide Web (Internet) mit einfachen Abfragen ohne besondere technische Kenntnisse abgesucht werden konnte. Nach der Wende zum 21. Jahrhundert entstand daraus eine hochspezialisierte Data-Mining-Industrie, die Daten radikal dekontextualisierte und mit rechner- und netzwerkgestützten Analysen sehr heterogene Datenbestände nach auffälligen Datenmustern durchforstete. Zum anderen veränderte sich die epistemische und wirtschaftliche Rolle wachsender Datenbestände dadurch, dass Daten für die Ausdifferenzierung selbstlernender Algorithmen eingesetzt wurden. Daten, die im wirtschaftspolitischen Diskurs als „Rohstoff der Zukunft“ bezeichnet wurden, bestimmten die Arbeitsweise jener Instrumente, mit denen sie verarbeitet bzw. analysiert wurden. Die Vorstellung, Daten seien stabile Referenzen auf Objekte und Relationen ausserhalb der digitalen Wirklichkeit, löste sich zu Gunsten einer Referenzvielfalt von Daten unter hoher algorithmischer Autonomie auf. Rechner, Netzwerke und Programme verarbeiten Daten nach Massgabe der von ihnen generierten Datenlagen, um daraus neue Daten auch über die Muster der Datenverarbeitung zu gewinnen. Diese gesteigerte Form der Datenreflexivität führt – nach der Ablösung des «Big-Brother»-Diskurses durch das Schlagwort «Big Data» – zu einer neuen, datengetriebenen Form gesellschaftlicher Selbstbeschreibung und Interaktion (Digitale Gesellschaft).
Quellen und Literatur
- Codd, Edgar F.: "A Relational Model of Data for Large Shared Data Banks", in: Communications of the ACM, 13 (6), 1970, S. 377-387.
- De Chadarevian, Soraya: "Die 'Methode der Kurven' in der Physiologie zwischen 1850 und 1900", in: Rheinberger, Hans-Jörg; Hagner, Michael (Hg.): Die Experimentalisierung des Lebens. Experimentalsysteme in den biologischen Wissenschaften 1850/1950, 1993, S. 28–49.
- Lenoir, Timothy (Hg.): Inscribing Science. Scientific Texts and the Materiality of Communication, 1998.
- Gugerli, David; Speich, Daniel: Topografien der Nation. Politik, kartografische Ordnung und Landschaft im 19. Jahrhundert, 2002.
- Hoffmann, Christoph: Unter Beobachtung. Naturforschung in der Zeit der Sinnesapparate, 2006.
- Daston, Lorraine; Galison, Peter: Objektivität, Berlin 2007 (englisch 2007).
- Krajewski, Markus: "In Formation. Aufstieg und Fall der Tabelle als Paradigma der Datenverarbeitung", in: Nach Feierabend. Zürcher Jahrbuch für Wissensgeschichte, 3, 2007, S. 37-56.
- Yates, JoAnne: Structuring the Information Age. Life Insurance and Technology in the Twentieth Century, 2008.
- Heide, Lars: Punched-Card Systems and the Early Information Explosion 1880-1945, 2009.
- Mayer-Schönberger, Victor; Cukier, Kenneth: Big Data. Die Revolution, die unser Leben verändern wird, 2013 (englisch 2013).
- Gugerli, David: Wie die Welt in den Computer kam. Zur Entstehung digitaler Wirklichkeit, 2018.
Kontext | Big Data, Hollerith-Maschine, Hypertext, Lochkarte |