Das Ende des Zufalls ...

Geschrieben von Dirk Deimeke am Montag, 22. April 2013

Eines vorab: Ich halte das Buch für eine der besten Einführungen in das Themengebiet "Big data". Rudi Klausnitzer erklärt in verständlicher Sprache, was mit "Big data" gemeint ist und welchen Einfluss es auf unser aller Leben hat und potentiell noch haben wird. Dabei verfällt der Autor nicht in die normalerweise skizzierten Schreckensszenarien oder Panikmache, sondern zeigt vielmehr den Einfluss von "Big Data" an gut verständlichen Beispielen auf.

Das eindrücklichste Ausflug in die Praxis war für mich, dass ein Mathematiker, der für eine grosse Supermarktkette arbeitete anhand von nur 25 gekauften Produkten relativ genau den Status einer Schwangerschaft und mit relativ hoher Wahrscheinlichkeit auch den potentiellen Geburtstermin eines Kindes feststellen konnte. Um hier nur ein Produkt zu nennen, ist bei der Auswertung von tausenden von Einkäufen aufgefallen, dass Frauen im zweiten Drittel ihrer Schwangerschaft dazu neigen, unparfürmierte Körperlotionen zu kaufen. Dieses gewonnenen Wissen wurde durch den Konzern dazu genutzt, passgenaue Werbung an die Kunden zu senden.

Mit Punktesammelkarten lässt sich ein solches Wissen sogar unternehmensübergreifend generieren.

Dabei geht es primär gar nicht darum, bestimmte Personen auszuspionieren, sondern vielmehr das Verhalten von Menschen und Menschenmassen vorherzusagen.

Aufgrund der Unmenge an Daten, die jeder einzelne von uns generiert, können so vorurteilsfreie Schlüsse gezogen werden.

Beim Thema "vorurteilsfrei" sei hier auf den Abschnitt im Buch verwiesen, der die letzte Präsidentschaftswahl in den Vereinigten Staaten zum Thema hatten. Die sogenannten Experten entscheiden sich immer für eine Menge an Indikatoren, die sie für relevant halten, einen Einfluss auf die Wahl des Präsidenten zu haben. So haben die meisten dieser Experten sehr früh Romney als Sieger gesehen. Nate Silver, ein Mathematiker, nahm im Gegenzug alle zur Verfügung stehenden Daten und versuchte vorurteilsfrei alle potentiellen Faktoren zu berücksichtigen. Dabei sagte er (auch schon 2008) einen Sieg von Obama voraus. Er wurde für verrückt gehalten, lag mit der nächsten Wahl aber wieder richtig.

Und das ist das Wesen von Big Data: Mathematische Modelle und Prognosen über alle verfügbaren Daten anzuwenden und mit historischen Daten zu testen. Sowohl die Speicherkapazität wie auch die Leistungsfähigkeit von vernetzten Computern bieten heute diese Möglichkeit.

An dem Buch hat mich vor allem die kluge Wahl der Beispiele und der gute Überblick über Big Data fasziniert. So spielen beispielsweise die Auswertungsform "Predictive Policing" (Vorhersage, wo sich Verbrechen ereignen könnten), die "Quantified Self"-Bewegung (Daten über sich selber sammeln) und auch die "Smart Data Feedback Loop" (Rückkopplungsmodell auf Basis von Big Data) eine Rolle.

All das bietet Chancen und Risiken. Krankenkassen könnten beispielsweise Kunden rauswerfen, deren Profil Anlass zur Sorge gibt oder im Gegenzug Vorsorge-Massnahmen einleiten, die eine Krankheit eventuell verhindern.

Big Data ist vor allem das Rechnen mit Wahrscheinlichkeiten, was natürlich auch zu Fehlschlüssen führen kann.

Das Buch kann ich uneingeschränkt empfehlen, auch ein Besuch der Webseite zum Buch (inklusive Blog) lohnt sich.

Am Rande: Ich habe das Buch als Rezensionsexemplar vom Verlag erhalten.

Trackbacks

Trackback-URL für diesen Eintrag

Dirks Logbuch am Mittwoch, 1. Januar 2014: 2013 im Blog ...

Vorschau anzeigen

Im Jahr 2013 habe ich so wenig gebloggt, wie noch nie. Ich nehme mir nicht vor, mehr zu bloggen und ich weiss nicht, wie ich das Blog weiterhin füllen werde, aber es wird vermutlich oder hoffentlich weiterhin Inhalte geben ... Meine Highlights 2013 im Blo

Kommentare

Ansicht der Kommentare: Linear | Verschachtelt

Mathias am Montag, 22. April 2013:

Das hört sich ja schon nach Psychohistorik an....

Dirk Deimeke am Montag, 22. April 2013:

Das geht in jedem Fall in die Richtung. Ist aber auch einleuchtend, da mittlerweile eine sehr grosse Datenbasis existiert.

Ich bin zwei Mal in der Woche an unserem Hauptstandort. Wenn man meine Standortdaten erfasst, ist es nicht schwer mit hoher Wahrscheinlichkeit vorherzusagen, wo ich mich an den Tagen der Woche aufhalte. Das Muster wiederholt sich und wird nur durch Urlaub, Dienstreisen oder Krankheit unterbrochen.

Jetzt lassen sich solche Voraussagen nicht nur für mich, sondern für sehr viele Leute treffen, damit lassen sich interessante Schlüsse treffen.

Adam am Donnerstag, 1. August 2013:

Vielen Dank für die Empfehlung!

Ich habe das Buch endlich fertiggelesen, bin aber etwas enttäuscht.

Weniger, weil die Ansichten zu unkritisch sind (vergleichsmässig wenig auf Risiken eingegangen und das nie detailiert), sondern eher, weil die Intension von dem Schriftsteller unreflektiert bleibt und voller Sehnsucht nach Aufhebung des -ich sage mal - Denkens ist. Zivilisationsmüdigkeit, wie vor etwas mehr als hundert Jahren.

Es wird ausserdem überhaupt nicht thematisiert, warum man und welche Daten sammelt. Das wäre ein sehr wichtiger Punkt. Letztendlich werden Interessen noch immer nicht durch Daten generiert, sondern umgekehrt.

Dirk Deimeke am Freitag, 2. August 2013:

Doch, die Antwort wurde meiner Erinnerung nach gegeben.

Daten werden gesammelt, um Korrelationen zu finden, die man ohne die Menge an Daten und die Computing Power nie gefunden hätte.

Vorher weiss niemand, welche Verbindungen der Computer findet.

Adam am Freitag, 2. August 2013:

Vielleicht habe ich mich nicht genau ausgedrückt, was ich da vermisste.

Es werden ja nicht alle Daten gesammelt, sondern nur bestimmte. Aufgrund dieser Daten kann man unter den (vor)gegebenen Umständen natürlich überraschende Resultate bekommen.

Es ist nur so, dass durch festgelegte Parameter die gesammelten Daten bereits vorgefiltert werden. Es ist zum Beispiel nicht möglich, dass ein Rechner aus den Daten heraus, die das Konsumverhalten (in Richtung Maximierung) betreffen, zu dem Schluss kommt, dass Umweltschutz wichtig ist und man gegebenenfalls weniger konsumieren sollte. Wir können das schon. Nicht nur, weil wir die Daten besitzen. Es ist ideologisch vorgegeben, was man als möglichen sinnvollen Zusammenhang erachtet und in diese Richtung sucht man auch.

Im Mittelalter hätte man mit Solchen Rechnern bestimmt nach einem Gottesbeweis gesucht.

Dirk Deimeke am Sonntag, 4. August 2013:

Das ist falsch.

Tatsächlich werden alle Daten gesammelt, ohne zu wissen, ob man sie jemals brauchen kann. Das erste Unternehmen, das damit im grossen Stil anfing, war Amazon.

Eine innere Einstellung zu bestimmten Dingen lässt sich nicht als Daten festhalten, aber die Art und Weise und der Inhalt von Kommunikation kann helfen, Schlussfolgerungen zu ziehen.

Adam am Montag, 5. August 2013:

Das ist nicht falsch und wenn ja, welche Aussage?

Alle gesammelte Daten wären auch Daten, die nicht vorhanden sind, erfasst wurden oder auch einfach nur nicht existieren.

Es geht mir nicht darum zu beweisen, dass man aufgrund von Daten keine Schlussfolgerungen, oder Prognosen innerhalb einer einfachen Fragestellung machen kann.

Ich frage mal ganz einfach: was sind Daten?

Dirk Deimeke am Montag, 5. August 2013:

Es ist falsch, dass nicht alle Daten gesammelt werden. Es wird alles gesammelt und gespeichert, die erhoben werden können, ohne rechtliche Probleme zu bekommen.

So lange es Gegenbeispiele gibt, wirst Du das meiner Meinung nach nicht beweisen können.

Alles sind Daten.

Adam am Montag, 5. August 2013:

Da liegt unser Mißverständnis.

Es sind eben nicht alles Daten, vielmehr ist das, was Daten sind ziemlich genau definiert: http://wirtschaftslexikon.gabler.de/Archiv/54483/daten-v5.html und siehe auch
https://de.wikipedia.org/wiki/Daten

Worauf ich im Endeffekt hinauswill, ist weniger Abstrakt. In dem Buch gibt es kaum Kritik bezüglich dessen was Daten sind. Kritik im eigentlichen Sinne, als Beurteilung, nicht als Verurteilung, wie dieser Begriff mißbraucht wird.
Dadurch können und werden auch nicht Vor- und Nachteile dargestellt, sondern nur behauptet.
Wobei nachteilige Behauptungen im übrigen kaum vorhanden sind. Insofern ist es klar, daß das Buch ein ideologisches und kein wissenschaftliches ist.

Trotzdem danke nochmals für die Empfehlung!

Dirk Deimeke am Montag, 5. August 2013:

Ehm, nach dieser Definition

QUOTE:

Daten sind â€žzum Zweck der Verarbeitung zusammengefasste Zeichen, die aufgrund bekannter oder unterstellter Abmachungen Informationen (d. h. Angaben über Sachverhalte und Vorgänge) darstellenâ€œ (Gabler).

"Daten sind Zeichen, die Informationen darstellen." - ist wie ich schrieb alles ein Datum und alles sind Daten. Das ist auch das Verständnis, das ich habe.

Das Buch wollte zeigen, dass Daten, die scheinbar zufällig sind, durch moderne Auswertungsmethoden Rückschlüsse zulassen, die man nicht erwartet hätte.

Da hat das Buch sein Ziel erreicht, finde ich. Es ist kein Lehrbuch der Informatik über Datenverarbeitung oder Big Data, da muss ich Dir Recht geben, das Ziel hätte es verfehlt.

Adam am Montag, 5. August 2013:

QUOTE:

...aufgrund bekannter oder unterstellter Abmachungen...

ist das, was ich versuchte unter anderem hervorzuheben. Für mich geht es in dem Buch viel mehr um Wirtschaftstheorie, als um Informatik.

Wenn ich das so sehe, wie Du, dann hat das Buch natürlich sein Ziel erreicht.

Ich denke, ich lese das Buch noch ein mal.
Danke für den Meinungsaustausch, mir zumindest ist (D)eine Sichtweise klarer geworden!

Dirk Deimeke am Dienstag, 6. August 2013:

Gut, dass wir auch hier zu einem Konsens kommen.

Die "unterstellten" Abmachungen sind die, dass alle Daten eine Bedeutung haben, wir kennen die Bedeutung nur zum aktuellen Zeitpunkt noch nicht.

Adam am Dienstag, 6. August 2013:

Hier mal besser formuliert, was ich meine und wo die Grenzen liegen falls es Dich interessiert
Kausaler Determinismus
Stichwörter:
Anfangsbedingungen
Rückwirkungen

Dirk Deimeke am Dienstag, 6. August 2013:

Ja, verstanden.

Das ist in etwa das, was die Chaostheorie besagt. Kleine Ursachen (oder Messfehler) können grosse Wirkung haben. Das ist der viel zitierte Schmetterling, der das Wetter verändert.

Letzten Endes ist das der Beginn der Wissenschaft durch Auswertung von Daten. Je nach Datenlage verändert sich das Modell, was daraus folgt.

Aber, und das ist der grosse Unterschied, die gewollten Auswertungen scheren sich nicht darum, wissenschaftlich korrekt zu sein, es reicht, wenn sie genügend genau das Konsumentenverhalten (als Beispiel) vorhersagen und somit durch spezielle Werbung den Verkauf anregen.

Das ist der eigentliche Wandel, der passiert: Mut zum Unperfektsein

Adam am Dienstag, 6. August 2013:

In manchen Fällen reicht es. Genau genug halt. Vorteile überwiegen. (wie in dem Beispiel zum Konsumentenverhalten, oder der verlinkten Seite)
In manchen Fällen ist es eigentlich egal, ob genau, oder ungenau. (welcher Präsidentschaftskandidat wird morgen gewinnen - mit Sicherheit einer von denen)
In manchen Fällen überwiegen die Gefahren (zB. wenn man durch Entscheidungen aufgrund, oder eher durch solcher datengestützter Berechnungen - samt Unzulänglichkeiten - Existenzen bedrohen könnte).

Wenn man dessen bewusst ist, was eigentlich Daten sind, bzw. sein können, könnte man auch ohne Panikmache, oder Enthusiasmus, über Datenschutz, Verwendbarkeit, Besitz und Auswertungskriterien von Daten und dessen Konsequenzen und vieles mehr rund um diese Thematik diskutieren, wie auch echte Standpunkte beziehen.

Das Ende des Zufalls ...
Kopf, oder Zahl?