Big Data Fail: Amazon und der Hawking-Index

BLOG: RELATIV EINFACH

… aber nicht einfacher

Big Data heißt zunächst einmal nur, dass es um viele, viele Daten geht. Und gerade bei komplexen Daten kann es schwierig sein, sinnvolle Schlüsse zu ziehen.

Ein aktuelles Beispiel: der “Hawking-Index” des Mathematikers Jordan Ellenberg, den dieser im Wall Street Journal Online beschreibt. Ellenberg nutzt Information, die Amazon aufgrund von Daten zusammenstellt, die automatisch bei Lesern des elektronischen Amazon-Lesegeräts Kindle erhoben werden: Kindle-Leser können interessante Stellen elektronisch anstreichen, ähnlich wie man sich in einem gedruckten Buch Stellen mit Bleistift, oder in Lehrbüchern (je nach Lern-Stil) auch mit neonfarbigen Markern anstreicht.

Der Hawking-Index ist wie folgt definiert: Amazon liefert offenbar (habe ich nicht selbst geprüft) Informationen über die fünf am häufigsten angestrichenen Textstellen. Jeder Textstelle ist eine Seitenzahl zugeordnet. Man bilde für jedes Buch den Durchschnittswert der fünf Textstellen und teile das Ergebnis durch die Gesamt-Seitenzahl des Buches. Das Ergebnis, ausgedrückt als Prozentzahl, nennt Ellenberg den Hawking-Index – und liefert auch gleich Beispiele für einige bekannte Bücher.

Was bedeutet jetzt der Hawking-Index (HI)? Offenbar kommen da mehrere Einflüsse zusammen. Zum einen kann der HI etwas darüber aussagen, wo im Buch sich die markierenswertesten Textstellen befinden. Zum anderen, und das steht bei Ellenberg und bei der Berichterstattung über den HI im Vordergrund, wird der HI davon abhängen, wieviele Leser das Buch überhaupt bis zu welcher Seite durchlesen.

Von letzterer Eigenschaft bezieht der Hawking-Index seinen Namen. Verbreiteten Vorurteilen nach soll es sich bei Hawkings “Eine kurze Geschichte der Zeit” schließlich um eines der meistverkauften, aber schnellst-wieder-beiseite-gelegten Sachbüchern handeln.

Das Problem: Wir können die beiden gänzlich verschiedenen Einflüsse nur zum Teil auseinanderhalten. Beispiele:

Ein Buch, dessen griffige, packende, markierenswerte Textstellen auf den ersten Seiten stehen, hat einen kleinen HI, und zwar unabhängig davon, ob der Durchschnittsleser beim Lesen über diese ersten Seiten hinauskommt oder das Buch bald danach zur Seite legt.

Ein Buch, dessen griffige, packende, markierenswerte Textstellen auf den letzten Seiten stehen, wird einen großen HI haben – aber nur, wenn eine nennenswerte Zahl der Leser auch solange durchhält, dass sie das Buch bis zu diesen letzten Textstellen durchhält, die markierenswerten Stellen liest und markiert.

Ein Buch, dessen griffige, packende, markierenswerten Textstellen gleichmäßig über das ganze Buch verteilt sind, wird einen HI nahe 50% haben, wenn alle Markierer das Buch ganz durchlesen, also alle markierenswerten Stellen auch bemerken und erfassen.

Dasselbe Buch wird einen kleineren HI haben, wenn die meisten Leser gar nicht bis zum Ende durchhalten, und dementsprechend nur die markierenswerten Textstellen in den frühen Partien des Buches markieren. So, wie er definiert ist, wäre in diesem Falle das Doppelte des Hawking-Index eine Abschätzung dafür, wieweit die Leser im Buch gekommen sind.

Ein hoher HI sagt damit durchaus etwas darüber aus, dass viele Leser das Buch offenbar (fast) zuende gelesen haben. Ein niedriger HI sagt kaum etwas aus – wir können uns eben nicht entscheiden: Viele markierenswerte Stellen in den ersten Buchseiten? Oder kaum jemand, der beim Lesen weitergekommen ist als die ersten Seiten?

Der HI hat den Vorteil, einfach definiert zu sein. Ellenberg gibt die Definition in seinem Artikel direkt an. Und jeder, der Basiskompetenzen im Umgang mit Daten hat, kann aus dieser Definition schließen, was der HI leisten kann und was nicht.

In dieser Hinsicht ist der Artikel über den Hawking-Index im FAZ-Feuilleton ein ziemliches Trauerspiel. Denn da wird aus Ellenbergs Prozentzahlen eine Aussage dazu, welchen Anteil eines Buches Leser tatsächlich lesen:

Nach dieser Methode hat Ellenberg ermittelt, dass die Leser tatsächlich nur 6,6 Prozent von Hawkings Buch lesen.

Nein, hat er nicht. Schreibt er auch so nicht. Ist auch der Definition des HI nach Unsinn. Die 6,6% sind der Hawking-Index für das Buch (da habe ich bei Ellenberg sicherheitshalber nochmal per E-Mail nachgefragt), und kleine HI-Indexwerte lassen kaum Rückschlüsse auf das Durchleseverhalten zu – schon gar nicht geben sie an, wieviel Prozent des Buches gelesen werden.

Dass das weder die Autorin begriffen hat noch wer auch immer nach dem Vier-Augen-Prinzip den Artikel gegengelesen hat, sollte den Beteiligten ziemlich peinlich sein.

Insofern hat der Hawking-Index doch sein gutes, denn er zeigt, wo Berichterstatter die HI-Definition und deren Schwächen – als schön einfaches Beispiel der Datenauswertung! – auch verstanden haben (der Guardian erledigt das schön flapsig) und wer nicht verstanden hat, worum es geht (z.B. eben die FAZ, siehe oben). Und in dem Maße, in dem Big Data wichtig wird, dürften auch diese Version des Hawking-Index und seine Verwandten wichtig werden.

Veröffentlicht von Markus Pössel

https://scilogs.spektrum.de/relativ-einfach/

Markus Pössel hatte bereits während des Physikstudiums an der Universität Hamburg gemerkt: Die Herausforderung, physikalische Themen so aufzuarbeiten und darzustellen, dass sie auch für Nichtphysiker verständlich werden, war für ihn mindestens ebenso interessant wie die eigentliche Forschungsarbeit. Nach seiner Promotion am Max-Planck-Institut für Gravitationsphysik (Albert-Einstein-Institut) in Potsdam blieb er dem Institut als "Outreach scientist" erhalten, war während des Einsteinjahres 2005 an verschiedenen Ausstellungsprojekten beteiligt und schuf das Webportal Einstein Online. Ende 2007 wechselte er für ein Jahr zum World Science Festival in New York. Seit Anfang 2009 ist er wissenschaftlicher Mitarbeiter am Max-Planck-Institut für Astronomie in Heidelberg, wo er das Haus der Astronomie leitet, ein Zentrum für astronomische Öffentlichkeits- und Bildungsarbeit, seit 2010 zudem Leiter der Öffentlichkeitsarbeit am Max-Planck-Institut für Astronomie und seit 2019 Direktor des am Haus der Astronomie ansässigen Office of Astronomy for Education der Internationalen Astronomischen Union. Jenseits seines "Day jobs" ist Pössel als Wissenschaftsautor sowie wissenschaftsjournalistisch unterwegs: hier auf den SciLogs, als Autor/Koautor mehrerer Bücher und vereinzelter Zeitungsartikel (zuletzt FAZ, Tagesspiegel) sowie mit Beiträgen für die Zeitschrift Sterne und Weltraum.

19 Kommentare

- Ano Nym
- 13.07.2014, 13:33 Uhr
Haben Sie eigentlich ein Interesse daran, dass der Herausgeber eines Buches von Ihnen wissen kann, welche Seiten Sie wann gelesen haben? Also ich hab da kein Interesse dran und einige andere auch nicht:

http://www.ereaderfaq.de/der-kindle-liest-mit-privatsphaere-ade/
https://www.verbraucher-sicher-online.de/artikel/eff-datenschutz-ratgeber-fuer-e-book-kaeufer
http://www.e-book-news.de/von-most-highlighted-zu-most-wanted-spioniert-amazon-die-kindle-leser-aus/

Mir kommt Ihre Kritik an der fehlerhaften Interpretation daher ausgesprochen nerdig vor. Spionage auf Webseiten Seiten [1] kann man abschalten. Bei ebook-Readern geht das kaum. Das Zeitalter der Gegenstände ohne Rückkanal scheint sich seinem Ende zuzuneigen. [2]

[1] Markieren Sie doch einmal etwas Text auf z.B. auf http://www.welt.de/ und beobachten Sie, was Ihr Browser macht …
[2] http://www.golem.de/news/autodatenschutz-bundesminister-verlangt-datenschutz-beim-vernetzten-auto-1407-107682.html oder http://www.handelsblatt.com/auto/ratgeber-service/datenschutz-im-auto-der-allwissende-blechkamerad/9283050.html
- - Dr. Webbaer
  - 13.07.2014, 14:32 Uhr
  Wer sich auf so etwas einlässt, Bücher unter RL-Namen kauft, sich dann noch datenmäßig derart abgreifen lässt:
  
  Ellenberg nutzt Information, die Amazon aufgrund von Daten zusammenstellt, die automatisch bei Lesern des elektronischen Amazon-Lesegeräts Kindle erhoben werden: Kindle-Leser können interessante Stellen elektronisch anstreichen, ähnlich wie man sich in einem gedruckten Buch Stellen mit Bleistift, oder in Lehrbüchern (je nach Lern-Stil) auch mit neonfarbigen Markern anstreicht. (Artikel)
  
  …dem ist wohl nicht mehr zu helfen.
  
  [1] Markieren Sie doch einmal etwas Text auf z.B. auf http://www.welt.de/ und beobachten Sie, was Ihr Browser macht …
  
  Dies dürfen Sie Ihrem Kommentatorenfreund gerne mal erklären.
  
  MFG
  Dr. W
  - Ano Nym
    
    13.07.2014, 17:33 Uhr
    
    Wie wird man denn anonym Kindle-Kunde und wie bezahlt man anonym? Das geht mE nicht. Mit dem Firefox können Sie die Web Baeren Console einschalten, die Ihnen u.a. auflistet, was der Browser gerade sendet und empfängt. Halten Sie Ausschau “webtrekk”.
    - Dr. Webbaer
      
      14.07.2014, 09:17 Uhr
      
      FF am Start, Konsole eingeblendet, welt.de adressiert, Text in einem WELT-Artikel markiert, keine Meldung im Konsolenbereich, was falsch gemacht?
    - Dr. Webbaer
      
      14.07.2014, 09:19 Uhr
      
      PS: Registerkarte ‘Netzwerkanalyse’, aja, Sie haben recht, ganz bemerkenswert.
    - Hans
      
      14.07.2014, 23:50 Uhr
      
      Bin mir jetzt nicht sicher, ob ich alles richtig gemacht habe, aber was ich entdeckt habe, war in der Tat bemerkenswert. Es gibt aber ein Mittel dagegen, das nennt sich “No Script” und ist ein Plug-in für FireFox, dass wie der Name schon sagt, alle Skripte erst mal am ablaufen hindert. Man kann dann jedes Script einzeln erlauben, bzw. verbieten. Und wenn man bei der “Welt” z.B. das Script mit der URL “js.welt.de” verbietet, dann erfährt der Server bei Axel Springer nichts von dem, wo ich was markiere oder was anklicke, sofern das kein link ist, den ich aufrufe.
    - Dr. Webbaer
      
      15.07.2014, 09:37 Uhr
      
      Hans, schon klar, aber Inhaltsanbieter des Internets haben die Möglichkeit Scripte mit Funktionalität und Scripte mit Überwachung zu binden, so dass sich im Einzelfall vielleicht der beabsichtigte Erfolg einstellt, aber grundsätzlich nichts zu machen ist, wenn die Anbieter es dementsprechend anlegen.
      BTW: Haben Sie mal die standardisierte Feedback-Möglichkeiten wie ‘Disqus’ geprüft?
      
      MFG
      Dr. W (dem schon vor ca. zehn Jahren aufgefallen ist, dass bestimmte Anbieter die Erfassung (!) von Kommentaren selbst belauschen – was schon ziemlich abschreckend ist, lol, also wenn einzelne Tastendrücke benachrichtigt werden)
- KRichard
- 13.07.2014, 13:54 Uhr
BigData geht auch mit wenig Daten: in den USA reicht der Kassenzettel vom Supermarkt.
Vor einigen Monaten wurde in einer Zeitschrift (?) beschrieben, dass Schwangere in den USA von ihrem Supermarkt gezielte Werbung erhalten. Mit Beginn einer Schwangerschaft ändert sich das Konsumverhalten (keine Binden/Tampons, mehr gesunde Lebensmittel, bestimmte Kosmetika werden nicht mehr gekauft) – und das reicht, um den Beginn einer Schwangerschaft zu vermuten. In einem Fall beschwerte sich ein Vater, dass der Supermarkt mit dieser Werbung seine Tochter auf ´dumme Gedanken´ bringen würde – um dann einige Tage später zuzugeben, dass der Supermarkt doch recht hatte. US-Supermärkte können sogar den voraussichtlichen Geburtstermin abschätzen/berechnen.
- - Ano Nym
  - 13.07.2014, 17:22 Uhr
  Diese Geschichte ist auch spannend für Leute, die interessiert, wie sich Meme verbreiten bis sie schließlich von Politkern und anderen Mediengestaltern in Talkshows freigesetzt werden
  
  Such bei google nach “schwangerschaft big data”:
  
  April 2014 – http://www.zeit.de/digital/datenschutz/2014-04/big-data-schwangerschaft-verheimlichen. Dort wird auf verlinkt auf Februar 2012 – http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/.
- Martin Holzherr
- 13.07.2014, 15:04 Uhr
Wie steht es um den Hawking-Index von FAZ-Feuillton-Artikeln, wenn man als markierte Stellen, die Stellen nimmt, auf denen das Auge recht lange verharrt? Behauptung: Er wird sehr niedrig sein und zwar sowohl für Zeitungs- als auch für Internetleser, denn nach dem Lesen des Titels und der als amuse bouche dienenden Einleitung wissen die meisten, dass sie das Thema nicht interessiert. Ihr Auge war also nur auf den Anfang des Textes gerichtet. Das wissen auch die FAZ-Feuilleton-Autoren. Deswegen wird die Themenwahl der dominierende Faktor und ist viel wichtiger als dass sich der Autor, die Autorin intensiv oder auch nur seriös mit dem Thema auseinandersetzt. Der hier besprochene FAZ-Artikel über den Hawking-Index gehört genau in die Kategorie der Themen, die ankommen, spricht er er doch die natürliche Neugier der meisten Menschen an, bestätigt alte Vorurteile (wer liest schon einen Picketty bis zum Schluss, ich hab ihn ja auch nur fürs Regal) und bedient auch noch so etwas wie Schadenfreude. Als Dienstleistung und Mehrwert wird einem zudem noch ein Gesprächsthema geliefert, das recht unverfänglich ist, im Gegensatz etwa zu einer Stellungnahme im Palästina-Israel Konflikt.

Noch eine Bemerkung zur Interpretation des Hawking-Index. Die Annahme, ein hoher Hawking-Index bedeute, dass das Buch zu Ende gelesen wurde, ist nur dann korrekt, wenn Bücher von vorne nach hinten, also linear gelesen werden. Diese Annahme trifft zwar auf die meisten Leser zu, man muss sich aber trotzdem dessen bewusst sein, dass es eine Annahme ist.
- Ulf Lorenz
- 14.07.2014, 10:39 Uhr
Und noch ein paar weitere Ideen:

Wenn ich ein Paper/Doktorarbeit oder so korrekturlese, streiche ich immer mehr am Anfang als am Ende an. Wahrscheinlich schlaucht zuviel Aufmerksamkeit einfach. Insofern koennte der HI auch das Problem haben, dass er nicht misst bis wohin gelesen wurde, sondern bis wohin die Leute noch angestrichen haben.

Oder es gibt verschiedene Lesertypen: Die, die anstreichen nicht noetig haben / nicht nutzen und die anderen. Und diese Typen koennten dann auch in den Lesegewohnheiten unterschiedlich sein.

Mit deutlich mehr “Forschung” koennte man alle diese Thesen durchforsten und den Index vielleicht zu etwas Sinnvollem weiterentwickeln, aber wenn man sich das Trauerspiel bei Zitationsindizes anschaut, wird das vermutlich nicht passieren. Immerhin hat man ja schon eine maessig intuitive Zahl, die man bereits missverstehen und mit falscher Bedeutung versehen kann.
- - Martin Holzherr
  - 14.07.2014, 10:45 Uhr
  (Zitat)“Mit deutlich mehr “Forschung könnte man …” das aber nachdem man deutlich mehr Daten erhoben hat – was aber vielleicht im Geheimen bereits geschieht.
- - KRichard
  - 14.07.2014, 10:54 Uhr
  Ich mach´s genau so. Am Anfang eines Textes werden Unterstreichungen/Anmerkungen gemacht. Wenn man sich dann auf den Stil des geschriebenen Textes eingestellt hat, gibt es kaum noch Notizen.
  Desegen ist der HI eigentlich nur eine Beschäftigungstherapie für Leute, die nichts sinnvolles mit ihrer Zeit anzufangen wissen
  - Martin Holzherr
    
    14.07.2014, 11:22 Uhr
    
    Stimmt ein wenig, der Hawking-Index ist eine Beschäftigungstherapie für gewiefte Feuilletonisten, die damit mehrere Themen miteinander verbinden können:
    – das Thema Leseverhalten, Bestseller, Bücher fürs eigene Image
    – die Neugier der Leute für Dinge, die sie eigentlich nichts angehen (was lesen die anderen bis zu welcher Seite)
    – das Thema Überwachungsstaat oder besser Überwachungsgesellschaft
    
    Fazit: Der Hawking-Index versucht etwas Brandaktuelles in eine Zahl zu fassen. Es gehört zur neuen Zeit in der “wir” alles über das Mädchen und den Jungen von nebenan (the girl next door) wissen, obwohl wir mit dem Mädchen oder Jungen gar nicht gesprochen haben.
    Die Diskussion hier um den Hawking-Index zeigt auch, dass man wenn schon noch mehr wissen muss (Zitat Ulf Lorenz: “Mit deutlich mehr “Forschung” koennte man alle diese Thesen durchforsten und den Index vielleicht zu etwas Sinnvollem weiterentwickeln”) als nur die 5 am häufigsten angestrichenen Lesestellen. Ein bisschen Überwachsungsstaat ist nicht genug, den zuwenig Überwachung führt zu falschen Schlüssen. Um den Überwachten gerecht zu werden brauchen wir die Totalüberwachung, sonst übersehen wir vielleicht die positiven Aspekte, zum Beispiel dass der Leser bis zum Ende durchliest, aber gegen das Ende nichts mehr markiert.
    - Ulf Lorenz
      
      14.07.2014, 15:55 Uhr
      
      Um ein paar Sachen klarzustellen:
      
      Diese Daten gehoeren meiner Meinung nach nicht in die Haende von Amazon. Das fiel irgendwie beim Kommentarschreiben unter den Tisch, ist aber ein ziemliches Argument gegen den Kindle (und Amazon).
      
      Was die “Forschung” angeht, benoetigt man dazu nicht mehr Daten, sondern muss lediglich die existierenden anders nutzen. Ein Beispiel: Die These , dass die Leute anfangs mehr anstreichen, kann man einfach testen: Wenn die Zahl der Zitate stark mit der Seitenzahl abfaellt, ist das ein deutliches Indiz. Oder man kann die Zahl der Nutzer, die Anmerkungen machen, mit der Zahl der verkauften Buecher vergleichen. Wenn die Zitatmarkierungen dann nur bei 5% der Nutzer auftauchen, sind saemtliche Endergebnisse zumindest arg unsicher.
      - Hans
        
        15.07.2014, 00:00 Uhr
        
        Diese Daten gehoeren meiner Meinung nach nicht in die Haende von Amazon. Das fiel irgendwie beim Kommentarschreiben unter den Tisch, ist aber ein ziemliches Argument gegen den Kindle (und Amazon).
        
        Das sehe ich auch so. – Ein weiterer Grund, mir so ein Ding nicht zuzulegen.
        Im übrigen gehören solche Daten auch nicht in die Hände von Google oder wie die Firmen/Institutionen sonst noch alle heissen, die solche Daten erheben.
- Martin Holzherr
- 14.07.2014, 11:38 Uhr
Jordan Ellenberger (Erfinder des Hawking-Index) schreibt: “Disclaimer: This is not remotely scientific and is for entertainment purposes only!”

Wie recht er hat. Und ja, es ist unterhaltend was man auch an den obigen Kommentaren ablesen kann.

- Dr. Webbaer
- 14.07.2014, 13:00 Uhr
Eine andere Sicht:

Ein hoher HI sagt damit durchaus etwas darüber aus, dass viele Leser das Buch offenbar (fast) zu [E]nde gelesen haben. Ein niedriger HI sagt kaum etwas aus – wir können uns eben nicht entscheiden: Viele markierenswerte Stellen in den ersten Buchseiten?

Wenn ein hoher H(I)-Quotient, in der Folge HQ genannt, etwas aussagt, dann sagt dies auch ein niedriger.

Allgemein ist davon auszugehen, dass sequentielle Medien sozusagen von oben nach unten gelesen werden und bei nachlassendem Interesse das Lesen vielleicht irgendwann aufhört.
Es gibt einige, die bevorzugt die Introduktion zur Kenntnis nehmen und dann -bei Interesse, bei sozusagen durchschnittlichem Interesse- den Abschluss eines Werks; der Schreiber dieser Zeilen bspw. will sich von dieser Angewohnheit nicht ganz freisprechen, wenn das Werk nicht von Anfang an fesselnd ist, was eher selten der Fall ist.

Ein hoher HQ könnte insofern auf eine besondere Gebundenheit der Leserschaft schließen lassen oder eben auf eine besondere Polarisierung, diejenige betreffend, die wie oben beschrieben vorgehen.

Insofern wäre hier die Größe der Gesamtnutzungsdauer einzuführen, die “Kindle”-Konsumenten anscheinend ebenfalls abgehorcht werden kann.
Um so einen womöglich besserer Quotient zu bilden.

—
Ansonsten, nöh, der Ansatz Hawking’s scheint solid, die Zahl derer die bevorzugt Anfänge und Enden (dort befinden sich idR auch “Fazite”) zur Kenntnis nehmen, könnte gering sein.
Ellenbergs Ansatz (03.07.2014) scheint OK zu sein, es darf hier natürlich noch ein wenig mehr i.p. Konsumentenverhalten theoretisiert werden.

MFG
Dr. W
- - Dr. Webbaer
  - 14.07.2014, 13:14 Uhr
  * der Ansatz Ellenbergs
  ** Ellenbergs Ansatz (03.07.2014) scheint also OK zu sein
  
  >:->