Aus Rohdaten Diamanten schleifen: Daten beschaffen, befreien, filtern, aufbereiten

Von Julian Schmidli (Stand: Mai 2016)

tl;dr

Um in einem Datensatz relevante Geschichten zu finden, braucht es vor allem eins: eine saubere Tabelle. Dieses Kapitel nimmt Sie mit in den Minenschacht der Daten, wo die Datensätze noch dreckig und „messy“ sind, wo Namen unterschiedlich geschrieben und Zahlen falsch formatiert sind – und so keine verlässliche Analyse zulassen. Hier lernen Sie praktische Methoden und Tipps kennen, wie Sie aus Rohdaten Diamanten machen können. In chronologischer Reihenfolge einer Daten- Recherche werden erst unterschiedliche Quellen von Daten vorgestellt. Dann wird erklärt, wie man mit einfachen Plausibilitätschecks sicher gehen kann, dass die geplante Recherche den journalistischen Standards entspricht. Schliesslich werden unterschiedliche Methoden in den Fokus gerückt, welche die effiziente und genaue Aufbereitung von Daten erleichtern sollen. Ein grosser Bonus sind die zahlreichen Werkzeuge, die im Text oder am Ende in einer eigenen Toolbox aufgeführt werden, allesamt erprobt und State of the Art in der internationalen Datenjournalisten-Community. Am Ende wird erklärt, warum ein Journalist zwar nicht programmieren können muss – aber ihm schon ein paar kleine Tricks das Leben erleichtern können. Und so seinen Geschichten zur nötigen Brillanz verhilft.

1. Ein Daten-Kompass für Einzelkämpfer und Teams

Als ich 2011 im Rahmen einer Masterarbeit (Schmidli, 2011) den Stand des Datenjournalismus in der Schweiz untersuchte, war das Fazit eindeutig: Datenjournalismus ist in Schweizer Redaktionen kein Begriff. Seither sind gut fünf Jahre vergangen und die Situation hat sich ein wenig verändert. Inzwischen haben mehrere Schweizer Medien eigene Datenjournalisten eingestellt oder gar eigene Teams aufgebaut. Mit sehr unterschiedlichen Herangehensweisen: Der Recherchedesk von der Sonntagszeitung und Le Matin Dimanche, an dem ich selbst über zwei Jahre arbeitete, kombiniert seit dem Jahr 2012 Datenjournalismus mit investigativen Ansätzen. Mit viel Atem klagen sie bei den Behörden mittels Öffentlichkeitsprinzip regelmässig Daten heraus, etwa zu den grössten Nutzniessern von Bundesbeschaffungen oder zu den Reisekosten der Angestellten der Bundesverwaltung. Daraus entstehen meistens seitenlange Zeitungsberichte mit Grafiken und zahlreichen Anekdoten, ab und zu stellen sie auch etwas davon Online. Die Neue Zürcher Zeitung hingegen überzeugt mehr mit visuell opulenten, interaktiven Daten-Grafiken und hat dafür bereits international anerkannte Preise wie den Data Journalism Award des Global Editors Network, einem internationalen Gremium von Redakteuren, gewonnen. Die Beiträge haben oft eine illustrative Funktion oder punkten mit einem Service-Aspekt. So gab es in den letzten Jahren etwa eine Artikelreihe zu den Strassen von Zürich, inklusive Web-Applikation, auf welcher der Nutzer beispielsweise die längste und kürzeste Strasse Zürichs sowie deren historischen Hintergrund filtern konnte. Ein anderes Beispiel berichtete über den Verlauf der Gemeindefusionen in der Schweiz inklusive interaktiver Karte. Die Westschweizer Tageszeitung Le Temps setzt mit einem kleinen Datenteam auf lokalere Aspekte, während die Gratiszeitung 20 Minuten eher bereits vorhandene Statistiken herunterbricht. Ein prägendes Gefäss ist ausserdem der Datenblog des Newsnet-Verbunds von Tamedia, wo regelmässig kleine und grössere Datenanalysen zu allen möglichen Themen veröffentlicht werden und wo das Team auch immer mehr interaktive Formate entwickelt. Auch das Schweizer Radio und Fernsehen hat in den letzten zwei Jahren ein kleines Datenjournalismus-Team – SRF Data – aufgebaut, um mehr Datenjournalismus in die bestehenden Redaktionen zu bringen. Hier wird vor allem auf aufwendige, datenbasierte Recherchen gesetzt, welche dann über unterschiedliche Kanäle in passender Form erzählt werden.

Auch wenn sich im Einzelnen diese Initiativen zu bewähren scheinen: Gemessen an den eingesetzten Ressourcen und der Durchschlagskraft steckt der Schweizer Datenjournalismus im Vergleich zur Situation in den USA noch immer in Kinderschuhen. Während die meisten Redaktionsleiter noch zögerlich sind mit der Schaffung neuer Stellen für Datenjournalismus, scheint aber bei den Journalisten ein Umdenken stattzufinden. Nach meiner Einschätzung als Dozent für Datenjournalismus, unter anderem an der Journalistenschule MAZ, an der Zürcher Hochschule für angewandte Wissenschaften sowie an der Universität Zürich, nimmt die Zahl der Interessierten Jahr für Jahr zu. Der Datenjournalismus in der Schweiz wird sich in den nächsten Jahren wohl weiter etablieren – allerdings, mangels Ressourcen und Investitionsmut der Verlage – wohl vermehrt als Betätigungsfeld einzelner Journalisten, quasi als One-Man-Daten-Show. Gerade für Einzelkämpfer ist dieser Weg aber mit vielen Hürden versehen. So haben Datenjournalisten in konventionellen Redaktionen oft mit grossen Einschränkungen von technischer Seite zu kämpfen, weil beispielsweise das Content Management System (CMS) keine Einbettung von interaktiven Grafiken vorsieht, oder auch an der Erwartungshaltung von Vorgesetzten, die keine Vorstellung für Aufwand und Ertrag haben – und meistens zu viel erwarten (Schmidli, 2011).

Dabei ist es selten so, dass es in einem Datensatz keine journalistische Geschichte zu finden gibt. In den letzten Jahren sind die Quellen und Herangehensweisen so gewachsen, dass es fast zu jedem Thema relevante Daten gibt. Und damit eine Geschichte. Was aber öfters vorkommt: Dass die Geschichte nicht gefunden wird – oder zumindest nicht die beste der möglichen Geschichten. Gründe für dieses Scheitern sind vielfältig: Ein Mangel an Zeit, technischem Wissen oder einer strukturierten Herangehensweise. Am meisten mangelt es – dies hat jeder Anfang inne – an Erfahrung. Wie lange wird mich diese Aufgabe beschäftigen? Was könnten die Hürden sein? Welches Ergebnis darf ich erwarten? Kann ich die Idee mit meinem jetzigen Wissen überhaupt umsetzen? Wie erkläre ich das alles meinem Vorgesetzten? Diese und weitere Fragen stellt sich wohl jeder Journalist vor einem unbekannten Datenberg. Und das völlig zu recht: Wenn er falsch kalkuliert, wird er nicht oder erst viel später liefern können. Wer sich auf solches Neuland wagt, braucht deshalb vor allem einen guten Kompass. Ein Wegweiser für das unbekannte Terrain, mit Anhaltspunkten und Warnhinweisen. Dazu soll dieses Kapitel einen Beitrag leisten. Und das Beste dabei ist: Sie müssen kein Statistikfreak dafür sein, auch wenn das sicher nicht schaden würde. Was es braucht sind Sorgfältigkeit, Hartnäckigkeit und eine Prise Mut. Also genau das, was jeden guten Journalisten ausmacht.

In diesem Kapitel lernen Sie die praktischen Grundkenntnisse, sauber mit Daten umzugehen. Sie lernen, einen Datensatz genau anzuschauen und seine Stärken und Schwächen einzuschätzen. Sie lernen eine Reihe unterschiedlicher Quellen von Daten kennen, und jede Menge Werkzeuge, um damit zu arbeiten. Und Sie lernen, sich die Hände schmutzig zu machen. Einen Datensatz als Knetmasse zu verstehen, dem man eine neue Form geben kann. Wenn Sie die praktischen Tipps hier befolgen und ein wenig Zeit zum Experimentieren aufbringen, werden Sie auch als One-Man-Daten-Show schnell und effizient Datenjournalismus betreiben können.

2. Daten beschaffen und befreien

Daten sind wie jede andere Art von Informanten auch: Es gibt sie an allen Orten, in jeder Form und Funktion. Und wie jeden anderen Informant auch, muss man sich die Quelle ganz genau anschauen. Grob könnte man zwischen vier unterschiedlichen Arten von Datenquellen unterscheiden: offene, transparente, geschlossene und geleakte Daten.

2. 1 Offene Daten

Offene Daten, auf englisch „Open Data“, sind Datensätze, die von Akteuren der Öffentlichkeit in digitalen, maschinenlesbaren Formaten zur Verfügung gestellt werden; die regelmässig aktualisiert werden und deren Hintergrund klar dokumentiert ist. Der Begriff „Open Data“ hat seinen Ursprung aus der politischen „Open Data Bewegung“, die von den Regierungen fordert, möglichst viele der in deren Besitz befindlichen Datensätze zugänglich zu machen. In der Schweiz ist in diesem Bereich der Verein Opendata.ch besonders aktiv. Offene Datensätze sind beispielsweise auf der offiziellen Open-Data-Webseite des Schweizer Bundes zu finden: www.opendata.swiss. Gemäss Beschreibung auf der Webseite ist das Portal „ein integraler Teil der Open-Government-Data-Strategie Schweiz 2014-2018 des Schweizer Bundesrats.“ Als Zielbeschreibung des Portals heisst es: „Das Portal vereint unterschiedlichste Datensätze wie beispielsweise die Gemeindegrenzen der Schweiz, Bevölkerungsstatistiken, aktuelle Wetterdaten, historische Dokumente oder ein Verzeichnis der Schweizer Literatur. Gemeinsam ist den Datensätzen, dass Sie alle kostenlos heruntergeladen und weiterverwendet werden können. Sie stehen zudem unter einheitlichen Nutzungsbedingungen zur Verfügung.“

Auch andere Akteure wie die Weltbank, die OECD, Eurostat, der internationale Währungsfonds oder die Stadt Zürich pflegen Portale mit zugänglichen Daten.

Offenen Daten sind oft qualitativ hochstehend, weil sie in politische und behördliche Prozesse eingebunden sind, die Genauigkeit und Vollständigkeit der Daten fördern oder gar verlangen. Deshalb ist es auch einfach, an die Daten zu kommen. Meistens genügt die Downloadfunktion der Portale und notfalls hilft eine Nachfrage bei der zuständigen Person. Oft müssen die Daten dann auch kaum mehr bearbeitet werden, um eine vernünftige Analyse zu machen.

2.2 Transparente Daten

Transparente Daten sind ebenfalls öffentlich zugänglich, allerdings mit Einschränkungen. Darunter fallen beispielsweise Datensätze, die aus einem Tabellenprogramm in ein schwer-lesbares PDF formatiert wurden oder die in unaggregierter Form auf Webseiten oder in Jahresberichten publiziert werden und erst mühevoll zusammengetragen werden müssen. Auch unformatierte Datensätze mit Rohdaten, die noch Duplikate oder falsche Formatierungen enthalten, fallen unter diese Kategorie. Oft sind die Quellen in diesem Fall kleinere Ämter oder Pressestellen von Unternehmen, die lieber Tabellen in PDFs oder ausgedruckt verschicken, als die Daten in einem maschinenlesbaren Format wie CSV (Comma-separated Value) oder XLS (Excel-Format) zu publizieren. Hier lohnt es sich, bei den Datenbesitzern nachzufragen und nach einem anderen Format zu fragen. Ansonsten helfen hier zahlreiche Tools weiter: bei PDFs helfen sogenannte PDF-Parser wie Tabula und Abbyy Finereader, bei auf der Webseite verteilten Informationen sogenannte Scraper wie Import.io oder Scrapy. (Siehe Toolbox) Besondere Aufmerksamkeit gilt hier möglichen Fehlern bei der Übertragung von Daten.

2.3 Geschlossene Daten

Wie der Name schon vorwegnimmt: An geschlossene Daten kommt man nur sehr selten ran. Es sind dies meistens Datensätze, die explizit nicht an die Öffentlichkeit gehören. Entweder, weil sie sensible Informationen wie Namen, Telefonnummern oder Kontostände enthalten oder aber weil sie im Besitz von privaten Unternehmen sind. Der Besitz und die Auswertung von Daten ist für viele Unternehmen Teil des Geschäftsmodells und wird deshalb nur anonymisiert und aggregiert, meistens aber gar nicht veröffentlicht. Oft auch, weil dies gegen das Persönlichkeitsrecht einzelner Personen, die in den Daten vorkommen, verstossen würde (und gegen viele andere Rechte auch).

Deshalb ist mit Daten von privaten Unternehmen besondere Vorsicht geboten. Oft ist nämlich nicht klar, welche Daten sie dem Journalisten liefern und welche sie zurückbehalten. Pochen Sie auf Vollständigkeit – und prüfen Sie genau. Einen anderen Fall sind die geschlossenen Daten bei den kantonalen und bundesweiten Behörden. Hier gilt nämlich vielerorts das Bundesgesetz über das Öffentlichkeitsprinzip (BGÖ) oder eine kantonale Variante davon. Dieses kann dann eingesetzt werden, wenn die Behörden mit einer Begründung auf geschlossenen Daten sitzen, der Journalist aber glaubt, dass das öffentliche Interesse an den Daten höher zu bewerten ist. Dann kann der Journalist die Daten – teilweise gar ganze Datenbanken - per BGÖ herausverlangen und vom Eidgenössischen Datenschutz- und Öffentlichkeits- Beauftragten (EDÖB) eine Empfehlung verlangen. Die meisten der Ämter richten sich nach diesen Empfehlungen, doch bei jenen, die dies nicht tun, bietet sich ein Weiterzug ans Bundesverwaltungsgericht an. Nützliche Formulare und Tipps zu dieser Methode bietet die Webseite des Vereins Öffentlichkeitsgesetz.ch.

2.4 Geleakte Daten

Dann gibt es noch den Fall der geleakten Daten. Sie wissen schon: Offshoreleaks. Swissleaks. Panama Papers. Alles Datensätze von vielen Gigabytes Umfang, die eigentlich nicht für die Öffentlichkeit bestimmt waren, die aber durch sogenannte Leaks – also Datenlecks – an die Medien gelangten. Über den Umgang mit geleakten Daten könnte man eigentlich ein eigenes Buch schreiben – an dieser Stelle empfehlenswert ist das Buch Panama Papers der Journalisten Bastian Obermayer und Frederik Obermaier. Grundsätzlich gilt aber das Gebot höchster Vorsicht im Umgang mit solchen Daten. Der Journalist sollte alles dafür tun, um zu verifizieren, ob die Daten echt sind, wie alt sie sind, wie vollständig – und was das alles aussagen kann. Denn es braucht einen guten Grund, die Inhalte solcher Daten an die Öffentlichkeit zu tragen.

Leaks sind meistens ein Haufen unstrukturierter Daten: E-Mails, PDFs, Passkopien und andere Anhänge. In den letzten Jahren haben sich eine Reihe von Tools etabliert, um mit solchen Daten umzugehen und diese zu strukturieren und durchsuchbar zu machen. Entscheidend dabei ist das Prinzip der Optischen Zeichenerkennung (OCR), das von Software angewandt wird, um analogen Text (etwa aus einer Passkopie) in einen digitalen Text zu verwandeln. Ein beliebtes Instrument ist Overview, das von der US-Nachrichtenagentur Associated Press entwickelt wurde und inzwischen Open Source ist. Es hilft, grosse Dokumentenmengen zu gruppieren und nach Stichwörtern zu durchsuchen. Falls die Möglichkeit besteht, einen Programmierer an Bord zu holen, lassen sich weitere spannende Technologien implementieren. Mar Cabra und Erin Kissane vom International Consortium of Investigative Journalists (ICIJ) haben ihre Herangehensweise für den Umgang mit den 2,6 Terrabyte Daten der Panama Papers in einem lesenswerten Blogpost festgehalten (Cabra, 2016).

3. Daten prüfen

Gerne würde man jedem Datensatz trauen und sich denken: Das stimmt schon alles so. Aber die Erfahrung zeigt leider, dass jeder Datensatz seine Einschränkungen hat. Je genauer man ihn anfangs prüft, desto schneller weiss man auch, worauf man sich einlässt. Oder würden Sie einem Informanten trauen, der Ihnen inkonsistente Geschichten erzählt und ständig Personen, Orte und Zahlen verwechselt? Eben. Was der Datenjournalist braucht, ist eine klare Checkliste, an die er sich halten kann. Glück für uns, denn es gibt bereits ein paar hervorragende Exemplare, beispielsweise von Pro Publica (La Fleur, 2016) und Quartz (Groskopf, 2016). Die wichtigsten Punkte davon werde ich hier kurz erläutern und um einige weitere ergänzen.

3.1 Integritätscheck

  • Prüfen Sie die Vollständigkeit der Daten. Kann es sein, dass beim Exportieren der Daten etwas verloren ging? Einzelne Versionen von Excel beispielsweise sind limitiert auf 65'536 Zellreihen und schneiden alles andere einfach ab.
  • Stimmen die Gesamtsummen mit Zahlen aus anderen Berichten überein?
  • Nehmen Sie eine Abgrenzung des Datensatzes vor: Was ist der höchste und der tiefste Wert?
  • Gibt eine alphabetische Verteilung der Namen? Gibt es leere Zellen oder viele Nullen? Ist der Datensatz richtig strukturiert und stehen zum Beispiel alle Adressen in der Adress-Spalte?
  • Gibt es extreme Ausreisser? Falls ja sind sie entweder Fehler oder gute Geschichten.
  • Der Stichproben-Test: Versuchen Sie, ein paar der Datenpunkte durch andere Quellen zu verifizieren. Bei einem Datensatz zu Verkehrsunfällen zum Beispiel: Gab es am Tag X an der Kreuzung Y wirklich einen Autounfall mit 2 Toten? Prüfen Sie mit Medienberichten oder Augenzeugen.
  • Inzwischen gibt es auch Tools, die sich mit diesen Fragen befassen. Der Dataproofer etwa prüft einen Datensatz auf Duplikate, leere Zellen, komische Zeichen sowie verdächtige Zellreihen, die auf Fehler beim Export hinweisen. Dann gibt es noch das Benfordsche Gesetz (Benford’s Law), das eine bestimmte Verteilung von Zahlen in einem grossen Daten vorschreibt. Das Benford-Tool der Datenjournalismus-Agentur Journalism++ hilft etwa dabei, zu sehen, ob die Daten vollständig sind oder möglicherweise manipuliert wurden.

    3.2 Methodologie

    Wie ein Datensatz entstanden ist, gibt klare Hinweise auf mögliche Stärken und Schwächen. Deshalb gilt es, wenn immer möglich, ein Auge auf die Methodologie zu werfen.

  • Jeden Datensatz gibt es nur aus einem bestimmten Grund. Welcher ist das? Was ist die Motivation des Datensammlers? Und was sagt das über die Daten aus?
  • Verlangen Sie so viele Metadaten wie möglich und dazu immer auch eine Datenbeschreibung. Fragen Sie nach: Was bedeutet Variable X? Wie wurde sie erhoben? Was wurde gemacht, wenn Unsicherheiten auftraten?
  • Besprechen Sie die vorliegende Methodologie mit anderen Experten auf dem Feld. Die können oft genau einschätzen, welche Aussagekraft ein Datensatz hat.
  • 4. Daten reinigen und aufbereiten

    Stellen Sie sich vor: Sie kriegen einen Datensatz mit einer Million Zeilen an Rohdaten. Eine erste Begutachtung zeigt: Die Daten scheinen vollständig zu sein, aber im Datensatz herrscht ein ziemliches Chaos. Namen und Adressen sind unterschiedlich geschrieben, gewisse Informationen befinden sich in der falschen Spalte, manche Einträge bestehen doppelt. An diesem Schritt scheitern die meisten Datengeschichten – weil er wahnsinnig viel Zeit fressen kann. Gewisse Leute versuchen, den Datensatz händisch zu reinigen – aber eine Million Zeilen? Zum Glück gibt es Software, die kleine Reinigungs-Roboter zur Verfügung stellt. Alles, was wir tun müssen, ist, diesen Robotern zu sagen, was genau sie tun müssen. Es folgt die Beschreibung von unterschiedlichen Aufgaben, mit praktischen Tools dazu.

    4.1 Deduplikation

    Gerade in Rohdaten gibt es sie immer wieder: Mehrfacheinträge. Hinzu kommt, dass diese nicht immer einfach zu orten sind. So können in der Namens-Spalte eines Datensatzes beispielsweise die Namen Max Mustermann, Max J. Mustermann, M. Mustermann oder Mustermann Max auftauchen. Sehr wahrscheinlich meinen sie alle die gleiche Person. Ziel müsste also sein, einem Roboter mitzuteilen, dass er all diese Namen der gleichen Person zuordnen soll. Und wenn er bei anderen Namen die gleichen Ähnlichkeiten und Muster findet, dies bei ihnen auch zu tun. Hier hilft Open Refine. Das kostenfreie Tool ermöglicht es, durch verschiedene Algorithmen Duplikate in Namen und anderen Textformen zu finden und zu gruppieren. Einzelne Kontrollfunktionen ermöglichen es, jeden Schritt des Prozesses zu überprüfen und so Fehler zu vermeiden. Allerdings: Ab mehreren hunderttausend Zeilen ist auch Open Refine überfordert. Dafür gibt es aber Dedupe.io, ein neues Tool von Datamade, das es auch in einer Variante als Command-Line-Tool gibt. Mit Dedupe.io kann man einen Algorithmus trainieren, um Duplikate zu finden. Je länger man ihn trainiert, desto besser wird er. Sehr zu empfehlen! Alleine um mal das Feld des sogenannten „Machine Learning“ kennenzulernen.

    4.2 Buchstabensalat: Regex

    Die sogenannten regulären Ausdrücke (in englisch: Regular Expressions, kurz Regex) sind eine Art Regeln für Text, mit einer sehr mächtigen Zeichensprache. Die Regex sind als eigene Sprache in vielen Programmiersprachen und Programmen implementiert – einfach, weil sie so hilfreich sind. Wenn eine Spalte schlecht formatiert ist und beispielsweise Name, Adresse, Postleitzahl, Wohnort alle in derselben Spalte stehen, kann Regex mit wenigen Kniffen helfen. Und auch, wenn es noch viel komplizierter wird: Kein Problem für Regex! Die Sprache lässt sich einfach online lernen, zum Beispiel auf Regexr.com oder auf Regex101.com.

    4.3 Konvertierung

    Gelegentlich kommt es vor, dass Daten in ungewöhnlichen Formaten geliefert werden. Dafür gibt es ein paar hilfreiche Konvertierungs-Tools: Transformy.io ist ein junger Webservice dafür, sowie die Webseite Codebeautify, die eine ganze Menge an Konvertierungs- und Formatierungsumrechnern anbietet, völlig kostenfrei natürlich.

    4.4 Das Tidy-Data-Prinzip

    Ein sauber strukturierter Datensatz hat viele Vorteile. Die Analyse wird um einiges leichter und der Datensatz wird so langfristig brauchbar. Vor allem aber ermöglicht er die Teamarbeit: Grafiker, Programmierer, Designer, andere Journalisten können so schnell und fehlerfrei damit arbeiten. Um seine Daten „tidy“, also sauber, zu halten, hilft es, sich an gewisse Regeln zu halten. Benjamin Wiederkehr von der Agentur Interactive Things hat das in seinem Tidy Data Rulebook (Wiederkehr, 2015) schön zusammengefasst. Tiefer in die Materie geht Hadley Wickham, Professor an der Rice Universität und Gründer von R-Studio (Wickham, 2014). Hier die wichtigsten Punkte:

  • Jede Variable gehört in eine eigene Spalte.
  • Jede Beobachtung gehört in eine eigene Zeile.
  • Spaltenköpfe sind einzeilig, kleingeschrieben und mit Underscores verbunden.
  • Halten Sie ihre Tabellen als CSV und in UTF-8-Formatierung.
  • Halten Sie Kommentare und andere Metadaten in einer separaten Dateien fest.
  • 4.5 Das Data-Frame

    Sind die Daten mal sauber, hilft es, sie in eine hilfreiche Form zu bringen. Hierbei spricht man oft vom Data-Frame, quasi der Ausschnitt der Daten, mit dem man weiterarbeiten möchte. Es ist die Brille, durch die man die Daten anschaut. Je klarer definiert ist, welche Variabeln analysiert werden sollen, desto einfacher wird die Arbeit. Im Excel hilft dafür die Funktion Pivot-Tabelle, das Statistik- Programm R (siehe Toolbox) bietet mehrere Packages wie dplyr und tidyr. Ausserdem gibt es das ausgezeichnete Command-Line-Tool Csvkit, welches auch grosse CSV- Dateien mit eleganter Leichtigkeit auftrennen und nach Wünschen zuschneiden lässt. Durch die Arbeit mit Data-Frames hält man den Workflow sauber und kann das stetig drohende Daten-Chaos vorbeugen. Data-Frames lassen sich sehr einfach im Team teilen und erleichtern die Kooperation. Vor allem aber zwingt es einen zu Genauigkeit – und zu einer Auseinandersetzung mit der Fragestellung: Was ist die Hauptgeschichte? Was genau will ich herausfinden? Mit einem guten Data-Frame sind diese Fragen schon so gut wie beantwortet.

    5. Geschichten entwickeln

    Natürlich denkt ein Journalist nicht erst nach der Datenaufbereitung über mögliche Geschichten nach. Trotzdem lohnt es sich, wenn man nicht nur nach Beweisen für die Anfangsthese sucht. Gerade im datengetriebenen Journalismus kann sich eine Geschichte im Laufe einer Recherche konstant verändern: Meistens weiss man ja nicht, was ein Datensatz alles in sich birgt. Es macht deshalb Sinn, die Daten explorativ zu erkunden – in dem man mit ihnen spielt und schaut, was dabei entsteht. Dafür eignen sich eine Reihe von Tools: das Statistikprogramm R (siehe Toolbox) kann, einmal darin eingeschafft, erstaunlich schnell zu spannenden Ansätzen führen; das Tool Exploratory nimmt die Sprache von R und versieht sie mit visuellen Elementen. So lassen sich die Daten intuitiv erkunden und schnell neue Leads für Geschichten finden; Tableau Public bietet ein visuelles Interface, um Daten zu erkunden – allerdings nur mit beschränkten Funktionen in der Gratis-Version; das Command-Line-Tool Agate von Christopher Groskopf ist weniger visuell, dafür enorm effizient. Die Workbenchversucht, mit der Sprache Python einen ganzheitlichen Werkzeugskasten für Journalisten zu entwickeln.

    Aber worauf soll man achten, wenn man nach Geschichten sucht? Die Erfahrung zeigt, dass es immer wieder um folgende Fragestellungen geht:

  • Top of the Pops / Flops: Wer ist der Gewinner / Verlierer eines Umstands? Wer kommt bei einer Variable zu oberst, wer zu unterst in einem Ranking? Oft ist das Resultat einer Datenrecherche eine Tabelle mit den zehn Firmen / Personen / Kantone / Automarken ... mit den grössten / kleinsten / meisten / wenigsten / besten / schlechtesten Resultaten.
  • Ein neuer Trend, eine ungewöhnliche Entwicklung: Welche Veränderung zeigen die Daten - und warum? Gerade, wenn Daten mit einer sehr langen Zeitspanne vorhanden sind, lohnt es sich, die Entwicklungskurve anzusehen.
  • Regionale Vergleiche: Wie stehen Städte / Gemeinde / Kantone / Länder zueinander? Gerade weil unter diesen Variabeln viele Daten gesammelt werden, lohnen sich solche Vergleiche immer wieder.
  • Einzelfall oder System: Wenn in den Nachrichten besonders gravierende Einzelfälle von einem Misstand auftreten, lohnt sich oft die Frage: Hat das System? Das Auswerten von Daten kann meistens zu einer Antwort führen – und so zu einer relevanten Geschichte.
  • Statistische Abweichung: Bei vielen Statistiken gibt es eine Vorstellung, wie sie durchschnittlich auszusehen haben. Abweichungen davon können auf interessante Phänomene hinweisen.
  • Der grosse Daten-Spiegel: Was können Daten über einen Umstand in der Welt aussagen? Manchmal kann auch ein Rundumschlag von verschiedenen Grafiken und interessanten statistischen Fakten eine gute Hintergrundgeschichte zu einem Thema bilden.
  • Fazit

    Das klingt nach ziemlich viel Arbeit – alleine für das Beschaffen, Bereinigen und Aufbereiten der Daten, nicht wahr? Keine Angst: Nicht jeder Datensatz erfordert all diese Schritte. Aber ein wenig Zeit braucht es immer, besonders, wenn man noch am Anfang steht. Davon sollten Sie sich nicht beirren lassen, denn jedes Mal geht es schneller. Dinge, für die Sie anfangs Stunden brauchen, gehen später in Minuten von der Hand. Auch wenn das viele Journalisten nicht gerne hören: Gerade deswegen lohnt es sich, sich mit Programmiersprachen auseinanderzusetzen. Natürlich werden Sie nie so gut und schnell sein wie ein ausgebildeter Profi-Entwickler, aber schon mit kleinen Code- Bausteinen und einem Repositorium an gesammelten Scripts können Sie Ihre Arbeit unglaublich beschleunigen. Und wenn Sie die obigen Tipps befolgen und in ihren Arbeitsprozess einbauen, ist der Weg zu guten Datengeschichten – egal, wie dreckig ein Datensatz auch sein mag – nicht mehr weit.


    TOOLBOX

  • Tabula: Das kostenfreie Werkzeug Tabula ermöglicht es, mit einem Klick eine Tabelle aus einem PDF zu befreien. Wer ein wenig Übung darin hat, benutzt das Tool fast täglich.
  • PDF-Plumber Daten aus PDFs extrahieren über die Commandline.
  • Abbyy FineReader: Wenn Tabula nicht mehr genügt, kommt der FineReader der Firma Abbyy zum Einsatz. Das Tool kostet rund 100 Euro, dafür kann es auch PDFs mit hunderten von Seiten fast fehlerfrei in Excel-Tabellen umwandeln.
  • Import.io: Tools für das Scraping, also das systematische runterladen von Daten auf Webseiten, gibt es einige. Der Service von Import.io hat sich dabei konstant bewährt. Die Nutzung ist intuitiv und bis zu einem gewissen Grad sogar gratis.
  • Scrapy: Die beste Art, Daten zu scrapen ist noch immer die selbstprogrammierte. Scrapy bietet dafür einen niederschwelligen Einstieg: Mit wenigen Zeilen Programmiercode lassen sich hier schon nützliche kleine Daten-Helfer bauen.
  • R-Studio: Das beliebte Interface für die weltweit verwendete Statistiksprache R mausert sich langsam zum Schweizer Taschenmesser für Datenjournalisten. Kaum ein anderes Programm erledigt so effizient so viele Aufgaben und dient erst noch als formidables Recherche-Protokoll. Tipps zur Verwendung und zum Lernen der (einfachen) Sprache finden sich unter rddj.info.
  • Sublime Text: Der Texteditor für Programmierer überzeugt durch eine klare Struktur und viele nützliche Add-Ons.
  • SQLite: Diese leichte Datenbank kann hilfreich sein, wenn Sie komplexere Daten sammeln und strukturieren wollen. Es gibt viele Programme, die mit diesem Format umgehen können. Ein nützliches Tutorial hat Peter Aldhous geschrieben.
  • Github: Diese Plattform wird vor allem von Programmierern benutzt, eignet sich aber auch sehr gut für Journalisten als Ablage-Depot für Code und Daten. Weil es alle Veränderungen einer Datei versioniert, eignet sich das Tool gerade auch für die Kooperation in grösseren Teams.

  • Quellenverzeichnis:

    Cabra, M. (2016). Wrangling 2.6TB of data: The people and the technology behind the Panama Papers.

    Groskopf, C. (2016). The Quartz guide to bad data.

    LaFleur, J. (2016). A Guide to Bulletproofing Your Data.

    Schmidli, J. (2011): Die Erotik der Zahlen. Eine Untersuchung des Datenjournalismus in der Schweiz. Masterarbeit an der Hamburg Media School / MAZ.

    Wickham, H. (2014): Tidy Data. The Journal of Statistical Software, vol. 59, 2014.

    Wiederkehr, B. (2015). Tidy Data Rulebook.

    Mehr Tipps und Links finden Sie auf der Unterseite «Crashkurs»