Was ist „Scraping“?

„Scraping“ heißt übersetzt „(aus)schaben“; in der Regel ist so genanntes Web oder Screen Scraping gemeint: Das systematische Auslesen, ggf. regelmässig wiederholt, von Daten aus einer Website. Ein Beispiel wäre eine Kochrezept-Website, die viele tausend immer gleich aufgebaute  Artikel enthält. Dem Scraper wird beigebracht, welche Elemente er aus der HTML-Struktur auslesen und wohin er deren Informationen in einen Datensatz/Datenbank schreiben soll. Zudem wird vorgeben, wir er die nächste Seite zum Auslesen findet /z.B. per Paginierung oder über den Austausch von Bestandteilen der URL.

Scraping ohne Programmierkenntnisse bietet z.B. Kimolabs an; komplexere Aufgaben, die zumindest etwas Programmierkenntnis verlangt, kann ScraperWiki übernehmen oder es wird direkt selber ein Scraper programmiert, beispielsweise mit Python.

 

Muss ich Programmieren lernen?

Muss jede Journalistin und jeder Journalist Programmieren können? Darüber lässt sich debattieren. Sicher ist, jede/r sollte zumindest eine Ahnung von den Möglichkeiten von Webtechnologien haben. Eine einfache Möglichkeit, um sich Coden zu näheren, ist das Angebot CodeAcademy.

Was ist ein „Shapefile“?

Ein Standard für Geodaten, mit dem Umrisse, z.B. von Staatsgebieten, beschrieben werden. Die Endung solcher Dateien lautet .shp

Was ist „XML“?

Die Exensible Markup Language liefert als Austauschformat nach einem vordefinierten Standard Informationen aus; bekannt ist z.B. der RSS-Feed, der nach einem festgelegten Schema Nachrichten auszeichnet. XML eignet sich also gut für Textdokumente, für Daten wird heutzutage vermehrt -> JSON eingesetzt.

Was ist eine „API“?

Eine Application Programming Interface ist eine Schnittstelle. Der Anbieter beschreibt Regeln, über die die Schnittstelle angesprochen werden kann. Beispielsweise kann der Google Maps API in einem festgeleten  Format eine Adresse geliefert werden und zurück kommt die Geokoordinate (->Geocoding) etwa als -> JSON oder -> XML.

Was ist „Javascript“?

Eine Programmiersprache, die vor allem für interaktive Anwendung im Internet-Browser dient, also z.B. dafür sorgt, dass Inhalte erscheinen oder sich verändern, ohne dass die gesamte Seite neu lädt. Mittlerweile eine Art Standard (hat Flash verdrängt); es gibt zahllose Bibliotheken (Libraries), Programmierbauelemente, die an ihrer Endung .js erkennbar sind – etwa die Visualisierungsbibliothek d3.js. Es gibt auch Javascript-Anwendung auf Seiten der Server (node.js). Ein deutschsprachiges Tutorial für Einsteiger findet sich hier.

Wofür steht „DDJ“?

Data-Driven Journalism – datengetriebener Journalismus; etabliert hat sich im Engl. auch data journalism; im Deutschen Datenjournalismus. Eine zeitlang war auch von Datenbank-Journalismus die Rede. Vermehrt trat Begriff ab 2009 auf. Vorläufer bzw. verwandt ist Computer-Assisted-Reporting (CAR), was seit den 1960er-Jahren betrieben wird. Unter dem Hasthag #ddj findet bei Twitter darüber Austausch statt.

Was ist „csv“?

Comma separated value – kommagetrente Tabellen sind das schlichteste und kompakteste Format, um Daten zu tauschen; ein universelles Austauschformat.

Proleme kann  es durch -> Encoding geben.

In der Regel bietet sich die Variante tab-seperated-value an (tsv), weil im Deutschen (entgegen der Schweiz) Kommata als Punktation z.B. bei Geldbeträgen verwendet werden.

Was ist „Big Data“?

Gute Frage: So richtig genau scheint es niemand zu wissen – es geht um wirklich große Datenmengen; Datensätze mit vielen Millionen, wenn nicht sogar Milliarden und mehr Einträgen – Google wird eines der Unternehmen sein, das mit Big Data hantiert; im Bereich des Datenjournalismus dürfte man in der Regel nie mit Big Data zu tun haben. Allerdings sagen andere sagen aber auch, dass „Big Data“ mehr ein Konzept sei: Erkenntnisse aus großen Datenmengen zu gewinnen bzw. viele Daten zu verschränken und auszuwerten. Hier im Data Science-Blog von Berkley versuchen 40 „Experten“ die Frage zu beantworten.

Was ist „Open Data“?

Oft ist „Open Government Data“ gemeint: Datensätze, die in einem maschinenlesbaren Format frei zugänglich sind und einer freien Lizenz uneingeschränkt weiterverwendet werden dürfen. Zum Teil sind Behörden (aber auch Firmen und NGO) dazu übergegangen, Daten im Sinne von Open Data zu veröffentlichen. Auch gehört es quasi zum guten Ton, dass Datenjournalisten – wenn möglich -, die für ein ddj-Stück von ihnen verwendeten Daten im Sinne von Open Data mitzuveröffentlichen.