dl013: daten visualisieren

Intro (00:00:00)

Thema des Podcasts (00:00:18)

Willkommen zur dreizehnten Folge beim datenleben-Podcast, dem Podcast über Data Science.
Wir sind Helena und Janine und möchten euch die Welt der Daten näher bringen.
Was für Daten umgeben uns? Wie nehmen wir Daten wahr? Und was können wir aus ihnen lernen?
Wer schon immer mehr darüber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.

Thema der Folge (00:00:39)

Daten sind überall, oft erreichen sie uns auch als Grafiken in allen möglichen Farben und Formen
Z.B. haben wir ja bereits in der Wetterprojekt-Folge über verschiedene Aspekte gesprochen, wie man Daten (konkret Wetterdaten) verständlich visualisieren kann
Wir wollen im Wesentlichen auf zwei Fragen antworten finden:
Wofür verwenden Data Scientists Datenvisualisierungen? Auf was für Probleme stößt man dabei?
Für diese Folge hat Helena einige Plots erstellt, über die sie mit mir spricht
Diese findet ihr in den Shownotes auf unserer Webseite www.datenleben.de

Warum ist dieses Thema wichtig? (00:01:42)

Daten können alles sein: Zahlen, Listen, Geordnete Tabellen, Statistiken, Filme, Musik, Noten, Texte, Sprache, Bilder
Um Daten verständlich zu machen, müssen sie dargestellt werden, manchmal mit grafischen Elemente
Ziele: Durch Visualisieren ein Gefühl für die Daten bekommen, vielleicht schon Auffälligkeiten sehen
Analysieren der Daten, ansehen, um zu erkennen, ob die Ergebnisse stimmig sind
Ergebnisse von Analysen für verschieden Zielgruppen verständlich machen
Damit haben wir jeden Tag in den Nachrichten zu tun, mit unterschiedlichen Schwierigkeiten
Dabei kann es zu Fehlern kommen, Grafiken sind vielleicht nicht besonders aussagekräftig
Weil wir damit aber alle, auch als Nicht-Data Scientist, zu tun haben, ist das Thema wichtig

Einspieler: Worum geht es bei Datenvisualisierung? (00:04:11)

Erinnert ihr euch noch an die Orte, an denen Menschen sich am häufigsten mit Covid-19 infizieren?
Plötzlich geisterte das Gerücht herum, dass über 75% der Ansteckungen im privaten Bereich passieren.
Dann sprach sich rum, dass gar nicht stimmt, sondern die Grafik falsch gelesen wurde
Medienkompetenz, also quasi Datengrafiklesekompetenz, brauchen wir alle, wenn wir informierte Entscheidungen treffen können wollen
Daten sind sehr komplex sind, weil es auf das Kleingedruckte und den größeren Kontext ankommt
Data Scientists sind dafür verantwortlich, Daten zu erfassen, aufzubereiten, zu analysieren und dann eben zu visualisieren.
Sie machen 3 Dinge: explorieren (erkunden), verifizieren (prüfen) und kommunizieren (vermitteln)
Und spätestens da wird alles auch noch gesellschaftlich relevant: Für wen werden Daten visualisiert? Wer gibt so etwas in Auftrag? Welche Aussagen sollen damit getroffen werden?
Datenvisualisierung geht uns alle an.

Exploration: Was habe ich für Daten vor mir? (00:06:36)

Entdeckung, Erkundung unbekannter Daten, um ein Gefühl für die Daten zu bekommen (Aufbau, Inhalt)
Bei umfangreichen Daten, grafisch ansehen, Text oder Tabellen können schnell unübersichtlich werden
Beispiel: Bei zeitlichen Daten den Zeitlichen verlauf als Punkte/Linien plotten (aka Zeitreihe)
Bei mehreren Datenspalten: Matrixplots, also quasi alles gegen alles plotten und so Muster erkennen

Was ist ein Matrixplot? (00:09:22)

library(GGally)
ggpairs(iris)

# Based on: http://rischanlab.github.io/Kmeans.html
x = iris[,-5]
y = iris$Species
kc <- kmeans(x,3)
gg <- ggplot(x) +
  geom_point(aes(Sepal.Length,Sepal.Width, colour=paste0(kc$cluster)))
points(kc$centers[,c("Sepal.Length", "Sepal.Width")], col=1:3, pch=23, cex=3)
gg + geom_point(
  data = as.data.frame(kc$centers[,c("Sepal.Length", "Sepal.Width")]),
  aes(Sepal.Length, Sepal.Width, colour=paste0(1:3)),
  shape=10, size=15)

Matrixplots können aufzeigen wie die Dinge in komplexeren Datensammlungen zusammenhängen
Bestehen aus verschiedenen Plots, die in einer Tabelle angeordnet werden
Beispiel: Verschiedene Blumen und die Eigenschaften ihrer Blütenblätter Ausreißer leicht sichtbar
Korrelation (Zusammenhang) von Daten wird sichtbar, Korrelationskoeffizient wird berechnet
Plots mit Punktdarstellungen (jeder Punkt eine Blüte) können Häufungen, also Cluster aufzeigen

Was ist eine Clustererkennung? (00:15:40)

Man erkennt gut drei Datensätze, die jeweils für sich (farblich unterschieden) Cluster bilden
Automatische Clustererkennung, die bestätigt, was der Matrixplot schon angedeudet hat
Heißt also, der Matrixplot vermittelt gut ersten Eindruck mit den verschiedenen Darstellungen
Z.B. neben Punktverteilung und Kurven auch Balken, Korrelationen und Boxplots
Median (Boxplots) ist die Mitte, genausoviel Werte darüber wie darunter, nicht der Mittelwert
Diese Übersicht hat gezeigt, Cluster näher angucken könnte interessant sein
Visualisierung als Exploration hat also das Ziel ein Gefühl für die Daten zu bekommen
Achtung: Übersicht ungleich übersichtlich
Zusammenhänge werden sichtbar, Entscheidungen für weitere Schritte können getroffen werden

Verifikation: Sind meine Schlüsse aus den Daten richtig? (00:21:16)

Aber es gibt noch mehr Ziele, als nächstes soll es daher um die Verifikation gehen
Beim Verifizieren, also Überprüfen, geht es darum mittels Visualisierungen der vorliegenden Daten, eine Vermutung zu überprüfen
Liegt man richtig mit seiner These? Oder widersprechen die Daten der Annahme?
Ein Cluster ist Beispielsweise schon ein Modell, das auf einen Datensatz angewendet wird
Auch der R-Wert (siehe Coronadaten-Folge) ist ein Modell
Modell kann auch ein neuronales Netz sein, das auf die Erkennung von Katzenbildern trainiert wird

Quelle: Helenas Doktorarbeit https://doi.org/10.15488/9983
Der grünen Linie liegt ein Modell (nach physikalischen Gesetzmäßigkeiten) zu Grunde, die Punkte sind die Datenmessungen
Dass beides zusammenpasst, zeigt, dass die Daten durch das Modell bestätigt werden
Anschließend hat Helena noch eine zweite Prüfung gemacht mit den Abständen der Datenpunkte zur Linie (Residuen) des Modells auf der Y-Achse
Normalverteilung/Gaußsche Glockenkurve angewendet, um zu sehen, ob die Abstände entsprechend der Normalverteilung verteilt sind (Zufallsereignisse im naturgesetzlichen Rahmen liegen)
Das kann man in einem Q-Q-Plot auftragen

Was ist ein Q-Q-Plot? (00:29:50)

Quantile sind bestimmte Punkte in einer Verteilungsfunktion
Die Linie stellt die Normalverteilung dar und wenn die Daten korrekt dieser Verteilung folgen, müssten sie auf der Linie liegen
Theoretical: -1 bis 1 entspricht einer Standardabweichung, dass sich die Punkte also mittig bei Null sammeln ist schonmal gut
Dass die Punkte aber nicht alle auf der Linie liegen, zeigt, dass das Modell noch nicht 100% passt
So lässt sich also das Modell nochmal prüfen, Helenas Fazit: es sieht immer noch gut genug aus

Was ist die ROC-Curve? (00:34:46)

Die nächste Form der Verifikation findet mittels der sogenannten ROC-Curve statt
Beispiel aus einem Paper zu Covid-19-Symptomen https://dx.doi.org/10.1002%2F14651858.CD013665
ROC-Curve ist ein Plot von Sensitivität vs. Spezifität, damit testet man einen Test (zum Beispiel auf Corona)

Quelle: Thomas Struyf et al.: Signs and symptoms to determine if a patient presenting in primary care or hospital outpatient settings has COVID‐19 disease (https://dx.doi.org/10.1002%2F14651858.CD013665)

Exkurs: Wie funktionieren Sensitivität & Spezifität? (00:35:27)

Sensitivität und Spezifität werden ja immer wieder im Zusammenhang mit Tests auf Corona genannt
Empfehlung: Mailab hat dazu ein gutes Video: Corona im Herbst | Ändern Schnelltests alles?
Wir versuchen das hier mal in kurz und knapp darzustellen:
Sensitivität und Spezifität geben an, mit wie gut ein Test ein korrektes Ergebnis anzeigen kann
Sensitivität: Je sensitiver ein Test ist, desto häufiger wird ein positives Ereignis auch als positiv angezeigt
Spezifität: Je spezifischer ein Test ist, desto häufiger wird ein negatives Ereignis auch als negativ angezeigt
Diese Unterscheidung ist wichtig, weil daraus unterschiedliche Konsequenzen resultieren können.
Ein falsch-positiver Schnelltest auf Covid-19 wäre für mich individuell blöd (Quarantäne etc.), wäre er falsch-negativ, wäre das für alle schlimm, die ich anstecke, weil ich denke ich sei gesund
Beim Antikörpertest ist das umgekehrt: bei einem falsch-negativen Test verhalte ich mich weiterhin vorsichtig, ist der Test falsch-positiv, könnte ich vielleicht unvorsichtiger sein, weil ich mich immun glaube und mich infizieren
Aber das sagt nur etwas über den Test aus, nicht über das individuelle Risiko, wie der Test ausfällt
Wer sich damit befassen möchte, wie das individuelle Testergebnis eines Schnelltests zu verstehen ist, kann sich mal die Seite SchnellTestRechner.de angucken (Vorschau/Test-Version)
Wie gut Tests sind, kann man sich mit der genannten ROC-Kurve visualisieren lassen

Wie wird die ROC-Curve interpretiert und erzeugt? (00:39:57)

Hier sieht man eine Plot für die Symptome Riech- und Geschmacksverlust
Besonderheit des Plots: die X-Achse fängt bei 1 an und geht bis 0, die Y-Achse fängt hingegen bei 0 an und geht bis 1
Perfekt (100% zutreffend) wäre ein Test, wenn so das Ergebnis auf X- und Y-Achse bei 1 läge, was sehr unwahrscheinlich ist, aus verschiedenen Gründen
Um einen Test beurteilen zu können, müssen Kriterien definiert werden
Maschinelles Lernen: das neuronale Netz sagt eine Zahl zwischen 0 und 1, die sagt wie sicher das Netz sich ist ob eine Bestimmte Klassifikation zutriff (Also 0: es ist keine Katze, 1: es ist sicher eine Katze)
Es gibt den Entscheidungswert/Schwellwert (threshold): z.B. 0.9, dann werden Katzen erkannt
Sollen alle erkannt werden, muss der Wert vielleicht noch gesenkt werden, dafür geht aber auch die Spezifität runter, weil auch Nicht-Katzen leichter über den Schwellwert kommen (falsch-positive)
Heißt also, der Schwellwert darf nicht beliebig niedrig werden, weil dann die Aussagekraft schwindet
Fazit: Möchte man seine Daten oder Modelle verifzieren, muss man wissen, mit welchen Plots das möglich ist, um auf das Ergebnis zu kommen, das hilfreich ist
Verifikation ist ein sehr wichtiges Feld für Data Science

Kommunikation: Wie vermittel ich meine Daten? (00:50:14)

Kommunikation von Daten, auch mittels Grafiken, begegnet uns fast überall
Beispiel: Neu-Infizierte mit Covid-19 täglich in der Tagesschau
Hier geht es um die Frage, wie Daten vermittelt werden, ob an Auftraggeber, an die Politik oder einfach an interessierte Menschen
Welche Daten werden kommuniziert? Rohdaten (Anzahl an Neuinfektionen) vs. modellierte Daten (Wahlumfragen)
Bei Wahlumfragen werden nicht einfach nur 1000 Menschen befragt und die tatsächliche Prozentzahl ausgegeben
Es werden Korrekturfaktoren einbezogen, weil man weiß, dass bestimmte Wähler*innengruppen schlechter erreicht werden oder auch ihre tatsächliche Präferenz verbergen
Man muss sich fragen: Für wen kommuniziere ich Daten?

Welche Fallstricke gibt es in der Kommunikation von Daten?

Die Achsenbeschriftung kann unleserlich oder irreführend sein
Farbpalette ist nicht barrierearm ausgewählt (Rot-Grün-Blindheit z.B.), zu viele und ähnliche Farben
Bei Tortendiagrammen sind ähnlich Große Tortenstücke oft schwer auseinander zu halten
Achsenbeschriftung irreführend: Skala für Patient*innen Kölner Krankenhäuser startet bei -50
Kann auch zu Verschleierungen führen, manipulierte Abstände wirken auf Betrachter*innen anders
Frage: Welche Aussage soll getroffen werden, welches Ziel hat die Grafik?
Manipulation, visuelle Darstellung weicht von schriftlichen Werten ab: CDU 25% vs. Grüne 23%

Fazit (01:00:54)

Lasst euch nicht manipulieren, achtet auf bestimmte Dinge bei grafischen Darstellungen!
Weiteres Beispiel Achsenbeschriftungen: In der Physik werden häufiger zwei verschiedene Datensätze in eine Grafik geplottet (X-Achse mit zwei Y-Achsen)
Werden Daten zusammengebracht, die überhaupt keine Aussagekraft haben zusammen?
Gerade Kommunikation mit Visualisierungen ist ein sehr komplexes Thema
Falls euch etwas einfällt (Datensätze, bestimmte Arten von Visualisierungen) fragt nach, dann machen wir mehr Folgen dazu
Z.B.: Woher weiß ich, welche Darstellungsform sich für meine Datensätze eignet?

Nächste Folge: am 22.05.2021 (01:03:13)

Wir haben verschiedene Dinge in Planung, wissen aber noch nicht genau, welches Thema es wird
Auf Twitter werden wir es in jedem Fall erwähnen, wer es also vorher wissen will, folge uns (;

Call to Action (01:03:36)

Wenn ihr uns weiter hören möchtet, folgt uns auf Twitter unter @datenleben
Oder besucht unsere Webseite: www.datenleben.de
Hinterlasst uns gerne Feedback, wir würden uns darüber sehr freuen
Habt ihr Fragen oder Themen, die euch interessieren? Dann schreibt uns!

Outro (01:04:09)

Schlagworte zur Folge

Datenvisualisierung, Datenanalyse, Daten visualisieren, Visualisierung, ROC-Curve, Q-Q-Plot, Matrixplot, Clustering, Clustererkennung, Datenkommunikation

Quellen

Weiterführende Links

3il17tr7kxefUeJ737w15oQhI3sfn6y4xl235go

2 Replies to “dl013: daten visualisieren”

Ulrike Schmidt sagt:

20. Mai 2021 um 21:58 Uhr

Sehr lehrreich! Spannend. Scheint viel Arbeit dahinter zu stecken. Bin gespannt auf das nächste Thema.

Antworten
Maik van Do sagt:

9. August 2021 um 0:59 Uhr

Hab mir deine Folgen für unterwegs gerade gezogen 🙂 super! Einfach cooles Projekt!
LG Maik

Antworten