{"id":393,"date":"2021-04-24T12:00:49","date_gmt":"2021-04-24T10:00:49","guid":{"rendered":"podlove-2021-04-22t15:23:34+00:00-507e6b17440c164"},"modified":"2021-04-22T22:38:49","modified_gmt":"2021-04-22T20:38:49","slug":"dl013-daten-visualisieren","status":"publish","type":"podcast","link":"https:\/\/www.datenleben.de\/index.php\/2021\/04\/24\/dl013-daten-visualisieren\/","title":{"rendered":"dl013: daten visualisieren"},"content":{"rendered":"\n\t\t\n            <div class=\"podlove-web-player intrinsic-ignore podlove-web-player-loading\" id=\"player-69f4f3165a643\"><root data-test=\"player--xl\" style=\"max-width:950px;min-width:260px;\">\n  <div class=\"tablet:px-6 tablet:pt-6 mobile:px-4 mobile:pt-4 flex flex-col\">\n    <div class=\"flex-col items-center mobile:flex tablet:hidden\">\n      <show-title class=\"text-sm\"><\/show-title>\n      <episode-title class=\"text-base mb-2\"><\/episode-title>\n      <subscribe-button class=\"mb-4 mobile:flex tablet:hidden\"><\/subscribe-button>\n      <poster class=\"rounded-sm w-48 shadow overflow-hidden\"><\/poster>\n      <divider class=\"w-full my-6\"><\/divider>\n    <\/div>\n\n    <div class=\"tablet:flex flex-grow\">\n      <div class=\"w-64 mobile:hidden tablet:block tablet:mr-6\">\n        <poster class=\"rounded-sm shadow overflow-hidden\"><\/poster>\n      <\/div>\n      <div class=\"w-full\">\n        <div class=\"hidden tablet:block\">\n          <show-title class=\"text-base\"><\/show-title>\n          <episode-title class=\"text-xl desktop:text-2xl\"><\/episode-title>\n          <divider class=\"w-full my-4\"><\/divider>\n        <\/div>\n        <div class=\"flex items-center justify-between\">\n          <div class=\"block\">\n            <play-state on=\"active\">\n              <speed-control class=\"flex items-center\"><\/speed-control>\n            <\/play-state>\n          <\/div>\n\n          <div class=\"flex\">\n            <play-state on=\"active\">\n              <chapter-previous class=\"mx-2 block\"><\/chapter-previous>\n            <\/play-state>\n            <play-state on=\"active\">\n              <step-backward class=\"mx-2 block\"><\/step-backward>\n            <\/play-state>\n\n            <play-button class=\"mx-2 block\" :label=\"$t('PLAYER.PLAY_EPISODE')\"><\/play-button>\n\n            <play-state on=\"active\">\n              <step-forward class=\"mx-2 block\"><\/step-forward>\n            <\/play-state>\n            <play-state on=\"active\">\n              <chapter-next class=\"mx-2 block\"><\/chapter-next>\n            <\/play-state>\n          <\/div>\n\n          <div class=\"block\">\n            <play-state on=\"active\">\n              <volume-control class=\"flex items-center\"><\/volume-control>\n            <\/play-state>\n          <\/div>\n        <\/div>\n        <div class=\"flex w-full\">\n          <progress-bar><\/progress-bar>\n        <\/div>\n        <div class=\"flex w-full -mt-2\">\n          <div class=\"w-3\/12 text-left\">\n            <timer-current class=\"text-sm\"><\/timer-current>\n          <\/div>\n          <div class=\"w-6\/12 text-center truncate\">\n            <play-state on=\"active\">\n              <current-chapter class=\"text-sm\"><\/current-chapter>\n            <\/play-state>\n          <\/div>\n          <div class=\"w-3\/12 text-right\">\n            <timer-duration class=\"text-sm\"><\/timer-duration>\n          <\/div>\n        <\/div>\n      <\/div>\n    <\/div>\n    <divider class=\"w-full mt-6 mb-3\"><\/divider>\n    <div class=\"flex justify-between\">\n      <div class=\"flex mobile:w-full tablet:w-3\/12 desktop:w-3\/12 justify-between\">\n        <tab-trigger tab=\"chapters\">\n          <icon type=\"chapter\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"transcripts\">\n          <icon type=\"transcripts\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"files\">\n          <icon type=\"download\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"playlist\">\n          <icon type=\"playlist\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"share\">\n          <icon type=\"share\"><\/icon>\n        <\/tab-trigger>\n      <\/div>\n      <subscribe-button class=\"mt-1 mobile:hidden tablet:flex\"><\/subscribe-button>\n    <\/div>\n  <\/div>\n  <div class=\"w-full relative overflow-hidden\">\n    <tab name=\"chapters\">\n      <tab-chapters><\/tab-chapters>\n    <\/tab>\n    <tab name=\"transcripts\">\n      <tab-transcripts><\/tab-transcripts>\n    <\/tab>\n    <tab name=\"files\">\n      <tab-files><\/tab-files>\n    <\/tab>\n    <tab name=\"playlist\">\n      <tab-playlist><\/tab-playlist>\n    <\/tab>\n    <tab name=\"share\">\n      <tab-share><\/tab-share>\n    <\/tab>\n    <tab-overflow><\/tab-overflow>\n  <\/div>\n  <error><\/error>\n<\/root>\n<\/div>\n            <script>\n              document.addEventListener(\"DOMContentLoaded\", function() {\n                var player = document.getElementById(\"player-69f4f3165a643\");\n                podlovePlayerCache.add([{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/wp-json\\\/podlove-web-player\\\/shortcode\\\/publisher\\\/393\",\"data\":{\"version\":5,\"show\":{\"title\":\"datenleben\",\"subtitle\":\"der podcast \\u00fcber data science\",\"summary\":\"Was ist Data Science? Was bedeuten die Daten f\\u00fcr unser Leben? Woher kommen sie und wozu werden sie benutzt?\\r\\nDas sind alles Fragen, mit denen wir uns auseinander setzen werden.\\r\\nWer schon immer mehr \\u00fcber Daten und deren Effekt auf unser Leben wissen wollte, ist hier genau richtig.\",\"poster\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/image\\\/687474703a2f2f7777772e646174656e6c6562656e2e64652f77702d636f6e74656e742f75706c6f6164732f323032302f30362f636f7665722e706e67\\\/500\\\/0\\\/0\\\/datenleben\",\"link\":\"https:\\\/\\\/www.datenleben.de\"},\"title\":\"dl013: daten visualisieren\",\"subtitle\":\"Wof\\u00fcr verwenden Data Scientists Datenvisualisierungen?\",\"summary\":\"Daten k\\u00f6nnen alles sein: Zahlen, Listen, Geordnete Tabellen, Statistiken, Filme, Musik, Noten, Texte, Sprache, Bilder. Um Daten verst\\u00e4ndlich zu machen, m\\u00fcssen sie auch gut dargestellt werden k\\u00f6nnen, oft mit grafischen Elementen. Wir sprechen dar\\u00fcber, worum es bei Datenvisualisierungen geht, welche Ziele damit verfolgt werden k\\u00f6nnen und wie ein*e Data Scientist dabei vorgeht. Nat\\u00fcrlich auch dar\\u00fcber, welche Probleme und vielleicht Fallstricke es dabei geben kann, speziell bei der Kommunikation von Daten mit Hilfe von Grafiken.\",\"publicationDate\":\"2021-04-24T12:00:49+02:00\",\"duration\":\"01:04:21.943\",\"poster\":\"https:\\\/\\\/www.datenleben.de\\\/wp-content\\\/cache\\\/podlove\\\/fe\\\/fbe46d4f29cc133d5e05f15acf6a88\\\/dl013-daten-visualisieren_500x.png\",\"link\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/2021\\\/04\\\/24\\\/dl013-daten-visualisieren\\\/\",\"chapters\":[{\"start\":\"00:00:00.000\",\"title\":\"Intro\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:00:18.452\",\"title\":\"Thema des Podcasts\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:00:39.985\",\"title\":\"Thema der Folge\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:01:42.608\",\"title\":\"Warum ist dieses Thema wichtig?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:04:11.015\",\"title\":\"Einspieler:Worum geht es bei Datenvisualisierung?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:06:36.096\",\"title\":\"Exploration: Was habe ich f\\u00fcr Daten vor mir?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:09:22.479\",\"title\":\"Was ist ein Matrixplot?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:15:40.506\",\"title\":\"Was ist eine Clustererkennung?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:21:16.787\",\"title\":\"Verifikation: Sind meine Schl\\u00fcsse aus den Daten richtig?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:29:50.735\",\"title\":\"Was ist ein Q-Q-Plot?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:34:46.084\",\"title\":\"Was ist die ROC-Curve?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:35:27.555\",\"title\":\"Exkurs: Wie funktionieren Sensitivit\\u00e4t & Spezifit\\u00e4t?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:39:57.135\",\"title\":\"Wie wird die ROC-Curve interpretiert?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:50:14.322\",\"title\":\"Kommunikation: Wie vermittel ich meine Daten?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:53:36.199\",\"title\":\"Welche Fallstricke gibt es in der Kommunikation von Daten?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"01:00:54.618\",\"title\":\"Fazit\",\"href\":\"\",\"image\":\"\"},{\"start\":\"01:03:13.168\",\"title\":\"N\\u00e4chste Folge: am 22.05.2021\",\"href\":\"\",\"image\":\"\"},{\"start\":\"01:03:36.070\",\"title\":\"Call to Action\",\"href\":\"\",\"image\":\"\"},{\"start\":\"01:04:09.911\",\"title\":\"Outro\",\"href\":\"\",\"image\":\"\"}],\"audio\":[{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/file\\\/16\\\/s\\\/webplayer\\\/c\\\/website\\\/DL013_Daten_visualisieren.mp3\",\"size\":\"76403101\",\"title\":\"MP3 Audio (mp3)\",\"mimeType\":\"audio\\\/mpeg\"}],\"files\":[{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/file\\\/16\\\/s\\\/webplayer\\\/DL013_Daten_visualisieren.mp3\",\"size\":\"76403101\",\"title\":\"MP3 Audio\",\"mimeType\":\"audio\\\/mpeg\"}]}}, {\"url\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/wp-json\\\/podlove-web-player\\\/shortcode\\\/config\\\/default\\\/theme\\\/datenleben\",\"data\":{\"activeTab\":\"chapters\",\"subscribe-button\":null,\"share\":{\"channels\":[\"link\",\"facebook\",\"twitter\",\"whats-app\",\"linkedin\",\"pinterest\",\"xing\",\"mail\"],\"outlet\":\"https:\\\/\\\/www.datenleben.de\\\/wp-content\\\/plugins\\\/podlove-web-player\\\/web-player\\\/share.html\",\"sharePlaytime\":true},\"related-episodes\":{\"source\":\"disabled\",\"value\":null},\"version\":5,\"theme\":{\"tokens\":{\"brand\":\"#fff\",\"brandDark\":\"#fff\",\"brandDarkest\":\"#000\",\"brandLightest\":\"#8cc240\",\"shadeDark\":\"#807E7C\",\"shadeBase\":\"#807E7C\",\"contrast\":\"#000\",\"alt\":\"#8cc240\"},\"fonts\":{\"ci\":{\"name\":\"ci\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":800},\"regular\":{\"name\":\"regular\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":300},\"bold\":{\"name\":\"bold\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":700}}},\"base\":\"https:\\\/\\\/www.datenleben.de\\\/wp-content\\\/plugins\\\/podlove-web-player\\\/web-player\\\/\"}}]);\n                podlovePlayer(player, \"https:\/\/www.datenleben.de\/index.php\/wp-json\/podlove-web-player\/shortcode\/publisher\/393\", \"https:\/\/www.datenleben.de\/index.php\/wp-json\/podlove-web-player\/shortcode\/config\/default\/theme\/datenleben\").then(function() {\n                  player && player.classList.remove(\"podlove-web-player-loading\");\n                });\n              });\n            <\/script>\n            <style>\n              .podlove-web-player.podlove-web-player-loading {\n                opacity: 0;\n              }\n            <\/style>\n        \n\t\n\t\t\n<h3>Intro (00:00:00)<\/h3>\n<h3>Thema des Podcasts (00:00:18)<\/h3>\n<p>Willkommen zur dreizehnten Folge beim datenleben-Podcast, dem Podcast \u00fcber Data Science.<br \/>\nWir sind Helena und Janine und m\u00f6chten euch die Welt der Daten n\u00e4her bringen.<br \/>\nWas f\u00fcr Daten umgeben uns? Wie nehmen wir Daten wahr? Und was k\u00f6nnen wir aus ihnen lernen?<br \/>\nWer schon immer mehr dar\u00fcber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.<\/p>\n<\/p>\n<h3>Thema der Folge (00:00:39)<\/h3>\n<ul>\n<li>Daten sind \u00fcberall, oft erreichen sie uns auch als Grafiken in allen m\u00f6glichen Farben und Formen<\/li>\n<li>Z.B. haben wir ja bereits in der <a href=\"https:\/\/www.datenleben.de\/index.php\/2020\/09\/26\/dl005-wetterprojekt\/\">Wetterprojekt-Folge<\/a> \u00fcber verschiedene Aspekte gesprochen, wie man Daten (konkret Wetterdaten) verst\u00e4ndlich visualisieren kann <\/li>\n<li>Wir wollen im Wesentlichen auf zwei Fragen antworten finden: <\/li>\n<li>Wof\u00fcr verwenden Data Scientists Datenvisualisierungen? Auf was f\u00fcr Probleme st\u00f6\u00dft man dabei?<\/li>\n<li>F\u00fcr diese Folge hat Helena einige Plots erstellt, \u00fcber die sie mit mir spricht<\/li>\n<li>Diese findet ihr in den Shownotes auf unserer Webseite <a href=\"https:\/\/www.datenleben.de\">www.datenleben.de<\/a><\/li>\n<\/ul>\n<h3>Warum ist dieses Thema wichtig? (00:01:42)<\/h3>\n<ul>\n<li>Daten k\u00f6nnen alles sein: Zahlen, Listen, Geordnete Tabellen, Statistiken, Filme, Musik, Noten, Texte, Sprache, Bilder<\/li>\n<li>Um Daten verst\u00e4ndlich zu machen, m\u00fcssen sie dargestellt werden, manchmal mit grafischen Elemente<\/li>\n<li>Ziele: Durch Visualisieren ein Gef\u00fchl f\u00fcr die Daten bekommen, vielleicht schon Auff\u00e4lligkeiten sehen<\/li>\n<li>Analysieren der Daten, ansehen, um zu erkennen, ob die Ergebnisse stimmig sind <\/li>\n<li>Ergebnisse von Analysen f\u00fcr verschieden Zielgruppen verst\u00e4ndlich machen<\/li>\n<li>Damit haben wir jeden Tag in den Nachrichten zu tun, mit unterschiedlichen Schwierigkeiten<\/li>\n<li>Dabei kann es zu Fehlern kommen, Grafiken sind vielleicht nicht besonders aussagekr\u00e4ftig<\/li>\n<li>Weil wir damit aber alle, auch als Nicht-Data Scientist, zu tun haben, ist das Thema wichtig<\/li>\n<\/ul>\n<h3>Einspieler: Worum geht es bei Datenvisualisierung? (00:04:11)<\/h3>\n<ul>\n<li>Erinnert ihr euch noch an die <a href=\"https:\/\/www.dw.com\/de\/wo-infiziert-man-sich-mit-dem-coronavirus\/a-55435876\">Orte, an denen Menschen sich am h\u00e4ufigsten mit Covid-19 infizieren<\/a>?<\/li>\n<li>Pl\u00f6tzlich geisterte das Ger\u00fccht herum, dass \u00fcber 75% der Ansteckungen im privaten Bereich passieren.<\/li>\n<li>Dann sprach sich rum, dass gar nicht stimmt, sondern die Grafik falsch gelesen wurde<\/li>\n<li>Medienkompetenz, also quasi Datengrafiklesekompetenz, brauchen wir alle, wenn wir informierte Entscheidungen treffen k\u00f6nnen wollen<\/li>\n<li>Daten sind sehr komplex sind, weil es auf das Kleingedruckte und den gr\u00f6\u00dferen Kontext ankommt<\/li>\n<li>Data Scientists sind daf\u00fcr verantwortlich, Daten zu erfassen, aufzubereiten, zu analysieren und dann eben zu visualisieren.<\/li>\n<li>Sie machen 3 Dinge: explorieren (erkunden), verifizieren (pr\u00fcfen) und kommunizieren (vermitteln)<\/li>\n<li>Und sp\u00e4testens da wird alles auch noch gesellschaftlich relevant: F\u00fcr wen werden Daten visualisiert? Wer gibt so etwas in Auftrag? Welche Aussagen sollen damit getroffen werden?<\/li>\n<li>Datenvisualisierung geht uns alle an.<\/li>\n<\/ul>\n<h3>Exploration: Was habe ich f\u00fcr Daten vor mir? (00:06:36)<\/h3>\n<ul>\n<li>Entdeckung, Erkundung unbekannter Daten, um ein Gef\u00fchl f\u00fcr die Daten zu bekommen (Aufbau, Inhalt)<\/li>\n<li>Bei umfangreichen Daten, grafisch ansehen, Text oder Tabellen k\u00f6nnen schnell un\u00fcbersichtlich werden<\/li>\n<li>Beispiel: Bei zeitlichen Daten den Zeitlichen verlauf als Punkte\/Linien plotten (aka Zeitreihe)<\/li>\n<li>Bei mehreren Datenspalten: Matrixplots, also quasi alles gegen alles plotten und so Muster erkennen<\/li>\n<\/ul>\n<h3>Was ist ein Matrixplot? (00:09:22)<\/h3>\n<pre><code>library(GGally)\nggpairs(iris)<\/code><\/pre>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2021\/04\/013-Visualisierung_matrixplot.png\" title=\"Matrixplot\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2021\/04\/013-Visualisierung_matrixplot.png\" alt=\"Matrixplot\" title=\"Matrixplot\" \/><\/a><\/p>\n<pre><code># Based on: http:\/\/rischanlab.github.io\/Kmeans.html\nx = iris[,-5]\ny = iris$Species\nkc &lt;- kmeans(x,3)\ngg &lt;- ggplot(x) +\n  geom_point(aes(Sepal.Length,Sepal.Width, colour=paste0(kc$cluster)))\npoints(kc$centers[,c(&quot;Sepal.Length&quot;, &quot;Sepal.Width&quot;)], col=1:3, pch=23, cex=3)\ngg + geom_point(\n  data = as.data.frame(kc$centers[,c(&quot;Sepal.Length&quot;, &quot;Sepal.Width&quot;)]),\n  aes(Sepal.Length, Sepal.Width, colour=paste0(1:3)),\n  shape=10, size=15)<\/code><\/pre>\n<ul>\n<li>Matrixplots k\u00f6nnen aufzeigen wie die Dinge in komplexeren Datensammlungen zusammenh\u00e4ngen<\/li>\n<li>Bestehen aus verschiedenen Plots, die in einer Tabelle angeordnet werden<\/li>\n<li>Beispiel: Verschiedene Blumen und die Eigenschaften ihrer Bl\u00fctenbl\u00e4tter Ausrei\u00dfer leicht sichtbar<\/li>\n<li>Korrelation (Zusammenhang) von Daten wird sichtbar, Korrelationskoeffizient wird berechnet<\/li>\n<li>Plots mit Punktdarstellungen (jeder Punkt eine Bl\u00fcte) k\u00f6nnen H\u00e4ufungen, also Cluster aufzeigen<\/li>\n<\/ul>\n<h3>Was ist eine Clustererkennung? (00:15:40)<\/h3>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2021\/04\/013-Visualisierung_clustering.png\" title=\"Daten visualisieren: Clustering\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2021\/04\/013-Visualisierung_clustering.png\" alt=\"Daten visualisieren: Clustering\" title=\"Daten visualisieren: Clustering\" \/><\/a><\/p>\n<ul>\n<li>Man erkennt gut drei Datens\u00e4tze, die jeweils f\u00fcr sich (farblich unterschieden) Cluster bilden<\/li>\n<li>Automatische Clustererkennung, die best\u00e4tigt, was der Matrixplot schon angedeudet hat<\/li>\n<li>Hei\u00dft also, der Matrixplot vermittelt gut ersten Eindruck mit den verschiedenen Darstellungen<\/li>\n<li>Z.B. neben Punktverteilung und Kurven auch Balken, Korrelationen und Boxplots<\/li>\n<li>Median (Boxplots) ist die Mitte, genausoviel Werte dar\u00fcber wie darunter, nicht der Mittelwert<\/li>\n<li>Diese \u00dcbersicht hat gezeigt, Cluster n\u00e4her angucken k\u00f6nnte interessant sein<\/li>\n<li>Visualisierung als Exploration hat also das Ziel ein Gef\u00fchl f\u00fcr die Daten zu bekommen<\/li>\n<li>Achtung: \u00dcbersicht ungleich \u00fcbersichtlich <\/li>\n<li>Zusammenh\u00e4nge werden sichtbar, Entscheidungen f\u00fcr weitere Schritte k\u00f6nnen getroffen werden<\/li>\n<\/ul>\n<h3>Verifikation: Sind meine Schl\u00fcsse aus den Daten richtig? (00:21:16)<\/h3>\n<ul>\n<li>Aber es gibt noch mehr Ziele, als n\u00e4chstes soll es daher um die Verifikation gehen<\/li>\n<li>Beim Verifizieren, also \u00dcberpr\u00fcfen, geht es darum mittels Visualisierungen der vorliegenden Daten, eine Vermutung zu \u00fcberpr\u00fcfen<\/li>\n<li>Liegt man richtig mit seiner These? Oder widersprechen die Daten der Annahme?<\/li>\n<li>Ein Cluster ist Beispielsweise schon ein Modell, das auf einen Datensatz angewendet wird<\/li>\n<li>Auch der R-Wert (siehe <a href=\"https:\/\/www.datenleben.de\/index.php\/2020\/07\/25\/dl002-coronadaten\/\">Coronadaten-Folge<\/a>) ist ein Modell<\/li>\n<li>Modell kann auch ein neuronales Netz sein, das auf die Erkennung von Katzenbildern trainiert wird <\/li>\n<\/ul>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2021\/04\/013-Visualisierung_distance_frequency-2018-feb24.png\" title=\"Daten visualisieren: Fitted line\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2021\/04\/013-Visualisierung_distance_frequency-2018-feb24.png\" alt=\"Daten visualisieren: Fitted line\" title=\"Daten visualisieren: Fitted line\" \/><\/a><\/p>\n<ul>\n<li>Quelle: Helenas Doktorarbeit <a href=\"https:\/\/doi.org\/10.15488\/9983\">https:\/\/doi.org\/10.15488\/9983<\/a><\/li>\n<li>Der gr\u00fcnen Linie liegt ein Modell (nach physikalischen Gesetzm\u00e4\u00dfigkeiten) zu Grunde, die Punkte sind die Datenmessungen<\/li>\n<li>Dass beides zusammenpasst, zeigt, dass die Daten durch das Modell best\u00e4tigt werden<\/li>\n<li>Anschlie\u00dfend hat Helena noch eine zweite Pr\u00fcfung gemacht mit den Abst\u00e4nden der Datenpunkte zur Linie (<a href=\"https:\/\/de.wikipedia.org\/wiki\/St%C3%B6rgr%C3%B6%C3%9Fe_und_Residuum\">Residuen<\/a>) des Modells auf der Y-Achse<\/li>\n<li>Normalverteilung\/Gau\u00dfsche Glockenkurve angewendet, um zu sehen, ob die Abst\u00e4nde entsprechend der Normalverteilung verteilt sind (Zufallsereignisse im naturgesetzlichen Rahmen liegen)<\/li>\n<li>Das kann man in einem Q-Q-Plot auftragen<\/li>\n<\/ul>\n<h3>Was ist ein Q-Q-Plot? (00:29:50)<\/h3>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2021\/04\/013-Visualisierung_qqplot.png\" title=\"Daten visualisieren: Q-Q-Plot\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2021\/04\/013-Visualisierung_qqplot.png\" alt=\"Daten visualisieren: Fitted line\" title=\"Daten visualisieren: Q-Q-Plot\" \/><\/a><\/p>\n<ul>\n<li>Quantile sind bestimmte Punkte in einer Verteilungsfunktion<\/li>\n<li>Die Linie stellt die Normalverteilung dar und wenn die Daten korrekt dieser Verteilung folgen, m\u00fcssten sie auf der Linie liegen <\/li>\n<li>Theoretical: -1 bis 1 entspricht einer Standardabweichung, dass sich die Punkte also mittig bei Null sammeln ist schonmal gut<\/li>\n<li>Dass die Punkte aber nicht alle auf der Linie liegen, zeigt, dass das Modell noch nicht 100% passt <\/li>\n<li>So l\u00e4sst sich also das Modell nochmal pr\u00fcfen, Helenas Fazit: es sieht immer noch gut genug aus<\/li>\n<\/ul>\n<h3>Was ist die ROC-Curve? (00:34:46)<\/h3>\n<ul>\n<li>Die n\u00e4chste Form der Verifikation findet mittels der sogenannten <a href=\"https:\/\/de.wikipedia.org\/wiki\/ROC-Kurve\">ROC-Curve<\/a> statt<\/li>\n<li>Beispiel aus einem Paper zu Covid-19-Symptomen <a href=\"https:\/\/dx.doi.org\/10.1002%2F14651858.CD013665\">https:\/\/dx.doi.org\/10.1002%2F14651858.CD013665<\/a><\/li>\n<li>ROC-Curve ist ein Plot von Sensitivit\u00e4t vs. Spezifit\u00e4t, damit testet man einen Test (zum Beispiel auf Corona)<\/li>\n<\/ul>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2021\/04\/013-Visualisierung_roc-curve.png\" title=\"Daten visualisieren: ROC-Curve\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2021\/04\/013-Visualisierung_roc-curve.png\" alt=\"Daten visualisieren: ROC-Curve\" title=\"Daten visualisieren: ROC-Curve\" \/><\/a><\/p>\n<p>Quelle: Thomas Struyf et al.: Signs and symptoms to determine if a patient presenting in primary care or hospital outpatient settings has COVID\u201019 disease (<a href=\"https:\/\/dx.doi.org\/10.1002%2F14651858.CD013665\">https:\/\/dx.doi.org\/10.1002%2F14651858.CD013665<\/a>)<\/p>\n<h3>Exkurs: Wie funktionieren Sensitivit\u00e4t &amp; Spezifit\u00e4t? (00:35:27)<\/h3>\n<ul>\n<li>Sensitivit\u00e4t und Spezifit\u00e4t werden ja immer wieder im Zusammenhang mit Tests auf Corona genannt<\/li>\n<li>Empfehlung: Mailab hat dazu ein gutes Video: <a href=\"https:\/\/www.youtube.com\/watch?v=czzrPQIg54Q\">Corona im Herbst | \u00c4ndern Schnelltests alles?<\/a><\/li>\n<li>Wir versuchen das hier mal in kurz und knapp darzustellen:<\/li>\n<li>Sensitivit\u00e4t und Spezifit\u00e4t geben an, mit wie gut ein Test ein korrektes Ergebnis anzeigen kann<\/li>\n<li>Sensitivit\u00e4t: Je sensitiver ein Test ist, desto h\u00e4ufiger wird ein positives Ereignis auch als positiv angezeigt<\/li>\n<li>Spezifit\u00e4t: Je spezifischer ein Test ist, desto h\u00e4ufiger wird ein negatives Ereignis auch als negativ angezeigt<\/li>\n<li>Diese Unterscheidung ist wichtig, weil daraus unterschiedliche Konsequenzen resultieren k\u00f6nnen.<\/li>\n<li>Ein falsch-positiver Schnelltest auf Covid-19 w\u00e4re f\u00fcr mich individuell bl\u00f6d (Quarant\u00e4ne etc.), w\u00e4re er falsch-negativ, w\u00e4re das f\u00fcr alle schlimm, die ich anstecke, weil ich denke ich sei gesund<\/li>\n<li>Beim Antik\u00f6rpertest ist das umgekehrt: bei einem falsch-negativen Test verhalte ich mich weiterhin vorsichtig, ist der Test falsch-positiv, k\u00f6nnte ich vielleicht unvorsichtiger sein, weil ich mich immun glaube und mich infizieren<\/li>\n<li>Aber das sagt nur etwas \u00fcber den Test aus, nicht \u00fcber das individuelle Risiko, wie der Test ausf\u00e4llt<\/li>\n<li>Wer sich damit befassen m\u00f6chte, wie das individuelle Testergebnis eines Schnelltests zu verstehen ist, kann sich mal die Seite <a href=\"https:\/\/schnelltestrechner.de\/\">SchnellTestRechner.de<\/a> angucken (Vorschau\/Test-Version)<\/li>\n<li>Wie gut Tests sind, kann man sich mit der genannten ROC-Kurve visualisieren lassen<\/li>\n<\/ul>\n<h3>Wie wird die ROC-Curve interpretiert und erzeugt? (00:39:57)<\/h3>\n<ul>\n<li>Hier sieht man eine Plot f\u00fcr die Symptome Riech- und Geschmacksverlust <\/li>\n<li>Besonderheit des Plots: die X-Achse f\u00e4ngt bei 1 an und geht bis 0, die Y-Achse f\u00e4ngt hingegen bei 0 an und geht bis 1<\/li>\n<li>Perfekt (100% zutreffend) w\u00e4re ein Test, wenn so das Ergebnis auf X- und Y-Achse bei 1 l\u00e4ge, was sehr unwahrscheinlich ist, aus verschiedenen Gr\u00fcnden<\/li>\n<li>Um einen Test beurteilen zu k\u00f6nnen, m\u00fcssen Kriterien definiert werden<\/li>\n<li>Maschinelles Lernen: das neuronale Netz sagt eine Zahl zwischen 0 und 1, die sagt wie sicher das Netz sich ist ob eine Bestimmte Klassifikation zutriff (Also 0: es ist keine Katze, 1: es ist sicher eine Katze)<\/li>\n<li>Es gibt den Entscheidungswert\/Schwellwert (threshold): z.B. 0.9, dann werden Katzen erkannt<\/li>\n<li>Sollen alle erkannt werden, muss der Wert vielleicht noch gesenkt werden, daf\u00fcr geht aber auch die Spezifit\u00e4t runter, weil auch Nicht-Katzen leichter \u00fcber den Schwellwert kommen (falsch-positive)<\/li>\n<li>Hei\u00dft also, der Schwellwert darf nicht beliebig niedrig werden, weil dann die Aussagekraft schwindet<\/li>\n<li>Fazit: M\u00f6chte man seine Daten oder Modelle verifzieren, muss man wissen, mit welchen Plots das m\u00f6glich ist, um auf das Ergebnis zu kommen, das hilfreich ist<\/li>\n<li>Verifikation ist ein sehr wichtiges Feld f\u00fcr Data Science<\/li>\n<\/ul>\n<h3>Kommunikation: Wie vermittel ich meine Daten? (00:50:14)<\/h3>\n<ul>\n<li>Kommunikation von Daten, auch mittels Grafiken, begegnet uns fast \u00fcberall<\/li>\n<li>Beispiel: Neu-Infizierte mit Covid-19 t\u00e4glich in der Tagesschau<\/li>\n<li>Hier geht es um die Frage, wie Daten vermittelt werden, ob an Auftraggeber, an die Politik oder einfach an interessierte Menschen <\/li>\n<li>Welche Daten werden kommuniziert? Rohdaten (Anzahl an Neuinfektionen) vs. modellierte Daten (Wahlumfragen)<\/li>\n<li>Bei Wahlumfragen werden nicht einfach nur 1000 Menschen befragt und die tats\u00e4chliche Prozentzahl ausgegeben<\/li>\n<li>Es werden Korrekturfaktoren einbezogen, weil man wei\u00df, dass bestimmte W\u00e4hler*innengruppen schlechter erreicht werden oder auch ihre tats\u00e4chliche Pr\u00e4ferenz verbergen<\/li>\n<li>Man muss sich fragen: F\u00fcr wen kommuniziere ich Daten? <\/li>\n<\/ul>\n<h3>Welche Fallstricke gibt es in der Kommunikation von Daten?<\/h3>\n<ul>\n<li>Die Achsenbeschriftung kann unleserlich oder irref\u00fchrend sein<\/li>\n<li><a href=\"http:\/\/www.cookbook-r.com\/Graphs\/Colors_(ggplot2)\/\">Farbpalette<\/a> ist nicht barrierearm ausgew\u00e4hlt (Rot-Gr\u00fcn-Blindheit z.B.), zu viele und \u00e4hnliche Farben<\/li>\n<li>Bei Tortendiagrammen sind \u00e4hnlich Gro\u00dfe Tortenst\u00fccke oft schwer auseinander zu halten<\/li>\n<li><a href=\"https:\/\/twitter.com\/pkbrln\/status\/1316446418924638213\">Achsenbeschriftung irref\u00fchrend<\/a>: Skala f\u00fcr Patient*innen K\u00f6lner Krankenh\u00e4user startet bei -50<\/li>\n<li>Kann auch zu Verschleierungen f\u00fchren, manipulierte Abst\u00e4nde wirken auf Betrachter*innen anders<\/li>\n<li>Frage: Welche Aussage soll getroffen werden, welches Ziel hat die Grafik?<\/li>\n<li>Manipulation, visuelle Darstellung weicht von schriftlichen Werten ab: <a href=\"https:\/\/twitter.com\/ChristianHelms\/status\/1376059545185878017\">CDU 25% vs. Gr\u00fcne 23%<\/a><\/li>\n<\/ul>\n<h3>Fazit (01:00:54)<\/h3>\n<ul>\n<li>Lasst euch nicht manipulieren, achtet auf bestimmte Dinge bei grafischen Darstellungen!<\/li>\n<li>Weiteres Beispiel Achsenbeschriftungen: In der Physik werden h\u00e4ufiger zwei verschiedene Datens\u00e4tze in eine Grafik geplottet (X-Achse mit zwei Y-Achsen)<\/li>\n<li>Werden Daten zusammengebracht, die \u00fcberhaupt keine Aussagekraft haben zusammen?<\/li>\n<li>Gerade Kommunikation mit Visualisierungen ist ein sehr komplexes Thema<\/li>\n<li>Falls euch etwas einf\u00e4llt (Datens\u00e4tze, bestimmte Arten von Visualisierungen) fragt nach, dann machen wir mehr Folgen dazu<\/li>\n<li>Z.B.: Woher wei\u00df ich, welche Darstellungsform sich f\u00fcr meine Datens\u00e4tze eignet?<\/li>\n<\/ul>\n<h3>N\u00e4chste Folge: am 22.05.2021 (01:03:13)<\/h3>\n<ul>\n<li>Wir haben verschiedene Dinge in Planung, wissen aber noch nicht genau, welches Thema es wird<\/li>\n<li>Auf Twitter werden wir es in jedem Fall erw\u00e4hnen, wer es also vorher wissen will, folge uns (;<\/li>\n<\/ul>\n<h3>Call to Action (01:03:36)<\/h3>\n<ul>\n<li>Wenn ihr uns weiter h\u00f6ren m\u00f6chtet, folgt uns auf Twitter unter <a href=\"https:\/\/twitter.com\/datenleben\">@datenleben<\/a><\/li>\n<li>Oder besucht unsere Webseite: <a href=\"https:\/\/www.datenleben.de\/\">www.datenleben.de<\/a><\/li>\n<li>Hinterlasst uns gerne Feedback, wir w\u00fcrden uns dar\u00fcber sehr freuen<\/li>\n<li>Habt ihr Fragen oder Themen, die euch interessieren? Dann schreibt uns!<\/li>\n<\/ul>\n<h3>Outro (01:04:09)<\/h3>\n<h3>Schlagworte zur Folge<\/h3>\n<p>Datenvisualisierung, Datenanalyse, Daten visualisieren, Visualisierung, ROC-Curve, Q-Q-Plot, Matrixplot, Clustering, Clustererkennung, Datenkommunikation<\/p>\n<h3>Quellen<\/h3>\n<ul>\n<li><a href=\"https:\/\/www.datenleben.de\/index.php\/2020\/09\/26\/dl005-wetterprojekt\/\">datenleben: dl005 wetterprojekt<\/a><\/li>\n<li><a href=\"https:\/\/www.dw.com\/de\/wo-infiziert-man-sich-mit-dem-coronavirus\/a-55435876\">DW: Wo infiziert man sich mit dem Coronavirus?<\/a><\/li>\n<li><a href=\"http:\/\/rischanlab.github.io\/Kmeans.html\">Rischan Mafrur: K means Clustering in R example Iris Data<\/a><\/li>\n<li><a href=\"https:\/\/www.datenleben.de\/index.php\/2020\/07\/25\/dl002-coronadaten\/\">datenleben: dl002 coronadaten<\/a>)<\/li>\n<li><a href=\"https:\/\/doi.org\/10.15488\/9983\">Helena Schmidt: Yukawa force spectroscopy to search for violations of Newton\u2019s law of gravity below 1 \u00b5m distances.<\/a><\/li>\n<li><a href=\"https:\/\/de.wikipedia.org\/wiki\/St%C3%B6rgr%C3%B6%C3%9Fe_und_Residuum\">Wikipedia: Residuen<\/a><\/li>\n<li><a href=\"https:\/\/de.wikipedia.org\/wiki\/ROC-Kurve\">Wikipedia: ROC-Kurve<\/a><\/li>\n<li><a href=\"https:\/\/dx.doi.org\/10.1002%2F14651858.CD013665\">Thomas Struyf et al.: Signs and symptoms to determine if a patient presenting in primary care or hospital outpatient settings has COVID\u201019 disease<\/a><\/li>\n<li><a href=\"https:\/\/www.youtube.com\/watch?v=czzrPQIg54Q\">YouTube, maiLab: Corona im Herbst | \u00c4ndern Schnelltests alles?<\/a><\/li>\n<li><a href=\"http:\/\/www.cookbook-r.com\/Graphs\/Colors_(ggplot2)\/\">Cookbook R: Colors (ggplot2)<\/a><\/li>\n<li><a href=\"https:\/\/twitter.com\/pkbrln\/status\/1316446418924638213\">Twitter, @pkbrin: &quot;Kann mir @ARD_Presse erkl\u00e4ren, wer so ein Diagramm erstellt? Und warum?&quot;<\/a><\/li>\n<li><a href=\"https:\/\/twitter.com\/ChristianHelms\/status\/1376059545185878017\">Twitter, @ChristianHelms: &quot;Was muss einem die D\u00fcse gehen, bevor man eine derart manipulative Grafik bastelt?&quot;<\/a><\/li>\n<\/ul>\n<h3>Weiterf\u00fchrende Links<\/h3>\n<ul>\n<li><a href=\"https:\/\/www.youtube.com\/watch?v=M0VpTjZL57U\">YouTube, maiLab: Wie wir uns mit Zahlen manipulieren lassen<\/a><\/li>\n<li><a href=\"https:\/\/schnelltestrechner.de\/\">https:\/\/schnelltestrechner.de\/<\/a><\/li>\n<\/ul>\n<p>3il17tr7kxefUeJ737w15oQhI3sfn6y4xl235go<\/p>\n","protected":false},"author":2,"featured_media":389,"comment_status":"open","ping_status":"open","template":"","meta":{"footnotes":""},"tags":[],"class_list":["post-393","podcast","type-podcast","status-publish","has-post-thumbnail","hentry","post"],"_links":{"self":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/393","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes"}],"about":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/types\/podcast"}],"author":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/comments?post=393"}],"version-history":[{"count":9,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/393\/revisions"}],"predecessor-version":[{"id":407,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/393\/revisions\/407"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/media\/389"}],"wp:attachment":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/media?parent=393"}],"wp:term":[{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/tags?post=393"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}