{"id":728,"date":"2023-03-25T12:00:06","date_gmt":"2023-03-25T11:00:06","guid":{"rendered":"podlove-2023-03-08t10:47:13+00:00-cee50cc54f48a45"},"modified":"2023-03-24T14:29:40","modified_gmt":"2023-03-24T13:29:40","slug":"dl036-graphentypen-2","status":"publish","type":"podcast","link":"https:\/\/www.datenleben.de\/index.php\/2023\/03\/25\/dl036-graphentypen-2\/","title":{"rendered":"dl036: graphentypen 2 \u2013 histogramme, boxplots, etc."},"content":{"rendered":"\n\t\t\n            <div class=\"podlove-web-player intrinsic-ignore podlove-web-player-loading\" id=\"player-6a14b7f816ad2\"><root data-test=\"player--xl\" style=\"max-width:950px;min-width:260px;\">\n  <div class=\"tablet:px-6 tablet:pt-6 mobile:px-4 mobile:pt-4 flex flex-col\">\n    <div class=\"flex-col items-center mobile:flex tablet:hidden\">\n      <show-title class=\"text-sm\"><\/show-title>\n      <episode-title class=\"text-base mb-2\"><\/episode-title>\n      <subscribe-button class=\"mb-4 mobile:flex tablet:hidden\"><\/subscribe-button>\n      <poster class=\"rounded-sm w-48 shadow overflow-hidden\"><\/poster>\n      <divider class=\"w-full my-6\"><\/divider>\n    <\/div>\n\n    <div class=\"tablet:flex flex-grow\">\n      <div class=\"w-64 mobile:hidden tablet:block tablet:mr-6\">\n        <poster class=\"rounded-sm shadow overflow-hidden\"><\/poster>\n      <\/div>\n      <div class=\"w-full\">\n        <div class=\"hidden tablet:block\">\n          <show-title class=\"text-base\"><\/show-title>\n          <episode-title class=\"text-xl desktop:text-2xl\"><\/episode-title>\n          <divider class=\"w-full my-4\"><\/divider>\n        <\/div>\n        <div class=\"flex items-center justify-between\">\n          <div class=\"block\">\n            <play-state on=\"active\">\n              <speed-control class=\"flex items-center\"><\/speed-control>\n            <\/play-state>\n          <\/div>\n\n          <div class=\"flex\">\n            <play-state on=\"active\">\n              <chapter-previous class=\"mx-2 block\"><\/chapter-previous>\n            <\/play-state>\n            <play-state on=\"active\">\n              <step-backward class=\"mx-2 block\"><\/step-backward>\n            <\/play-state>\n\n            <play-button class=\"mx-2 block\" :label=\"$t('PLAYER.PLAY_EPISODE')\"><\/play-button>\n\n            <play-state on=\"active\">\n              <step-forward class=\"mx-2 block\"><\/step-forward>\n            <\/play-state>\n            <play-state on=\"active\">\n              <chapter-next class=\"mx-2 block\"><\/chapter-next>\n            <\/play-state>\n          <\/div>\n\n          <div class=\"block\">\n            <play-state on=\"active\">\n              <volume-control class=\"flex items-center\"><\/volume-control>\n            <\/play-state>\n          <\/div>\n        <\/div>\n        <div class=\"flex w-full\">\n          <progress-bar><\/progress-bar>\n        <\/div>\n        <div class=\"flex w-full -mt-2\">\n          <div class=\"w-3\/12 text-left\">\n            <timer-current class=\"text-sm\"><\/timer-current>\n          <\/div>\n          <div class=\"w-6\/12 text-center truncate\">\n            <play-state on=\"active\">\n              <current-chapter class=\"text-sm\"><\/current-chapter>\n            <\/play-state>\n          <\/div>\n          <div class=\"w-3\/12 text-right\">\n            <timer-duration class=\"text-sm\"><\/timer-duration>\n          <\/div>\n        <\/div>\n      <\/div>\n    <\/div>\n    <divider class=\"w-full mt-6 mb-3\"><\/divider>\n    <div class=\"flex justify-between\">\n      <div class=\"flex mobile:w-full tablet:w-3\/12 desktop:w-3\/12 justify-between\">\n        <tab-trigger tab=\"chapters\">\n          <icon type=\"chapter\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"transcripts\">\n          <icon type=\"transcripts\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"files\">\n          <icon type=\"download\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"playlist\">\n          <icon type=\"playlist\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"share\">\n          <icon type=\"share\"><\/icon>\n        <\/tab-trigger>\n      <\/div>\n      <subscribe-button class=\"mt-1 mobile:hidden tablet:flex\"><\/subscribe-button>\n    <\/div>\n  <\/div>\n  <div class=\"w-full relative overflow-hidden\">\n    <tab name=\"chapters\">\n      <tab-chapters><\/tab-chapters>\n    <\/tab>\n    <tab name=\"transcripts\">\n      <tab-transcripts><\/tab-transcripts>\n    <\/tab>\n    <tab name=\"files\">\n      <tab-files><\/tab-files>\n    <\/tab>\n    <tab name=\"playlist\">\n      <tab-playlist><\/tab-playlist>\n    <\/tab>\n    <tab name=\"share\">\n      <tab-share><\/tab-share>\n    <\/tab>\n    <tab-overflow><\/tab-overflow>\n  <\/div>\n  <error><\/error>\n<\/root>\n<\/div>\n            <script>\n              document.addEventListener(\"DOMContentLoaded\", function() {\n                var player = document.getElementById(\"player-6a14b7f816ad2\");\n                podlovePlayerCache.add([{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/wp-json\\\/podlove-web-player\\\/shortcode\\\/publisher\\\/728\",\"data\":{\"version\":5,\"show\":{\"title\":\"datenleben\",\"subtitle\":\"der podcast \\u00fcber data science\",\"summary\":\"Was ist Data Science? Was bedeuten die Daten f\\u00fcr unser Leben? Woher kommen sie und wozu werden sie benutzt?\\r\\nDas sind alles Fragen, mit denen wir uns auseinander setzen werden.\\r\\nWer schon immer mehr \\u00fcber Daten und deren Effekt auf unser Leben wissen wollte, ist hier genau richtig.\",\"poster\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/image\\\/687474703a2f2f7777772e646174656e6c6562656e2e64652f77702d636f6e74656e742f75706c6f6164732f323032302f30362f636f7665722e706e67\\\/500\\\/0\\\/0\\\/datenleben\",\"link\":\"https:\\\/\\\/www.datenleben.de\"},\"title\":\"dl036: graphentypen 2 \\u2013 histogramme, boxplots, etc.\",\"subtitle\":\"Wie lassen sich Daten von eindimensionalen Verteilungen darstellen?\",\"summary\":\"In unserer Reihe zu Graphentypen geht es um verschiedene Daten und welche Arten der Darstellung es f\\u00fcr diese gibt. Im ersten Teil (dl029: graphentypen \\u2013 skalen und zeiger) ging es um die kleinste Einheit: um eindimensionalen Daten. Dieses Mal wird es ein bisschen komplexer. Wir reden \\u00fcber Graphentypen, mit denen sich eindimensionale Verteilungen abbilden lassen. Es geht um Histogramme, Boxplots, Violinenplots und kumulierte H\\u00e4ufigkeiten. Welche Darstellung eignet sich f\\u00fcr welchen Zweck? Worauf kann man bei der Auswahl des Plots achten? Und \\u00fcberhaupt: Womit erstellt mensch eigentlich modern aussehende Plots?\",\"publicationDate\":\"2023-03-25T12:00:06+01:00\",\"duration\":\"01:04:02.168\",\"poster\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/image\\\/68747470733a2f2f7777772e646174656e6c6562656e2e64652f77702d636f6e74656e742f75706c6f6164732f323032332f30332f3033365f436f7665722e706e67\\\/500\\\/0\\\/0\\\/dl036-graphentypen-2-histogramme-boxplots-etc\",\"link\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/2023\\\/03\\\/25\\\/dl036-graphentypen-2\\\/\",\"chapters\":[{\"start\":\"00:00:00.000\",\"title\":\"Intro\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:00:18.452\",\"title\":\"Thema des Podcasts\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:00:39.201\",\"title\":\"Thema der Folge\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:02:17.300\",\"title\":\"Warum ist dieses Thema wichtig?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:02:29.427\",\"title\":\"Einspieler: Daten und ihre Dimensionen\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:06:28.979\",\"title\":\"Worum geht es, was sind die Ausgangspunkte?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:10:30.442\",\"title\":\"Was sind Histogramme?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:28:53.397\",\"title\":\"Was sind Boxplots?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:41:18.696\",\"title\":\"Was sind Violinenplots?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:45:45.675\",\"title\":\"Was ist kumulierte H\\u00e4ufigkeit?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:56:14.137\",\"title\":\"Wie am besten Plots mit R erstellen?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:59:18.261\",\"title\":\"Fazit\",\"href\":\"\",\"image\":\"\"},{\"start\":\"01:02:28.050\",\"title\":\"N\\u00e4chste Folge: \\u00dcberraschungsfolge am 22. April 2023\",\"href\":\"\",\"image\":\"\"},{\"start\":\"01:02:55.568\",\"title\":\"Call to Action\",\"href\":\"\",\"image\":\"\"},{\"start\":\"01:03:50.120\",\"title\":\"Outro\",\"href\":\"\",\"image\":\"\"}],\"audio\":[{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/file\\\/160\\\/s\\\/webplayer\\\/c\\\/website\\\/DL036-graphentypen-2.mp3\",\"size\":\"64191785\",\"title\":\"MP3 Audio (mp3)\",\"mimeType\":\"audio\\\/mpeg\"}],\"files\":[{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/file\\\/160\\\/s\\\/webplayer\\\/DL036-graphentypen-2.mp3\",\"size\":\"64191785\",\"title\":\"MP3 Audio\",\"mimeType\":\"audio\\\/mpeg\"}]}}, {\"url\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/wp-json\\\/podlove-web-player\\\/shortcode\\\/config\\\/default\\\/theme\\\/datenleben\",\"data\":{\"activeTab\":\"chapters\",\"subscribe-button\":null,\"share\":{\"channels\":[\"link\",\"facebook\",\"twitter\",\"whats-app\",\"linkedin\",\"pinterest\",\"xing\",\"mail\"],\"outlet\":\"https:\\\/\\\/www.datenleben.de\\\/wp-content\\\/plugins\\\/podlove-web-player\\\/web-player\\\/share.html\",\"sharePlaytime\":true},\"related-episodes\":{\"source\":\"disabled\",\"value\":null},\"version\":5,\"theme\":{\"tokens\":{\"brand\":\"#fff\",\"brandDark\":\"#fff\",\"brandDarkest\":\"#000\",\"brandLightest\":\"#8cc240\",\"shadeDark\":\"#807E7C\",\"shadeBase\":\"#807E7C\",\"contrast\":\"#000\",\"alt\":\"#8cc240\"},\"fonts\":{\"ci\":{\"name\":\"ci\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":800},\"regular\":{\"name\":\"regular\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":300},\"bold\":{\"name\":\"bold\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":700}}},\"base\":\"https:\\\/\\\/www.datenleben.de\\\/wp-content\\\/plugins\\\/podlove-web-player\\\/web-player\\\/\"}}]);\n                podlovePlayer(player, \"https:\/\/www.datenleben.de\/index.php\/wp-json\/podlove-web-player\/shortcode\/publisher\/728\", \"https:\/\/www.datenleben.de\/index.php\/wp-json\/podlove-web-player\/shortcode\/config\/default\/theme\/datenleben\").then(function() {\n                  player && player.classList.remove(\"podlove-web-player-loading\");\n                });\n              });\n            <\/script>\n            <style>\n              .podlove-web-player.podlove-web-player-loading {\n                opacity: 0;\n              }\n            <\/style>\n        \n\t\n\t\t\n<p>In unserer Reihe zu Graphentypen geht es um verschiedene Daten und welche Arten der Darstellung es f\u00fcr diese gibt. Im ersten Teil (dl029: graphentypen \u2013 skalen und zeiger) ging es um die kleinste Einheit: um eindimensionalen Daten. Dieses Mal wird es ein bisschen komplexer. Wir reden \u00fcber Graphentypen, mit denen sich eindimensionale Verteilungen abbilden lassen. Es geht um Histogramme, Boxplots, Violinenplots und kumulierte H\u00e4ufigkeiten. Welche Darstellung eignet sich f\u00fcr welchen Zweck? Worauf kann man bei der Auswahl des Plots achten? Und \u00fcberhaupt: Womit erstellt mensch eigentlich modern aussehende Plots?<\/p>\n<h3>Bilder zur Folge<\/h3>\n<h4>Histogramme<\/h4>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/histogramm1.png\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/histogramm1.png\" alt=\"\" \/><\/a><\/p>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/histogramm2.png\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/histogramm2.png\" alt=\"\" \/><\/a><\/p>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/histogramm3.png\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/histogramm3.png\" alt=\"\" \/><\/a><\/p>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/histogramm4.png\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/histogramm4.png\" alt=\"\" \/><\/a><\/p>\n<h4>Boxplots<\/h4>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/boxplot1.png\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/boxplot1.png\" alt=\"\" \/><\/a><\/p>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/boxplot2.png\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/boxplot2.png\" alt=\"\" \/><\/a><\/p>\n<h4>Violinenplot<\/h4>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/violinenplot1.png\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/violinenplot1.png\" alt=\"\" \/><\/a><\/p>\n<h4>Kumulierte H\u00e4ufigkeit<\/h4>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/kumuliertehaeufigkeit1.png\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/kumuliertehaeufigkeit1.png\" alt=\"\" \/><\/a><\/p>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/kumuliertehaeufigkeit2.png\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/kumuliertehaeufigkeit2.png\" alt=\"\" \/><\/a><\/p>\n<p><a href=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/kumuliertehaeufigkeit3.png\"><img decoding=\"async\" src=\"http:\/\/www.datenleben.de\/wp-content\/uploads\/2023\/03\/kumuliertehaeufigkeit3.png\" alt=\"\" \/><\/a><\/p>\n<h3>Links und Quellen<\/h3>\n<ul>\n<li>datenleben\n<ul>\n<li><a href=\"https:\/\/www.datenleben.de\/\">www.datenleben.de<\/a><\/li>\n<li>Social Media: Mastodon <a href=\"https:\/\/chaos.social\/@datenleben\">@datenleben@chaos.social<\/a> und Twitter <a href=\"https:\/\/twitter.com\/datenleben\">@datenleben<\/a><\/li>\n<\/ul>\n<\/li>\n<li>Erw\u00e4hnte datenleben-Folgen\n<ul>\n<li><a href=\"https:\/\/www.datenleben.de\/index.php\/2022\/09\/03\/dl029-graphentypen-skalen-und-zeiger\/\">dl029: graphentypen \u2013 skalen und zeiger<\/a><\/li>\n<li><a href=\"https:\/\/www.datenleben.de\/index.php\/2021\/10\/09\/dl019-standarddatensaetze\/\">dl019: standarddatens\u00e4tze<\/a><\/li>\n<li><a href=\"https:\/\/www.datenleben.de\/index.php\/2021\/04\/24\/dl013-daten-visualisieren\/\">dl013: datenvisualisierung<\/a><\/li>\n<\/ul>\n<\/li>\n<li>Die hier verwendeten Plots und der zugeh\u00f6rige Code\n<ul>\n<li><a href=\"https:\/\/www.datenleben.de\/index.php\/2023\/03\/23\/wie-erstelle-ich-histogramme-boxplots-und-violinenplots-in-r\">datenleben-blog: wie erstelle ich histogramme, boxplots und violinenplots in R?<\/a><\/li>\n<\/ul>\n<\/li>\n<li>Datensatz\n<ul>\n<li><a href=\"https:\/\/github.com\/allisonhorst\/palmerpenguins\">GitHub, Horst AM, Hill AP, Gorman KB (2020). palmerpenguins: Palmer Archipelago (Antarctica) penguin data. R package version 0.1.0.<\/a><\/li>\n<\/ul>\n<\/li>\n<li>R und Data Science\n<ul>\n<li><a href=\"https:\/\/www.tidyverse.org\/\">https:\/\/www.tidyverse.org\/<\/a><\/li>\n<li><a href=\"https:\/\/r4ds.hadley.nz\/\">Hadley Wickham, Garrett Grolemund: R for Data Science (2e)<\/a><\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<h3>Schlagworte zur Folge<\/h3>\n<p>Datenvisualisierung, Graphen, Daten, Dimensionen, Histogramm, Boxplot, Violinenplot, kummulierte H\u00e4ufigkeit<\/p>\n<h3>Intro (00:00:00)<\/h3>\n<h3>Thema des Podcasts (00:00:18)<\/h3>\n<p>Helena: Willkommen zur 36. Folge beim datenleben Podcast, dem Podcast \u00fcber Data Science. Wir sind Helena<\/p>\n<p>Janine: und Janine<\/p>\n<p>Helena: und m\u00f6chten euch die Welt der Daten n\u00e4her bringen. Was f\u00fcr Daten umgeben uns? Wie werden Daten f\u00fcr uns lesbar und was k\u00f6nnen wir aus ihnen lernen? Wer schon immer mehr dar\u00fcber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.<\/p>\n<h3>Thema der Folge (00:00:39)<\/h3>\n<p>Janine: Willkommen dieses Mal zu Teil 2 unserer Reihe zu Graphentypen. In dieser Reihe geht es darum, was es f\u00fcr Daten gibt und welche Arten der Darstellung es f\u00fcr diese Daten gibt. Im ersten Teil haben wir uns eine der kleinsten Einheiten rausgesucht gehabt, n\u00e4mlich die eindimensionalen Daten, und wie man sie darstellen kann, haben wir da besprochen, und auch wof\u00fcr das sinnvoll sein kann, sie darzustellen, weil im Wesentlichen war es manchmal einfach nur eine Zahl. Das war Folge 29, Graphentypen \u2013 Skalen und Zeiger. Wir bleiben noch mal bei den eindimensionalen Daten in dieser Folge, aber es wird ein bisschen komplexer. Es geht n\u00e4mlich um Graphentypen, mit denen sich eindimensionale Verteilungen abbilden lassen. Und daf\u00fcr hat Helena sich vier Optionen rausgesucht, die sie dann gleich eben n\u00e4her beschreiben wird. Das sind Boxplots, Violinen, Histogramme und kumulierte H\u00e4ufigkeiten. Klingt schon mal vielversprechend. Am Ende der letzten Folge hatte sie ja schon angeteasert und sozusagen ein bisschen gespoilert, um hier jetzt noch mehr Anglizismen in den Raum zu werfen, dass Boxplots etwas sind, mit denen man sich eingehender befassen muss, um sie \u00fcberhaupt zu verstehen, dann w\u00e4ren sie aber sehr n\u00fctzlich, w\u00e4hrend Histogramme hingegen deutlich intuitiver zu verstehen seien, aber daf\u00fcr auch leichter zu manipulieren. Ja, so viel dazu noch mal, ich bin schon gespannt, was da jetzt konkret hinter steckt, und gebe mir ansonsten heute vor allem M\u00fche, die richtigen Fragen zu stellen.<\/p>\n<h3>Warum ist das Thema wichtig? (00:02:17)<\/h3>\n<p>Helena: Ja, und warum finden wir das Thema wichtig f\u00fcr unseren Podcast? Nun, wie man mit Daten umgeht, ist das Kernthema von unserem Podcast, und darum besch\u00e4ftigen wir uns auch, wie man sie darstellen kann.<\/p>\n<h3>Einspieler: Daten und ihre Dimensionen (00:02:29)<\/h3>\n<p>Janine: Daten und ihre Dimensionen. Manche Menschen glauben, dass die Art, wie Kaffeesatz oder Tee sich in einer leeren Tasse auf dem Boden absetzen, einen Blick in die Zukunft erm\u00f6glicht. Egal, was dabei herauskommt, das Prophezeite klingt f\u00fcr die meisten Menschen heutzutage nicht sehr plausibel, und schlie\u00dflich gibt es ja die Wissenschaft, die ist schon viel weiter. Es gibt so viele Daten \u00fcber eigentlich alles, da k\u00f6nnen wir doch fast alle Ereignisse in unserem Realit\u00e4tssystem vorhersagen, sogar das Wetter oder wie Kometen durch das All fliegen. Aber trotzdem wissen wir noch gar nicht alles, obwohl wir es ja vielleicht k\u00f6nnten, es sind so viele Daten, da m\u00fcsste doch eigentlich sich alles mit erkl\u00e4ren lassen, oder? Allerdings machen viele Daten es nicht auch manchmal eher schwieriger zu verstehen, was sie einem aufzeigen k\u00f6nnten? Wenn wir auf die Masse an Daten gucken, die wir heutzutage sammeln, kann einem der Gedanke kommen, dass das nicht viel pr\u00e4ziser sein kann, als wenn jemand allen Kaffeesatz oder Tee auf einen gro\u00dfen Haufen gekippt hat und ein Schild davor stellt, auf dem steht, ich habe die Welt restlos untersucht und kann alles erkl\u00e4ren. Also, theoretisch zumindest, denn die Antworten m\u00fcssen ja da drinnen in diesem Haufen stecken. Nur irgendwer muss sie irgendwie da rausholen. F\u00fcr diese Menschen gibt es sogar einen Namen, die das machen, Data Scientists. Sie m\u00fcssen an diesen gro\u00dfen Haufen gehen und die Daten rausfiltern, die relevant sind. Dabei ist es oft sogar hilfreich, nicht nur weniger verschiedene Daten zu untersuchen, sondern auch weniger komplexe Daten auszuw\u00e4hlen. Die Frage von Data Scientists ist nicht, wie kann ich m\u00f6glichst viel auf einmal erkl\u00e4ren, sondern: Was ist der Kern meiner Frage und welche Daten brauche ich daf\u00fcr wirklich? Wenn ich wissen m\u00f6chte, wie viel Zeit ich am Handy verbringe pro Tag, dann nehme ich eine Messung vor. Sagen wir, immer zur gleichen Zeit an jedem Tag \u00fcber eine Reihe von Tagen. Messzeitpunkt 23 Uhr 59, 3 Stunden an diesem Tag, 4 Stunden an jenem Tag etc. Soweit erst einmal einfach, aber gleichzeitig bietet dieser Messzeitpunkt viel mehr Daten. Wochentag, Arbeitstag oder Wochenende, das w\u00e4ren theoretisch Faktoren, die mein Verhalten beeinflussen. Dann m\u00fcsste ich aber viel mehr und viel genauer erfassen. Aber brauche ich das? Eigentlich m\u00f6chte ich nur wissen, was in etwa meine Handynutzung pro Tag ist. F\u00fcr eine grobe Sch\u00e4tzung meines Verhaltens w\u00fcrde mir das reichen. Ich k\u00fcrze also alle \u00fcberfl\u00fcssigen Dimensionen raus und konzentriere mich auf genau einen Wert \u00fcber einen bestimmten Zeitraum. Damit kann ich eine eindimensionale Verteilung erstellen. Die konkrete Frage lautet: Wie viele Stunden bin ich pro Tag am Handy \u00fcber 36 Tage hinweg? Das hei\u00dft, ich werde 36 Messergebnisse erfassen und analysieren. Daraus kann ich dann zum einen die durchschnittliche Nutzungsdauer ausrechnen, also die erfasste Stundenzahl insgesamt durch 36 geteilt, zum anderen aber auch die mittlere Nutzungsdauer. Das w\u00e4re der Median, 50% der Werte liegen \u00fcber und 50% der Werte liegen unter dem Median. Diese beiden Betrachtungen k\u00f6nnen mir dabei helfen, ein gutes Gef\u00fchl daf\u00fcr zu erhalten, wie viel Zeit ich am Handy verbringe und damit kann ich mir \u00fcberlegen, ob das Ergebnis okay f\u00fcr mich ist oder ob ich etwas optimieren m\u00f6chte. Wenn es okay ist, habe ich einen guten Eindruck und eine Entscheidung gewonnen, es kann so bleiben, wie es ist. Wenn ich etwas \u00e4ndern m\u00f6chte, wei\u00df ich aber auch, dass es sich lohnen k\u00f6nnte, mir die Daten genauer anzusehen und vielleicht weitere Dimensionen zu betrachten, meine Fragestellung zu konkretisieren und damit vielleicht auf den Grund zu kommen, warum an welchen Tagen ich wie viel das Handy nutze und wie ich das eventuell anders machen kann.<\/p>\n<h3>Worum geht es, was sind die Ausgangspunkte? (00:06:29)<\/h3>\n<p>Helena: Ja, diesmal geht es um Diagramme f\u00fcr eindimensional verteilte Daten, also das hei\u00dft man hat nicht nur einen Datenpunkt zu einem Zeitpunkt, sondern ganz viele davon und wie man das dann darstellen kann, um ein Gef\u00fchl daf\u00fcr zu bekommen, das ist das heutige Thema. Beim letzten Mal ging es ja um einen konkreten Datenpunkt zu einem bestimmten Zeitpunkt, wenn man drauf guckt und jetzt geht es darum, wenn man ganz viele davon hintereinander aufgeschrieben hat, was man dann damit tun kann, also um die Verteilung der Daten.<\/p>\n<p>Janine: Wir hatten ja beim letzten Mal allt\u00e4gliche Beispiele mit reingebracht, das war zum Beispiel jetzt der Wasserkocher, wo drauf angezeigt wird, wie viel Wasser drin ist oder die K\u00fcchenwaage, die in dem Moment des Abwiegens anzeigt, wie viel etwas wiegt, das ich gerade benutzen m\u00f6chte, oder eben die Luftpumpe, die anzeigen kann, wie gro\u00df der Luftdruck im Reifen schon ist, beziehungsweise wie niedrig. Gibt es auch so pr\u00e4gnante Beispiele f\u00fcr eindimensionale Verteilung?<\/p>\n<p>Helena: Ja, also eine M\u00f6glichkeit w\u00e4re, du kannst jedes Mal mitschreiben, wie viel Wasser du im Wasserkocher hast und wei\u00dft dann immer, ja, wie viel benutzt du denn tendenziell. Oder auch etwas, was mir mein Handy zum Beispiel einmal die Woche dann f\u00fcr die vergangene Woche mitteilt ist, wie viele Stunden am Tag benutze ich das Handy und das wird dadurch eine Verteilung, dass ich ganz viele Tage habe, die ich dann vergleichen kann. Oder auch, wie gro\u00df sind Menschen, ich habe irgendwie einen Raum voller Menschen und dann sehe ich, manche sind gr\u00f6\u00dfer, manchmal kleiner und dann ist eben die Gr\u00f6\u00dfe eben diese eindimensionale Verteilung, gerade wenn mir egal ist, welche Menschen genau jetzt wie gro\u00df sind, sondern es nur darauf ankommt, ja, dass die Gr\u00f6\u00dfe unterschiedlich verteilt ist. Und ein anderes Beispiel w\u00e4re zum Beispiel, wie viel Energie ich pro Tag verbrauche. Daf\u00fcr gibt es ja auch so Anzeigen bei mir in der Wohnung f\u00fcr Gas und Strom und da kann ich dann ablesen, wie der t\u00e4gliche Energieverbrauch war, beziehungsweise kann ich zu dem Zeitpunkt ablesen, wie der aktuelle Stand ist vom Z\u00e4hler und daraus dann wieder den Energieverbrauch pro Tag zur\u00fcckrechnen.<\/p>\n<p>Janine: Klingt auf jeden Fall direkt schon mal praktisch anwendbar. Ich dachte mir, vielleicht kann es helfen, wenn ich versuche, noch mal einen kleinen \u00dcberblick \u00fcber das zu geben, was wir so in der letzten Folge angesprochen haben. Ich habe vor allem aus der Folge mitgenommen, dass eindimensionale Daten mich eben \u00fcber einen aktuellen Zustand informieren k\u00f6nnen. Im Alltag ist es halt meist eine einzige Anzeige, aber diese Daten sind eben nicht gleich zu sitzen mit Informationen, die ich daraus ablese. Das Thema hatten wir beim letzten Mal auch, den Unterschied zwischen Daten und Informationen, weil Informationen sind eigentlich interpretierte Daten. Ob 0,7 Liter f\u00fcr zwei Tassen reicht, muss sich eben selbst entscheiden. Deswegen hatten wir gesagt, man muss also auch den Kontext kennen, um die Daten benutzen zu k\u00f6nnen. Beim Zeigerdiagramm gab es zum Beispiel, das hatte Helena ganz gut beschrieben, die M\u00f6glichkeit, den Kontext gleich mitzuliefern, damit n\u00e4mlich niemand auswendig wissen muss, wann der Reifen gut bef\u00fcllt ist, zeigt das Diagramm selbst schon einen Messbereich an von bis, in dem der Zeiger idealerweise liegen sollte, d.h. wenn ich den Luftdruck meines Reifens messe, kann ich \u00fcberpr\u00fcfen, wann er in diesem Bereich ist, w\u00e4hrend ich Luft aufpumpe. Das ist auch der letzte wichtige Punkt, den ich aus der Folge mitgenommen habe, denn f\u00fcr welche Darstellung man sich entscheidet, ist auch immer kontextabh\u00e4ngig, d.h. ich kann \u00fcber die Darstellung auch Kontext mitliefern und damit bereits aus den Daten Informationen machen. Das wird dann vielleicht interessant, wenn wir dar\u00fcber reden, je nachdem, wie ausf\u00fchrlich das wird, inwiefern man mit Diagrammen Darstellungen von Daten manipulieren kann. Kommen wir dann mal zur gro\u00dfen Frage dieser Folge. Was habe ich denn bei eindimensionalen Verteilungen f\u00fcr Optionen zur Darstellung und langfristig schon mal die Frage mit drangehangen, warum ausgerechnet die?<\/p>\n<h3>Was sind Histogramme? (00:10:30)<\/h3>\n<p>Helena: Ja, da hast du ja am Anfang schon ein paar genannt und anfangen w\u00fcrde ich mit den Histogrammen. Histogramme sind Balkendiagramme, die die H\u00e4ufigkeit darstellen. Ein Beispiel, weil wir das alle aus unserem Alltag kennen, ist die Darstellung von Wahlergebnissen und zwar werden die oft als Balken dargestellt. Die Daten selber liegen quasi in Form von Stimmzetteln vor und in diesem Stimmzettel hat man dann eben eine Liste von Parteien und eine Partei, die angekreuzt wurde, ist dann eben ein Datenpunkt und wenn man ganz viele Stimmzettel hat, hat man eine Verteilung von verschiedenen Stimmzetteln. Es ist v\u00f6llig egal, in welcher Reihenfolge die Stimmzettel gez\u00e4hlt werden, weil es nur am Ende auf die H\u00e4ufigkeit der Stimmverteilung angeht und so ein Histogramm zeigt dann eben an, wie h\u00e4ufig etwas gew\u00e4hlt wurde. Im Falle von Wahlen wird meistens das Ganze dann noch in den relativen Stimmanteil umgerechnet also man teilt es noch durch die Gesamtzahl aller Stimmen, um eine Prozentzahl anzuzeigen statt der Gesamtstimmenanzahl, aber im Grunde genommen ist es eben das Gleiche. So, die eine Dimension, die dargestellt wird, besteht eben aus verschiedenen m\u00f6glichen Auspr\u00e4gungen in Form von Parteien, die man angekreuzt haben kann und dargestellt wird es dann eben in Form von Balken, die dann eine Prozentzahl anzeigen bzw. man k\u00f6nnte auch die Gesamtstimmenzahl dran schreiben.<\/p>\n<p>Janine: Nur, dass die Balken dann wahrscheinlich extrem viel h\u00f6her w\u00e4ren.<\/p>\n<p>Helena: Naja... es ist alles eine Darstellung...<\/p>\n<p>Janine: Man kann die Skala, okay.<\/p>\n<p>Helena: Also die H\u00f6he kann man jetzt skalieren.<\/p>\n<p>Helena: Genau, und in diesem Fall ist in dieser einen Dimension... sind die verschiedenen Parteien, also letztlich sind das Kategorien von Stimmen und meistens gibt es ja dann noch sonstige, wo man halt alle anderen so zusammenfasst, das hei\u00dft auch da passieren noch andere Zusammenfassungen, aber da sind die Kategorien schon vorgegeben f\u00fcr die Balken, die man darstellen m\u00f6chte. Eine andere M\u00f6glichkeit, Histogramme darzustellen, ist, wenn man jetzt nicht irgendwie Kategorien hat, die eine bestimmte H\u00e4ufigkeit haben, sondern z.B. die Gr\u00f6\u00dfenverteilung von Menschen oder z.B. die Flossenl\u00e4nge von Pinguinen. Und dann hat man irgendwie ein paar hundert Pinguine und misst einmal, wie lang sind deren Flossen und auch da kommt es einem jetzt nicht darauf an, welcher genauer Pinguin man da ausgemessen hat und dann kann man dann f\u00fcr jede Flossenl\u00e4nge so einen Balken zeichnen und so eine Flossenl\u00e4nge ist aber kontinuierlich, das hei\u00dft, das kann irgendwie 19 cm lang sein, das kann aber auch 22 cm lang sein und alle Werte dazwischen sind auch m\u00f6glich, das hei\u00dft, um so einen Balken zu zeichnen, muss man die zusammenfassen, also z.B. 1 cm Schritte oder auch 2 cm Schritte oder wenn man so ein Histogramm zeichnet, kann man auch sagen, ja, ich m\u00f6chte am Ende 30 Balken haben, dann kann man ausrechnen, ja, wie gro\u00df m\u00fcssen die denn sein, wenn alle Balken gleich dick sein sollen und da hat man dann eben die Auswahl zwischen verschiedenen Balkenbreiten und entsprechend kann man dann auch ein bisschen Einfluss darauf nehmen, wenn man m\u00f6chte, wie genau am Ende das Ergebnis aussieht, das ist der Teil, den ich mit manipulieren meine, dass man dadurch, dass man die Position der Balken in diesem Fall selber bestimmen kann, k\u00f6nnte man da auch einfach ein bestimmtes Ergebnis mit erzeugen, falls die Daten das \u00fcberhaupt hergeben, ich meine, auch da m\u00fcssen dann immer noch die Daten dazu passen, aber dann k\u00f6nnten komplett reale Daten immer noch eine komische Interpretation erlauben, das ist halt so das eine Risiko hier. Genau. Ja, zu den Pinguinen, das haben wir n\u00e4mlich genau auch als Beispiel, das ihr auch in den Schaunals euch angucken k\u00f6nnt, und die Flossenl\u00e4ngen von Pinguinen haben wir einmal dargestellt. Janine, magst du einmal beschreiben, was du siehst?<\/p>\n<p>Janine: Ja, ich gebe mir die gr\u00f6\u00dfte M\u00fche. Vor mir ist ein monochromes Histogramm, also die Balken sind grau und der Hintergrund ist auch leicht gr\u00e4ulich, es hat auf der x-Achse, das ist die, die horizontal verl\u00e4uft, da steht Flipper-Length, also die Flossenl\u00e4nge der Pinguine, und auf der y-Achse, die eben senkrecht nach oben geht, da ist die Anzahl angegeben, Count, von 0 bis 30, und die Flossenl\u00e4nge ist irgendwie in drei Schritten angegeben, 180, 200 und 220, und ja, da drin sind relativ schmale Balken, die aber nicht, wie man das jetzt bei den Wahlergebnissen kennt, separiert voneinander nebeneinander stehen, sondern da gibt es keine L\u00fccken zwischen den einzelnen Balken. Deswegen entsteht eigentlich ein Gebilde mit einer durchgehenden Fl\u00e4che, das nach oben hin sozusagen von einzelnen Balken, so wie... so ein bisschen treppenstufenm\u00e4\u00dfig kann man sich das vorstellen, abgeschlossen wird, und was mir vor allem als erstes auff\u00e4llt, ist, dass es eigentlich zwei Bereiche gibt, die auffallen, n\u00e4mlich es f\u00e4ngt mit sehr kleinen Balken an, geht dann recht schnell bis zu mittleren Balkenh\u00f6hen, wird einmal ganz gro\u00df, bis fast zur 30 hoch, f\u00e4llt einmal ab, hat nochmal einen Peak, bis fast zur 30 hoch, und f\u00e4llt dann weit unter 5, relativ steil runter, um danach nochmal anzusteigen und nochmal hochzugehen und dann wieder runter, sozusagen, und am Ende ist noch einmal ein kleinerer Peak nach oben. Das hei\u00dft, von der Form her sind es also zwei H\u00fcgel, die da entstanden sind, eigentlich, wenn man das jetzt mal so abstrakter betrachten w\u00fcrde, und das finde ich schon ganz spannend.<\/p>\n<p>Helena: Genau, und das war jetzt das Beispiel, wo 30 Balken gezeichnet wurden und dieselben Daten, wenn man die jetzt nur in 5 Balken darstellt, sehen ja ein bisschen anders aus. Das ist dann das n\u00e4chste Bild.<\/p>\n<p>Janine: Genau, also die Beschriftung an den Achsen ist ann\u00e4hernd die gleiche. Hier gehen die 5 Balken auch ineinander \u00fcber, sie sind relativ breit, und der erste Balken geht bis zur 40 oder so, sage ich mal, der zweite Balken geht dann sofort nach oben, bis \u00fcber 150, der dritte f\u00e4llt irgendwo auf die 70 runter, der vierte Balken ist knapp da dr\u00fcber, und der f\u00fcnfte Balken ist ziemlich flach, wenn \u00fcberhaupt, 10. Also die Form, die hier entsteht, ist irgendwie so eine Stufe, dann eine riesige Stufe, ein bisschen wieder nach unten, relativ gerade, und hinten nochmal steil nach unten.<\/p>\n<p>Helena: Ja, und die Zahlen sind ja auch deutlich h\u00f6her, weil jetzt nat\u00fcrlich mehr Pinguine zusammengefasst wurden pro Balken, weil die sind ja jetzt auch deutlich breiter.<\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: Und vom Gef\u00fchl her, was du gerade mit den zwei H\u00fcgeln beschrieben hast, bei dem ersten Histogramm, ist ja jetzt gar nicht mehr so deutlich sichtbar im zweiten.<\/p>\n<p>Janine: Nee, da ist nur nochmal eine kleine Kante nach oben, <\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: aber die f\u00e4llt jetzt irgendwie nicht weiter auf... ja.<\/p>\n<p>Helena: Genau, und das ist ungef\u00e4hr das, was ich meinte, was man mit der Wahl der zusammengefassten Daten kann man halt auch ein bisschen an der Darstellung beeinflussen und potenziell dann auch ein gew\u00fcnschtes Ergebnis erzeugen. Was man dadurch verhindern kann, dass man einfach automatische Tools benutzt und dann guckt, ja, kann ich daraus sinnvolle Sachen lesen. Eine Sache, die man hier auf jeden Fall auch vermeiden sollte, ist, wenn man jetzt, keine Ahnung, nur 20 Datenpunkte h\u00e4tte, dann auch 20 Balken zu zeichnen, die dann alle gleich gro\u00df sind und die nicht zusammenzufassen, weil dann bringt einem dieses Histogramm auch genau gar nichts, wenn alle Balken bei 1 sind und dann ab und zu mal stattfinden. Das ist komplett sinnfrei, das kann man dann besser lassen.<\/p>\n<p>Janine: Das hei\u00dft, um mal dazwischen zu fragen, Histogramme eignen sich vor allem gut auch, um Gruppen darzustellen, also wie bei der Wahl eben zum Beispiel.<\/p>\n<p>Helena: Ja, wenn man entweder schon klare Kategorien hat wie bei der Wahl, also wenn die Werte ja im Prinzip ausgez\u00e4hlte Stimmen sind, wie oft kommt eine Kategorie vor, dann ist das ziemlich genau das, was man haben will. Ja, und eine Sache, die du ja auch schon erw\u00e4hnt hast, ja, das Balkendiagramm hat eine x-Achse und eine y-Achse und das...  sind das nicht Zwei Dimensionen?<\/p>\n<p>Janine: Ja, stimmt.<\/p>\n<p>Helena: Ja, also die grafische Darstellung, das Histogramm selber ist zweidimensional, weil nur eine Dimension w\u00e4re ja nur eine Linie und in einer Linie kann man nicht so richtig gut was darstellen. Deswegen ist die Darstellung zweidimensional, aber das was... die H\u00e4ufigkeit ist ja etwas, was komplett aus den Daten ausgerechnet wird. Das hei\u00dft, die zweite Achse, die man benutzt, um es darzustellen, wird komplett ohne weitere Informationen aus der ersten Achse ausgerechnet, aus der eindimensionalen Verteilung und das gilt auch f\u00fcr alle anderen Plottypen, die heute noch kommen, dass das, was man dann auf der y-Achse darstellt, ausgerechnete Werte sind, die auf der Verteilung basieren. So wird dann eben die zweite Dimension in der Darstellung eingef\u00fchrt, w\u00e4hrend man trotzdem nur eine eindimensionale Verteilung darstellen m\u00f6chte.<\/p>\n<p>Janine: Und das gilt dann auch zum Beispiel f\u00fcr Zeitpunkte? Also du hattest ja das Beispiel mit dem Handy gebracht. Wenn ich jetzt sage, wie viele Stunden pro Tag bin ich am Handy gewesen? So, dann habe ich ja auf der x-Achse k\u00f6nnte ich dann angeben, meinetwegen die letzten sieben Tage und auf der y-Achse die Stunden als Einheit. Kann ich das da auf die gleiche Art und Weise kategorisieren, wie du es eben gemacht hast oder sind es dann doch zwei Dimensionen in dem Fall?<\/p>\n<p>Helena: Doch, in dem Fall sind das schon zwei Dimensionen, weil der Tag, an dem das ist, eine Rolle spielt. Wenn du jetzt nur aufschreiben w\u00fcrdest, wie lange du an einem Tag am Handy warst und dann am Ende es aber keine Rolle mehr spielt, an welchem Tag das war, dann hast du nur noch eine Dimension. Aber sobald der genaue Tag eine Rolle spielt, hast du auch noch die Dimension Zeit, die eine Rolle spielt mit drin.<\/p>\n<p>Janine: Mhm.<\/p>\n<p>Helena: Und ich meine, das ist dann immer noch ein Balkendiagramm und Histogramme sind ja auch Balkendiagramme, aber ja, das, was sie darstellen, ist schon inh\u00e4rent dann zweidimensional, wenn sie das auf Wochentage beziehen.<\/p>\n<p>Janine: Und in dem Beispiel mit den Menschen ist es dann deswegen nicht zweidimensional, wenn ich auf der x-Achse meinetwegen die Gr\u00f6\u00dfe eines Menschen angebe und auf der y-Achse, wie oft diese Gr\u00f6\u00dfe in meiner Gruppe vorkommt, die ich gemessen habe, dann ist die Messung, die ich mache, die Gr\u00f6\u00dfe und die Anzahl wieder der abgeleitete Wert, weswegen es wieder eindimensional ist.<\/p>\n<p>Helena: Genau, die zugrundlegende Verteilung ist eindimensional, ja.<\/p>\n<p>Janine: Okay. Ja, ich glaube, damit kann ich was anfangen. Das h\u00e4tte ich letztens gebraucht, als ich mal das Thema angesprochen habe, aber ich kann das ja jetzt einfach weiterreichen.<\/p>\n<p>Helena: Genau, ich hoffe, das hilft auch generell. Ich m\u00f6chte noch mal auf die H\u00fcgel zur\u00fcckkommen. Du hast ja gesagt, man sieht im Prinzip zwei H\u00fcgel in der Flossenl\u00e4ngenverteilung bei den Pinguinen. Und wenn ich jetzt so ein Histogramm hier angucke, wo dann so zwei so H\u00fcgel sind, dann ist so meine erste Idee, ja, vielleicht gibt es auch einfach zwei Kategorien von Pinguinen und die einen sind halt gr\u00f6\u00dfer als die anderen. Und vielleicht sind das zwei verschiedene Pinguinarten, die zusammengepackt wurden in eine Grafik.<\/p>\n<p>Janine: Lass mich raten, du kommst auf diese Idee mit den zwei Gruppen, ich glaube, ich w\u00e4re es im ersten Moment nicht, weil du diese Sache mit diesem Gau\u00df und der Normalverteilung und der Glockenkurve im Kopf hast, oder?<\/p>\n<p>Helena: Ja, genau, weil so eine nat\u00fcrliche Gr\u00f6\u00dfe ist halt immer, also Menschen sind ja auch ungef\u00e4hr \u00e4hnlich gro\u00df. Es gibt nat\u00fcrlich Ausrei\u00dfer, aber im Schnitt gibt es da auch eine bestimmte Verteilungsform. Manche Leute sind gr\u00f6\u00dfer, manche kleiner, aber wenn man alle zusammenz\u00e4hlt, hat man halt nur so eine bestimmte Kurvenform. Das ist ja dann die Gau\u00df'sche Glockenkurve. Beziehungsweise ist das eines der Modelle, die man da gut ranlegen kann und das kommt auch in der Physik sehr oft vor, deswegen bin ich da auch sehr mit vertraut. Und wenn man dann zwei solche Glockenkurven hat, die verschiedene Ursachen haben und in einer Grafik zeichnet, dann hat ja verschiedene Ursachen und deswegen, wenn ich dann zwei so glockenartige Dinge oder zwei H\u00fcgel sehe in so einem Histogramm, denke ich, ja, das sind doch wahrscheinlich zwei verschiedene Dinge zusammengemischt, zum Beispiel zwei Arten Pinguine. Das w\u00e4re jetzt so bei der Grafik das, was ich zuerst denken w\u00fcrde, wenn ich da drauf gucke.<\/p>\n<p>Janine: Lass mich raten, du hast recht.<\/p>\n<p>Helena: \u00c4h, nicht ganz. Also die Daten, wir benutzen jetzt, das wisst ihr vielleicht aus unserer Standarddatensitzefolge, den Datensatz \u00fcber die Pinguine, den man sich auch einfach runterladen kann und wenn man dann die Pinguin-Spezies noch mitplottet, also wenn man ein Histogramm pro Spezies erstellt, dann sehe ich, dass das sogar drei Spezies sind.<\/p>\n<p>Janine: Okay.<\/p>\n<p>Helena: Und zwei davon sind so nah aneinander von der Gr\u00f6\u00dfenverteilung, dass sie halt mehr oder weniger wie ein gemeinsamer H\u00fcgel aussehen. Die dritte Spezies, die Gentoo-Pinguine, sind halt deutlich gr\u00f6\u00dfer als die Adelie- und die Z\u00fcgel-Pinguine.<\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: Das ist dann in der n\u00e4chsten Grafik dargestellt, n\u00e4mlich drei Histogramme untereinander, weil das eine M\u00f6glichkeit ist, wie wenn man jetzt innerhalb des Histogramms verschiedene Kategorien auseinanderhalten m\u00f6chte, kann man die zum Beispiel so untereinanderplotten, wo dann die x- und y-Achsen genau gleich sind, sodass man auch wirklich vergleichen kann, wie h\u00e4ufig die vorkommen.<\/p>\n<p>Janine: Ja, ich habe es mir hier gerade mal aufgemacht. Ja, also es ist, wie du gerade sagst, das sind die drei einzelnen Histogramme in dem Plot, sodass sie sich die x-Achse teilen und die y-Achse gibt es quasi dreimal, n\u00e4mlich dreimal \u00fcbereinander auf der gegen\u00fcberliegenden Seite der y-Achse \u2013 ist das dann y-b? \u2013 da stehen die Gruppennamen, also der Pinguin-Art. Was da halt zu sehen ist, ist jetzt, dass, ja, die erste Gruppe ganz oben, die sitzt relativ weit links, also was die Flossenl\u00e4nge angeht, f\u00e4ngt die als erstes an und hat dann tats\u00e4chlich, joar jetzt nicht unbedingt die perfekte Glockenform, aber es geht schon arg in die Richtung. Bei der zweiten Gruppe das Gleiche, nur die ist deutlich flacher, aber man sieht, dass sie ihren h\u00f6chsten Punkt hat an einer Stelle, wo die Gruppe dar\u00fcber auch in etwa genauso hoch ist. Und da ist wahrscheinlich die \u00dcberlappung passiert, weswegen wir nur zwei H\u00fcgel und nicht drei im ersten Histogramm gesehen haben.<\/p>\n<p>Helena: Mhm.<\/p>\n<p>Janine: Ja, und die dritte Gruppe ganz unten, die f\u00e4ngt dann halt ziemlich weit hinten auf der x-Achse an und das ist dann eben der zweite H\u00fcgel. Man kann sich das ganz gut vorstellen, wenn man das jetzt so wieder ineinander schieben w\u00fcrde, entsteht eigentlich das, was man oben schon gesehen hat.<\/p>\n<p>Helena: Genau. Ich glaube, aber eine Methode, die etwas h\u00e4ufiger ist, die ich pers\u00f6nlich allerdings etwas weniger deutlich verst\u00e4ndlich finde, ist eben nicht diese drei Histogramme untereinander zu ploten, sondern einfach wie bei unserem ersten Histogramm die Grafik zu nehmen und dann einfach den Spezies verschiedene Farben zu geben. Dann kriegt man auch so ein bisschen das Gef\u00fchl daf\u00fcr, wie oft die so sind, aber ich finde, es ist deutlich schwieriger, auseinanderzuhalten. Also das ist dann unser n\u00e4chstes Beispiel, wo die dann farblich dargestellt sind. Aber dann ist jetzt hier zum Beispiel von den Adelie-Pinguinen, von dem gr\u00f6\u00dften Pinguin, ist der Punkt dann halt ganz weit oben auf dem Histogramm gezeichnet, weil darunter die anderen beiden Pinguinarten eingezeichnet sind. Und dann ist das nicht mehr so eine sch\u00f6ne Form, wie die zusammenh\u00e4ngen und das finde ich, wenn man jetzt die H\u00e4ufigkeiten vergleichen will, schwerer zu lesen.<\/p>\n<p>Janine: Ja, definitiv. Es ist, ja wie du sagst, der mit der gr\u00f6\u00dften Flosse von den Adelie-Pinguinen, der tanzt halt mit seinem einen Datenpunkt irgendwo bei der 20 auf der y-Achse rum und hat keinen Anschluss mehr zu der restlichen Gruppe, die ist irgendwo weiter unten, weil der eben auf so einen H\u00fcgel mit hochgenommen wurde sozusagen.<\/p>\n<p>Helena: Ja. Aber ich glaube, so eine farbliche Darstellung ist trotzdem relativ \u00fcblich, deswegen sollte man sie erw\u00e4hnen. Aber ich mag eben diese untereinander geplotteten Sachen lieber, weil da auch deutlicher wird, dass jetzt die Z\u00fcgel-Pinguine auch einfach deutlich weniger in dem Datensatz vorhanden sind. Ach so, das sind ja nicht relative H\u00e4ufigkeiten, wie oft ist diese Pinguin-Art vorgekommen, sondern die Gesamth\u00e4ufigkeit in der verschlossenen Gr\u00f6\u00dfen und dadurch, dass das so viel flacher ist, aber nicht wirklich breiter als die anderen, sind das auch einfach weniger Pinguine.<\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: Und die miteinander vergleichen zu k\u00f6nnen, muss man halt ber\u00fccksichtigen, dass es weniger Pinguine sind. Eine Sache, weil du das Thema Glockenkurve schon angesprochen hast, was man sehr sch\u00f6n aus Histogrammen eben machen kann, ist dann so eine Glockenkurve als Modell dadran anpassen, weil man die berechneten Histogrammdaten nehmen kann, um dann wieder halt eine Fit-Funktion zu machen und dann kriegt man die Parameter von so einer Glockenkurve zu der Verteilung. Ich meine, bei der Gau\u00df'schen-Glockenkurve sind es ja auch einfach Mittelwert und Standardabweichung, da braucht man theoretisch kein Histogramm f\u00fcr, um das auszurechnen, aber da k\u00f6nnte man anhand des Histogramms sehen, ob dieses Modell irgendwie Sinn macht oder ob die doch sehr stark abweichen. Daf\u00fcr sind Histogramme eben auch gut geeignet, um ja, so Modelle daran anzuwenden, wenn sie Sinn machen.<\/p>\n<p>Janine: Grob zusammengefasst, Histogramme sind eine Form des Balkendiagramms und sie eignen sich vor allem gut, um Gruppen darzustellen und die H\u00e4ufigkeit von etwas in diesen Gruppen oder in Kategorien, die man erzeugt hat. Und es ist wichtig darauf zu achten, wie man Daten zusammenfasst, also wie... welche Gruppen man bildet sozusagen, weil das Einfluss auf die Darstellung und damit auch auf das Verst\u00e4ndnis des Histogramms dann hat.<\/p>\n<p>Helena: Genau.<\/p>\n<p>Janine: Okay.<\/p>\n<p>Helena: Dann kommen wir zum n\u00e4chsten Thema.<\/p>\n<h3>Was sind Boxplots? (00:28:53)<\/h3>\n<p>Janine: Ja, ich habe ja schon gesagt, du meintest, diese Boxplots seien etwas, womit man sich erst mal l\u00e4nger besch\u00e4ftigen muss, was macht die denn genau aus?<\/p>\n<p>Helena: Ja, genau. Was macht ein Boxplot aus? Erstmal ist es einfach eine Box, die dargestellt wird, so eine rechteckige Box und in der ist meistens da noch eine Linie eingezeichnet, die ist irgendwo in dieser Box drin und dann gibt es oben und unten noch so Striche, senkrechte Striche, die aus den Boxen rauskommen. Und die haben eine ganz eindeutig definierte Bedeutung und zwar, die Box f\u00e4ngt bei 25% der Daten an und das ist dann die untere Kante von der Box und die obere Kante von der Box ist bei 75% der Daten. Das hei\u00dft, die H\u00e4lfte der Daten ist innerhalb dieser Box und die Linie in der Box selber stellt den mittleren Datenpunkt dar, also die H\u00e4lfte der Daten ist dann kleiner als diese Linie und die andere H\u00e4lfte der Daten ist gr\u00f6\u00dfer als diese Linie, das ist auch der sogenannte Median, der mittlere Wert. Nicht zu verwechseln mit dem Mittelwert, den man anders berechnet. Der Mittelwert und der Median k\u00f6nnen \u00e4hnlich sein, m\u00fcssen aber nicht auf der gleichen Stelle sein, weil wenn so eine Verteilung sehr verzerrt ist und eben keine saubere Glockenkurve, dann sind Median und Mittelwert sehr weit auseinander und je weiter die auseinander sind, desto weiter sind die halt von so einer Glockenkurve entfernt und der Boxplot zeigt aber nur den Median an. Ja, dann gibt es noch die Linie unten und die Linie oben und die untere Linie f\u00e4ngt quasi bei dem untersten Wert an und geht dann bis zur Box, das hei\u00dft, die stellt das untere Viertel der Daten dar und die obere Linie entsprechend das obere Viertel der Daten. Das hei\u00dft, im Grunde genommen berechnet man aus den Werten, die man hat in der Verteilung f\u00fcnf Zahlen, also einmal den Median, den unteren Wert, den oberen Wert, also Minimum und Maximum und dann eben noch 25% und 75%, das sind dann sogenannte Quantile. Also diese f\u00fcnf Zahlen spielen dann eben eine Rolle und die werden einfach dargestellt grafisch. Manchmal kann es noch sein, wenn man sehr viele Daten hat, aber nur einzelne davon liegen, sehr weit drau\u00dfen, dass man dann noch einzelne Punkte oberhalb und unterhalb der Linie macht. Das sollen dann Ausrei\u00dfer darstellen, die stellen dann nur einen kleinen Prozentsatz der Gesamtdaten dar. Ja, und das Ganze kann man dann eben auch auf die Pinguine anwenden und das, was wir im allerersten Histogramm dargestellt haben, haben wir jetzt auch in dem ersten Boxplot dargestellt. Also die gleiche Verteilung, sie sieht nur v\u00f6llig anders aus. Magst du einmal beschreiben, wie das aussieht?<\/p>\n<p>Janine: Ja. Beim ersten Histogramm waren es ja auch alle Pinguine, also nicht unterteilt in die Gruppen, das hei\u00dft, hier gibt es entsprechend auch nur eine Box f\u00fcr alle Pinguine. Auf der x-Achse ist in der Mitte 0,0, nach rechts gibt es noch 0,2 und 0,4 und nach links gibt es minus 0,2 und minus 0,4. Da habe ich keine Ahnung, was das sein soll und warum.<\/p>\n<p>Helena: Ja, das ist da einfach nur, weil, naja, man muss ja irgendwie, wenn man so eine zweidimensionale Grafik berechnet, dann halt eben auch irgendwie x-Werte haben, wo man Dinge hinmalt. Die haben keine Funktion, die sind einfach nur da, die stehen einfach nur, die k\u00f6nnte man auch ausblenden, die sind nur eine Hilfe zum Grafikzeichnen.<\/p>\n<p>Janine: Also es definiert quasi dein Raster.<\/p>\n<p>Helena: Ja, genau. Es definiert nur das Raster, die haben keine inhaltliche Bedeutung.<\/p>\n<p>Janine: Das macht sehr gut anschaulich, dass es hier tats\u00e4chlich eindimensionale Daten sind, glaube ich, oder?<\/p>\n<p>Helena: Ja, gut. Aber dazu muss man in der Lage sein, die Zahlen zu ignorieren, die da halt trotzdem stehen,<\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: weil ich sie da nicht weggemacht habe, aber gleichzeitig ist es eben auch ein gutes Beispiel daf\u00fcr, .a... dass nicht jede Information, die einem angezeigt wird, immer hilfreich ist.<\/p>\n<p>Janine: Ja, jedenfalls auf der y-Achse ist dieses Mal die Flossengr\u00f6\u00dfe auch wieder in Millimeter, ich glaube, das habe ich beim letzten Mal vergessen zu sagen, angegeben, und zwar haben wir Werte von 170 bis knapp \u00fcber 230, und die erste senkrechte Linie liegt auf der x-Achse auf 0,0, beginnt knapp \u00fcber der 170 irgendwo und endet dort, wo die Box beginnt, bei dem Wert 190. Ja, die Box reicht dann bis ungef\u00e4hr 213, 214, irgendwie sowas, das ist die H\u00f6he der Box. Oben auf der Box beginnt dann eben direkt die zweite angesprochene Linie, die die oberen 25 Prozent der vorhandenen Daten anzeigt, auch wieder auf der Mitte der x-Achse und reicht bis \u00fcber 230. Und ja, dann ist da eben das angesprochene f\u00fcnfte Element, der Median, der liegt in der Box circa nach einem Drittel der Boxh\u00f6he. Also, die Box ist irgendwie optisch in einen schmalen Streifen und einen breiteren Streifen dadr\u00fcber geteilt, und der Median verl\u00e4uft irgendwo zwischen... joa... 197, w\u00fcrde ich mal sagen, aber die Mitte der Box, das sieht man ganz gut, w\u00e4re noch ein ganzes St\u00fcck h\u00f6her.<\/p>\n<p>Helena: Genau. Deswegen ergibt es eben auch 'n Sinn, diese Linie einzuzeichnen, weil die nicht immer in der Mitte sein muss. Und wenn die nicht in der Mitte ist, dann ist das auch ein Hinweis darauf, dass die Verteilung verschoben ist. Also, in diesem Fall haben wir zwei Pinguin-Arten, die eher kleiner sind und eine, die eher gr\u00f6\u00dfer sind, und die sind alle zusammengepackt in diesem Plot, und entsprechend sind die meisten dann der Daten auch eher im unteren Bereich, und deswegen... ja, ist eben auch die Mittellinie nach unten verschoben, w\u00e4hrend oben dann nicht mehr, also da fasert es dann so ein bisschen aus. Da gibt es dann zwar immer noch genauso viele Pinguine oberhalb der Mittellinie, aber die verteilt sich auf einen gr\u00f6\u00dferen Gr\u00f6\u00dfenbereich.<\/p>\n<p>Janine: Ja, also kann auf jeden Fall gesagt werden, dass die h\u00e4ufigste Flossenl\u00e4nge etwa 19,7 cm sind. <\/p>\n<p>Helena: \u00c4h, nicht die h\u00e4ufigste, das kannst du nicht aus diesem Plot draus lesen. Das, was man aus dem Plot lesen kann, ist, dass unter diesen 19,7 cm... die H\u00e4lfte aller Flossen sind kleiner und die andere H\u00e4lfte ist gr\u00f6\u00dfer.<\/p>\n<p>Janine: Ah, okay. Ich merke gerade, mein Kopf versucht ein zur Seite gekipptes Histogramm in diesen Boxplot zu legen.<\/p>\n<p>Helena: Genau. Im Histogramm k\u00f6nnte man das eben sagen, die h\u00e4ufigste Flossenl\u00e4nge ist folgende, wenn man jetzt Zentimeter-Schritte machen w\u00fcrde, was wir jetzt nicht gemacht haben, k\u00f6nnte man aber genau diese Aussage treffen, das ist die h\u00e4ufigste Flossenl\u00e4nge in unserem Datensatz bei unseren Pinguinen. Aber hier geht das nicht, hier kann man nur sagen, wie viele sind gr\u00f6\u00dfer und kleiner <\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: im Verh\u00e4ltnis zueinander.<\/p>\n<p>Janine: Aber w\u00fcrdest du sagen, das macht dann quasi auch den Unterschied zwischen Histogramm und Boxplot aus, dass es... das Histogramm eher die Gruppe quasi in der Anzahl und der H\u00e4ufigkeit beschreibt und der Boxplot die Gruppe eher, wie sie sich verteilt?<\/p>\n<p>Helena: Also das, wie sie sich verteilt, beschreibt das Histogramm ja durchaus auch, aber der Boxplot ist mehr reduziert und sagt nur, wie die sich verteilt.<\/p>\n<p>Janine: Ja, okay.<\/p>\n<p>Helena: Und da spielt es gar keine Rolle mehr, wie oft, wie viele Pinguine wir eigentlich haben, weil das steht da nirgends.<\/p>\n<p>Janine: Stimmt.<\/p>\n<p>Helena: Und f\u00fcr viele Betrachtungen ist ja die Gesamtzahl auch gar nicht so wichtig, sondern eher die Verh\u00e4ltnisse untereinander. Und wenn das nicht relevant ist, lenkt es ja auch nur ab. Das ist halt der Vorteil am Boxplot, dadurch, dass es so reduziert ist, ist, wenn die Informationen, die man haben m\u00f6chte, immer noch da sind, also wie verzerrt ist so eine Verteilung und so, und von wo bis wo geht die, dann ist die auch sehr n\u00fctzlich, weil sie sehr deutlich sagt, wo ist so die Mitte der Gr\u00f6\u00dfenverteilung und von wo bis wo geht die. Also die Mitte in einem Histogramm zu finden, das funktioniert, glaube ich, nicht ohne selber zu rechnen.<\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: Dass man pro Pinguinspezies einen eigenen Plot gemacht hat, haben wir jetzt auch f\u00fcr die Boxplots gemacht. M\u00f6chtest du das auch noch mal beschreiben?<\/p>\n<p>Janine: Ja. Hier haben wir einen Plot, der auf der x-Achse die Spezies der Pinguine hat. Da sind drei Boxen drin, die auch hier ihre eigene Farbe haben. Auf der y-Achse ist wieder die Flossengr\u00f6\u00dfe angegeben. Was hier jetzt erstmal ersichtlich ist, die Boxen sehen genauso aus wie vorher, vom Aufbau her. Bei den Adelie-Pinguinen gibt es tats\u00e4chlich unten und oben je einen schwarzen Punkt, bevor die Linie nach oben anf\u00e4ngt.<\/p>\n<p>Helena: Genau. Das sind dann so Beispiele f\u00fcr diese Ausrei\u00dfer. Also irgendwie gibt es einen sehr kleinen und einen sehr gro\u00dfen Pinguin, aber ich w\u00fcrde jetzt hier argumentieren, dass das Unsinn ist, die einzeln als Punkt darzustellen. Keine Ahnung, warum das Tool das jetzt gemacht hat. Die Linie h\u00e4tte man doch einfach nur l\u00e4nger zeichnen k\u00f6nnen, h\u00e4tte es auch nicht geschadet.<\/p>\n<p>Janine: Ja, vielleicht als Beispiel oder so.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Ja, was bei dieser ersten Gruppe auff\u00e4llt, ist, dass der Median, der liegt auch nicht wirklich bei 50 Prozent, aber schon relativ nah dran. Also der untere Teil ist immer noch etwas kleiner, aber wirklich nur noch ein bisschen. Bei der Gruppe daneben, da beginnt die Box sp\u00e4ter circa ein St\u00fcck \u00fcber dem Median der ersten Gruppe. Also die Boxen schweben quasi nebeneinander in dem Diagramm, wo die Adelie irgendwie von 70 bis 195 gehen oder so, da beginnt die Box der 50 Prozent der zweiten Gruppe bei 190 und endet irgendwie bei knapp \u00fcber 200 und da ist der Median ziemlich mittig, finde ich.<\/p>\n<p>Helena: Ja, finde ich auch.<\/p>\n<p>Janine: Ja, die dritte Gruppe, da beginnt die Box deutlich weiter oben bei 212 und geht bis 220, ein bisschen dr\u00fcber, die f\u00e4ngt fast an der Stelle an, wo der letzte Wert der Chinstrap-Gruppe \u00fcberhaupt ist. Das macht den Abstand auch zwischen den Gruppen und den Pinguin-Gr\u00f6\u00dfen, glaube ich, sehr gut deutlich.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Der Median ist hier auch nicht ganz bei 50 Prozent, aber knapp darunter.<\/p>\n<p>Helena: Ja, aber schon deutlich mittiger als in dem Boxplot, der alle drei Gruppen dargestellt hat. Genau, hier kann man dann auch sehen, dass die schon deutlich, ja, glockenkurviger verteilt sind, weil der Median deutlich mittiger liegt in der Box als noch in der Ursprungsgrafik. Das hei\u00dft, auch da kann man dann feststellen, ja, wenn jetzt irgendwie die Linie nicht ganz in der Mitte liegt, dann ist da irgendwas verzerrt und, ich meine, jetzt haben wir ja sch\u00f6ne Pinguindaten, das ist ja auch nicht immer so, dass die Daten so sind. Wenn man jetzt irgendwie Daten aufzeichnet, zum Beispiel digital, und dann hinterher so einen Boxplot macht, dann kann es auch schon mal passieren, dass die Box einfach nur eine Linie ist und dann hat die vielleicht oben oder unten noch eine Linie und dann ist alles sehr seltsam. Also, wenn die Box so eng ist, dass die Medianlinie und die Box quasi in eins verschmelzen, dann k\u00f6nnte es sein, dass irgendwie 90 Prozent der Daten einfach derselbe Wert sind. Und wenn man irgendwie ein Messverfahren hat, k\u00f6nnte das entweder hei\u00dfen, man will auch, dass das immer konstant bleibt, dann ist das gut, oder die Messung ist kaputt. Und dass man so konstante Werte hat, ist ein Fehler und dann sollte man mal nachgucken, woran das liegt. Also, ich habe durchaus \u00f6fter mal, dass die nur noch eine Linie waren, gesehen und, ja, wenn da irgendwie 100 Datenpunkte denselben Wert haben und einer nicht, dann sieht so ein Boxplot auch sehr interessant aus, ... ist das eine Linie und dann gibt es irgendwo noch einen Punkt. Kann halt passieren, aber dann sollte man halt \u00fcberlegen, was man machen will. Aber das ist ja auch durchaus hilfreich, dann zu wissen.<\/p>\n<p>Janine: Also, w\u00fcrde ich sagen, h\u00e4tten wir alles f\u00fcr den Boxplot zusammen, oder?<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Also, es ist nicht so sehr die H\u00e4ufigkeit, sondern die Verteilung im Zentrum des Boxplots.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Gut.<\/p>\n<h3>Was sind Violinenplots? (00:41:19)<\/h3>\n<p>Janine: Violinenplot hatte ich ja auch erw\u00e4hnt und ich wei\u00df von dir vor allem auch schon, dass das eine Variante des Boxplots ist. Was unterscheidet denn den Violinenplot vom Boxplot, beziehungsweise was sind denn die Vorz\u00fcge von dem?<\/p>\n<p>Helena: Also, beim Violinenplot kann man eben genau die gleichen Punkte darstellen, die ich gerade schon genannt hatte, also Median, 25 und 75 Prozent und Minimum und Maximum. Das, was sich unterscheidet, ist vor allen Dingen, dass die Box kein Rechteck mehr wird, sondern etwas, was potenziell so aussieht wie eine Violine, was so lustig geformt ist. Und was da im Wesentlichen passiert, ist, dass man \u00fcber eine spezielle Berechnungsmethode quasi die relativen H\u00e4ufigkeiten, so eine relative Verteilungsfunktion ausrechnet. Das hei\u00dft, die Violine ist dann besonders breit an den Stellen, wo auch viele Datenpunkte liegen. Man k\u00f6nnte das vielleicht wie eine Mischung aus Boxplot und Histogramm sehen, nur dass die genaue H\u00e4ufigkeit nicht gesagt wird, sondern man nur ein relatives Gef\u00fchl daf\u00fcr bekommt, wo liegen mehr der Daten, wo weniger der Daten, weil die eben so breiter wird, wo viele Daten liegen und schmal ist, wo wenig Daten liegen. Und im Prinzip ist das, was man da als Verteilungsfunktion ausrechnet, was dann eben die Breite darstellt, das wird dann auch gespiegelt, sodass das dann symmetrisch wie eine Violine aussieht. Und man kann dann eben, wie gesagt, auch Medialen und die beiden Linien oben und unten einzeichnen. In unserem Beispiel haben wir das nicht gemacht. Daf\u00fcr, ja, sieht man eben, dass die B\u00e4uche unterschiedlich liegen.<\/p>\n<p>Janine: Ja, bei dem Plot ist es auch wieder so, dass die Adelie und die Chinstrip-Pinguine relativ nah beieinander sieht, aber man erkennt hier halt tats\u00e4chlich besser als beim Boxplot, finde ich, dass irgendwie, ja, der Median ein bisschen \u00fcbereinander liegt. Und ich finde so, die Boxplots, also dadurch, dass es wirklich Rechtecke sind, die da reingemacht werden in den Plot, ja, die verschleiern das irgendwie so ein bisschen. Die geben irgendwie das Gef\u00fchl einer homogenen Gruppe von 50 Prozent, die alle gleich sind und dann wird da halt nur der Median eingezeichnet, um das zu relativieren. Und hier sieht man das tats\u00e4chlich durch die Form des Violinenplots. Und auch hier ist es so, dass die Gentoo-Pinguine deutlich weiter oben erst anfangen und der Median da auch viel h\u00f6her liegt als \u00fcberhaupt die Violinen der anderen beiden Gruppen. <\/p>\n<p>Helena: Genau, Violinenplots sind eben eine, ja, moderne Variante von Boxplot, die halt ein bisschen mehr Infos gibt. Ein Vorteil von Boxplots, den ich an der Stelle vergessen habe, ist allerdings, dadurch, dass das immer die gleichen f\u00fcnf Werte sind, die man darstellt, kann man das auch einfach tabellarisch darstellen. Man k\u00f6nnte auch einfach komplett die Grafik weglassen und einfach nur eine Tabelle vorlesen. Das kann insofern helfen, als dass es immerhin schon mal sagt, wie man das erkl\u00e4ren soll, w\u00e4hrend Histogramme und Violinenplots durch ihre Form ja deutlich schwerer auch zu beschreiben sind, wenn man das nur auditiv erkl\u00e4ren kann.<\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: Gut, ich meine, wir haben jetzt die Tabelle trotzdem nicht vorgelesen, weil es jetzt auch gar nicht um die konkreten Zahlen so sehr geht, sondern mehr um das Gef\u00fchl, was sie vermitteln. Aber es ist bei Boxplots immerhin m\u00f6glich.<\/p>\n<p>Janine: Okay, also w\u00e4re sozusagen die Zusammenfassung f\u00fcr den Violinenplot, dass durch die spezifische Form, dass es eben auch je nach Datenlage schmaler und breiter werden kann, ja, eigentlich eben ein bisschen besser die eigentliche Datengrundlage mit sichtbar ist, also wovon habe ich mehr? <\/p>\n<p>Helena: Mhm.<\/p>\n<p>Janine: Und dadurch, ja, es ist nicht ganz so begrenzt wie der Boxplot, wobei begrenzt nat\u00fcrlich jetzt negativ klingt. Es ist eben, ja, die Frage, was man zeigen und sehen m\u00f6chte, und deswegen, ja, der Violinenplot bietet halt mehr Optionen f\u00fcr eine weitere Interpretation dann sozusagen.<\/p>\n<p>Helena: Ja, und es ist kompakter darzustellen als jetzt so ein Histogramm. Histogramm ist recht gro\u00df. <\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: Und hier kann man die halt deutlich kompakter, die verschiedenen Kategorien darstellen. Und, ja.<\/p>\n<p>Janine: Ich glaube, dann h\u00e4tten wir das mit dieser Form der Plots.<\/p>\n<h3>Was ist kumulierte H\u00e4ufigkeit? (00:45:46)<\/h3>\n<p>Janine: Ich hatte noch eine vierte Sache genannt, die kumulierte H\u00e4ufigkeit. Was zum\u2026 ist das?<\/p>\n<p>Helena: Genau, das erste Wort kumuliert oder auch aufsummiert ist, wenn man nicht immer jeden einzelnen Datenpunkt f\u00fcr sich nimmt, sondern wenn man quasi einen Haufen Daten hat, und das, was man sich anguckt, ist aber die Summe, dass man quasi den ersten Datenpunkt nimmt, dann den ersten plus den zweiten, dann den ersten plus den zweiten plus den dritten, und dass es dann immer nur nach oben geht. Im Grunde ist so ein aufsummierter Wert auch genau das Beispiel aus dem Stromz\u00e4hler, weil viele Stromz\u00e4hler laufen eben nicht r\u00fcckw\u00e4rts und typischerweise gehen ja nur in eine Richtung und z\u00e4hlen nur hoch. Und um dann wiederum den einzelnen Wert auszurechnen, m\u00fcsste man eben jeden Tag ablesen und voneinander abziehen f\u00fcr den Tageswert. Ansonsten plottet man auch immer nur eine Linie, die immer nur hoch geht. Wir haben ja auch vor kurzem angefangen, ein paar unserer Folgen und Inhalte auch auf YouTube hochzuladen, und dort gibt es auch eine Grafik, die dann die Statistik macht, ja, wann wurde das Video wie oft geschaut, und das ist dann auch eine kumulierte Grafik, das hei\u00dft, die zeigt dann immer nur eine Linie, die hoch geht. Unterschiedlich stark, je nachdem, wie oft das geguckt wurde an den Zeitraum, kann das mal steiler hochgehen und flacher hochgehen, aber es geht immer nur hoch, es kann nicht wieder runtergehen. Das sind eben aufsummierte Werte oder kumulierte Werte. Und bei der kumulierten H\u00e4ufigkeit macht man jetzt aber, bevor man das aufzeichnet, noch einen Schritt, und zwar sortiert man alle Werte durch, dass man quasi alle Flossen unten stehen hat, die klein sind, und dann z\u00e4hlt, ja, wie oft ist denn diese Flossenl\u00e4nge vorgekommen, wie oft ist die n\u00e4chste vorgekommen. Also auch hier z\u00e4hlt man wieder, so \u00e4hnlich wie bei einem Histogramm, nur dass man jetzt wirklich nicht mehr Werte zusammenfasst, sondern nur die Werte zusammenfasst, die auch wirklich den gleichen Wert haben. Also wenn jetzt irgendwie 18 cm jetzt dreimal vorgekommen ist, dann w\u00fcrde man das jetzt auch zusammenz\u00e4hlen, aber im Grunde genommen f\u00e4llt man dann quasi bei 0 an und geht dann hoch bis zu der Gesamtanzahl an Pinguinen, beziehungsweise in der Darstellung, die wir jetzt auch in den Shownotes haben, teilt man dann auch durch die Gesamtzahl der Pinguine, das hei\u00dft, es f\u00e4ngt bei 0 an, es gibt 0 Pinguine, die kleiner sind als 170 mm oder 17 cm, keine Pinguine, die gr\u00f6\u00dfer sind als 23 cm. <\/p>\n<p>Janine: Beziehungsweise deren Flossen.<\/p>\n<p>Helena: Genau, deren Flossen.<\/p>\n<p>Janine: Das w\u00e4re so niedlich, Pinguine, die 23 cm gro\u00df sind, ausgewachsen.<\/p>\n<p>Helena: Das stimmt. Jetzt k\u00f6nnte man nat\u00fcrlich auch die y-Achse nochmal 100 rechnen, um Prozent zu haben, also 50 % der Pinguine sind dann kleiner und 50 % sind gr\u00f6\u00dfer. Aber auch hier kann man eben die Verteilung relativ gut sehen und hier, wenn man sich jetzt diese Grafik anguckt, dann ist das so ein Treppenstufenartig und die Stufen sind halt steiler, wenn f\u00fcr diesen Wert mehr Werte existieren und das f\u00e4ngt irgendwie relativ flach an und dann kommen ganz steile Treppenstufen und dann wird es wieder flacher und irgendwann h\u00f6rt es halt auf. Wenn der Wert bei 1 angekommen ist, ist es halt auch Ende.<\/p>\n<p>Janine: Ja, es sieht aus wie so quasi drei S, die da nebeneinander gesetzt wurden.<\/p>\n<p>Helena: Ja, und was man jetzt eben sagen kann, ist so, man sieht jetzt hier eine Linie f\u00fcr die Adelie-Pinguine und da sieht man ja 50 % der Adelie-Pinguine sind kleiner als 190 mm. Ich meine, das sieht man auch aus dem Boxplot.<\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: Was man jetzt hier aber auch machen kann, ist, man geht dann bei diesen 190 weiter runter bis zu den Z\u00fcgel-Pinguinen und sieht dann, ah, okay, da ist die Linie bei 20 %, das hei\u00dft 20 % der Z\u00fcgel-Pinguine sind kleiner als 19 cm, also deren Flossen sind kleiner als 19 cm.<\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: Dadurch lassen sich deutlich besser diese Gr\u00f6\u00dfen vergleichen, so die Gr\u00f6\u00dfenverteilung vergleichen und eine konkrete Aussage treffen, auch f\u00fcr Punkte, die jetzt nicht im Boxplot eingezeichnet sind. Ich meine, im Boxplot ist 25 eingezeichnet und 25 ist hier auch eingezeichnet, aber eben auch die ganzen Werte dazwischen kann man hier ablesen. Wenn man sowas jetzt zum Beispiel f\u00fcr Schulnoten machen w\u00fcrde, dass man dann sagt, ja, so viele haben mindestens eine 4 geschrieben und so viele haben vielleicht eine 1, da kann man sagen, ja, irgendwie 50 % der Leute waren besser als eine 2 und das k\u00f6nnte man auch relativ schnell sagen, aber eben auch f\u00fcr die Zwischenwerte. Und hier sieht man auch, dass im Grunde da, wo die Adelie-Pinguine und die Z\u00fcgel-Pinguine, deren Flossengr\u00f6\u00dfe ungef\u00e4hr aufh\u00f6rt, da fangen die von den Gentoo-Pinguinen gerade erst an. So, es gibt leicht \u00dcberlappungen, aber die stehen gar nicht so im Vordergrund, sondern es ist eher... im Vordergrund stehen weniger die \u00dcberlappungen als die einzelnen Werte, die man sehr deutlich ablesen kann. Und, was man eben auch noch machen kann, ist, also wir haben jetzt in den Shownotes auch noch zwei weitere Grafiken, das eine sieht dann deutlich mehr aus wie so ein S, also so eine logistische Kurve, die leicht ansteigt, dann steil wird und dann leicht abflacht. Und das ist das, was man erwarten w\u00fcrde eben bei so einer normal verteilten Gr\u00f6\u00dfe, also bei so einer Glockenkurve, die wir jetzt schon \u00f6fter erw\u00e4hnt hatten. Und ein Beispiel, was einfach nur eine gerade Linie ist. Und so eine gerade Linie ist das, was rauskommt, wenn jeder Wert gleich oft vorkommt. Also im Prinzip w\u00fcrde man so eine gerade Linie oder eben so eine gerade Linie, die man so eine gleichm\u00e4\u00dfige Treppe, die nicht irgendwie abflacht, au\u00dfer da, wo die Werte nicht mehr existieren vielleicht, w\u00e4re auch das, was man bei einem W\u00fcrfel erwarten w\u00fcrde. Also wenn man jetzt so einen 20-seitigen W\u00fcrfel hat, sollte ja jeder Wert gleich oft vorkommen und w\u00fcrde man das jetzt eben auf diese Art darstellen, m\u00fcsste da im Prinzip eine gleichm\u00e4\u00dfige Treppe bzw. eine gleichm\u00e4\u00dfige Linie, wenn man da eine Linie durchzeichnet, rauskommen, die nicht irgendwie erst abflacht und steiler wird und so weiter. Und wenn die steiler wird zwischendurch, dann ist der W\u00fcrfel vielleicht nicht pr\u00e4zise. Nicht fair.<\/p>\n<p>Janine: Dann steht da so was wie 1, 2, 3, 4, 4, 4, 5, 6, 7, ja?<\/p>\n<p>Helena: Das w\u00fcrde man dann in dieser grafischen Darstellung sehr schnell sehen, dass der W\u00fcrfel unfair ist.<\/p>\n<p>Janine: Gezinkt.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Achso, okay. Also die kumulierte H\u00e4ufigkeit eignet sich zum Erfassen von Schumlern beim W\u00fcrfeln.<\/p>\n<p>Helena: Ja, zum Beispiel.<\/p>\n<p>Janine: Ja, gut, tats\u00e4chlich f\u00e4llt mir einfach zu diesem Plot gar nichts ein. Wobei du hast gesagt, dann w\u00fcrde man ziemlich schnell sehen, dass da etwas nicht richtig ist. Wir hatten ja in Folge 13 \u00fcber Datenvisualisierung gesprochen und wof\u00fcr die eingesetzt werden k\u00f6nnen. Also was die Ziele der Darstellung sein k\u00f6nnen. Und da hatten wir erw\u00e4hnt, dass es Exploration, Kommunikation und Verifikation gibt.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Also Exploration, das Erkunden von Datens\u00e4tzen mittels Grafiken, Kommunikation, eben das Darstellen eines Datensatzes f\u00fcr ein weiteres Publikum, also die.. das Ergebnis sozusagen zu kommunizieren und Verifikation, um, ja, zu \u00fcberpr\u00fcfen, ob man auf dem richtigen Weg ist, sozusagen. Ich glaube, du hattest es mit Modellen dann erkl\u00e4rt, passt mein Modell, was sagen die Daten, wie passt das zusammen? <\/p>\n<p>Helena: Genau.<\/p>\n<p>Janine: W\u00fcrdest du sagen, dass sich jetzt die kumulierte H\u00e4ufigkeit da besonders gut eignet, um da bestimmte Sachen hinsichtlich von Explorationen oder eben Verifikation zu machen?<\/p>\n<p>Helena: Ja, das eignet sich vor allen Dingen f\u00fcr sowas wie Verifikation, also gucken, ob das Modell stimmt. Ich hatte ja schon bei den Histogrammen gesagt, dass man die Daten ganz gut nutzen kann, um jetzt sowas wie eine Gau\u00df'sche-Glockenkurve reinzumalen, reinzufitten, also so ein Modell daran anzupassen. Aber dann h\u00e4ngt es ja immer noch davon ab, wie ich die Balkenbreite gew\u00e4hlt habe, wie dann halt auch so der Skalierungsfaktor f\u00fcr die Verteilung aussieht. Es gibt auch f\u00fcr die Gau\u00df'sche-Glockenkurve ein kumuliertes Modell, was dann mathematisch gesprochen einfach das Integral ist dar\u00fcber, und das ist auch eine eigene Funktion, das ist dann die sogenannte Fehlerfunktion. Im Prinzip basiert die einfach nur auf denselben Infos wie die Glockenkurve, nur halt ist eine andere Darstellung davon, und die k\u00f6nnte man jetzt einfach auch noch hier reinmalen in diese kumulierte H\u00e4ufigkeit, und dann w\u00fcrde man sehen, ja, liegt die auch an der gleichen Stelle, \u00fcberlappen die sich gut.<\/p>\n<p>Janine: Mhm.<\/p>\n<p>Helena: Und das k\u00f6nnte man hiermit halt einfacher machen als mit so einem Histogramm, auch wenn ein Histogramm trotzdem erstmal einfacher zu lesen w\u00e4re. Wenn man eine Glocke reinmalt, ist das auch erstmal irgendwie nachvollziehbarer. Aber man muss halt eigentlich mathematisch sogar noch mehr Anpassung vornehmen, um halt f\u00fcr die Breite der Balken zu kompensieren, deswegen ist das insofern etwas unelegant als wenn man halt einfach nur die Fehlerfunktion in diese wundersch\u00f6nen kumulierten H\u00e4ufigkeiten reinmalt.<\/p>\n<p>Janine: Und du hattest ja auch bei Histogrammen und Boxplots und so, glaube ich, auch relativ h\u00e4ufig das Wort Gef\u00fchl benutzt, also dass man ein Gef\u00fchl daf\u00fcr kriegt, wenn man sich die anguckt. Ich denke, die passen dann wahrscheinlich auch am ehesten zu der Exploration.<\/p>\n<p>Helena: Ja, also daf\u00fcr sind die sehr n\u00fctzlich. Also, um einfach ein Gef\u00fchl f\u00fcr die Daten zu bekommen, finde ich all diese Plotarten gleicherma\u00dfen hilfreich. Zur Kommunikation ist es ja sehr zielgruppenabh\u00e4ngig, wenn man wei\u00df, die Leute benutzen gerne Boxplots oder Violinplots, dann kann man das wunderbar benutzen, und auf jeden Fall sollte man das dann auch tun, wenn man jetzt eher an die allgemeine \u00d6ffentlichkeit geht, dann sind eigentlich nur die Histogramme relevant zur Kommunikation, weil die anderen m\u00fcsste man ja erstmal erkl\u00e4ren. Also, ich meine, ich finde es immer noch gut, wenn man auch Bass benutzt, wenn es halt die bessere Darstellung ist f\u00fcr das, was man haben will, aber da muss man mehr erkl\u00e4ren, und deswegen sind f\u00fcr Kommunikation Histogramme halt deutlich niederschwelliger.<\/p>\n<p>Janine: Klingt einleuchtend.<\/p>\n<h3>Wie am besten Plots mit R erstellen? (00:56:14)<\/h3>\n<p>Janine: Ja, gut, dann h\u00e4tten wir es soweit mit all den verschiedenen Formen, und ich w\u00fcrde sagen, wir schleichen r\u00fcber zum Fazit, aber ich wei\u00df, dass du da noch ein bestimmtes Fazit quasi vorweg geben willst. Also, es sind ja alle Plots in unseren Shownotes selbst erstellt, und ich glaube, das Erstellen dieser Plots hat schon zu einem eigenen Fazit gef\u00fchrt.<\/p>\n<p>Helena: Ja, genau, also ich benutze R f\u00fcr sowas, und in R gibt es ein wunderbares Tool namens ggplot, mit dem man einfach Plots generiert, die einfach von Anfang an h\u00fcbsch aussehen, die gut lesbar sind, die haben auch immer diesen leicht grauen Hintergrund, damit der Kontrast zwischen einer wei\u00dfen Oberfl\u00e4che und der schwarzen Schrift nicht so gro\u00df ist und das angenehmer ist f\u00fcrs Auge, je nachdem, wo man es darstellt, und das macht schon eine ganze Menge richtig und nimmt einem auch eine ganze Menge Arbeit ab, was das Plotten angeht. Wenn ich jetzt allerdings im Internet gucke an Beispielen f\u00fcr R, dann finde ich immer, dass da die Standard-Plot-Funktionen f\u00fcr Histogramme oder Boxplots erw\u00e4hnt werden, die in dem originalen R schon vorhanden waren, und die funktionieren auch, aber die sind nicht besonders optisch ansprechend, finde ich, und ich verstehe nicht, warum, obwohl ggplot schon seit \u00fcber zehn Jahren im Einsatz ist, man immer noch diese anderen Funktionen findet in irgendwelchen Vorlesungsskripten im Internet oder auf YouTube. Ich meine, ja, das geht schnell, und f\u00fcr den allerersten \u00dcberblick ist es oft auch schneller, als erstmal ggplot zu laden, aber es lohnt sich die Zeit zu investieren in ggplot zu lernen, weil man kriegt so viel h\u00fcbschere und m\u00e4chtigere Plots hin, dass sich das sehr schnell lohnt.<\/p>\n<p>Janine: Woher wei\u00df ich denn, was sozusagen die moderne Best-Practice ist, also vielleicht ist ggplot ja irgendwann auch mal \u00fcberholt. Gibt es irgendetwas bei R, was einen gewissen Standard setzt, also in Internet-Dingen gibt es das W3-Konsortium, wie ist das bei R?<\/p>\n<p>Helena: Ja, bei R gibt es ja au\u00dfer der eigentlichen Sprache selber, die halt historisch gewachsen einige Inkonsistenzen hat, mittlerweile sehr viele Zusatzpakete, und insbesondere das sogenannte Tidyverse, sei hier zu nennen, das ist so eine Zusammenstellung von ganz vielen Paketen, die deutlich konsistentere Datenstrukturen haben, wo sich nicht einfach pl\u00f6tzlich mal der Datentyp \u00e4ndert, wenn man was macht, nur weil zuf\u00e4lligerweise die Zahl, die man reinschreibt, in der einen Fall 0 und in der anderen 2 ist, ja, kann ich da auf jeden Fall empfehlen, und da gibt es auch ein sehr gutes Buch namens R for Data Science, das gibt es auch komplett online zu lesen, man kann sich das aber auch kaufen, da stehen all diese Tools auch drin, und ansonsten verlinken wir noch das Tidyverse, wo eben nicht nur ggplot mit drin ist, sondern eben auch noch ein paar andere ziemlich coole Funktionen, die ich auch in meinem beruflichen Alltag sehr viel verwende.<\/p>\n<p>Janine: Sehr gutj<\/p>\n<h3>Fazit (00:59:18)<\/h3>\n<p>Janine: Dann das richtige Fazit, was ist denn so das Fazit, das wir hier ziehen?<\/p>\n<p>Helena: Ja, also mein Fazit ist, Histogramme sind ein gutes Tool, um \u00dcberblick \u00fcber eine Datenmenge zu bekommen, und es ist auch gut verst\u00e4ndlich, um die Daten zu kommunizieren, Boxplots sind noch reduzierter und auch gut f\u00fcr \u00dcbersicht, aber man verliert eben an Genauigkeit, manchmal ist das auch angemessen, manchmal nicht, und ja, die aufsummierten H\u00e4ufigkeiten, also, ja, die kumulierten H\u00e4ufigkeiten, die muss man erstmal ein bisschen lernen, damit umzugehen, aber auch dann kann man da sehr sch\u00f6ne Informationen rausziehen.<\/p>\n<p>Janine: Ich nehme auf jeden Fall mit und m\u00f6chte als Fazit nochmal betonen, dass der Grund, warum oder was ich mit bestimmten Daten mache, die Dimensionalit\u00e4t meiner Datenpunkte ausmacht, also wie viele Dimensionen meiner Daten benutze ich eigentlich, wenn ich nur eine Dimension benutze, dann ist es eben der Ausgangspunkt quasi ein eindimensionaler Datensatz, und ja, ich kann eindimensionale Daten aber in zweidimensionalen Grafiken darstellen.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Und der Punkt, den Helena da gemacht hat, war eben, dass ich das eine Mal meinen Messwert habe und die andere Dimension in dieser Grafik nicht einen gemessenen Wert darstellt, sondern einen Wert, den ich aus der urspr\u00fcnglichen Messung ableiten kann, den ich berechnen oder erzeugen kann, auf welchem Weg auch immer, und deswegen bleibt, obwohl es zweidimensional dargestellt ist, diese Grafik eine Darstellung von einer eindimensionalen Verteilung.<\/p>\n<p>Helena: Genau.<\/p>\n<p>Janine: Und wenn man dann wieder so Sachen macht, wie bestimmte Tage oder Zeitpunkte reinzubringen, obwohl ich etwas anderes gemessen habe, dann habe ich eben aus meinem Datensatz schwupps einen zweidimensionalen gemacht.<\/p>\n<p>Helena: Was dann zu der Frage f\u00fchrt\u2026<\/p>\n<p>Janine: Was ist der n\u00e4chste Schritt?<\/p>\n<p>Helena: Genau. Nach eindimensionalen Verteilungen ist dann die Frage, was ist denn so mit mehr dimensionalen Daten? Und schon bei zweidimensionalen Daten wird es komplizierter, weil die Frage ist, was ist denn jetzt die zweite Dimension? Und es gibt eine, die sehr bedeutsam ist, n\u00e4mlich die Zeit. Sobald man eine Gr\u00f6\u00dfe \u00fcber die Zeit auftr\u00e4gt, hat man ja auch zwei Dimensionen, Zeit und keine Ahnung, Stromspeicherwert, und sobald die Zeit dann eben auch eine Rolle spielt, spricht man von einer Zeitreihe, das hei\u00dft, eine Folge wird sich bestimmt in der Zukunft \u00fcber Zeitreihen gehen und was man damit machen kann. Aber es gibt auch andere Arten von mehrdimensionalen Daten, sowas wie Ortsdaten, wo man dann Geokoordinaten hat, so L\u00e4nge und Breite, oder von Geb\u00e4udedaten hat man vielleicht sogar drei Dimensionen, wenn man dann die L\u00e4nge, Breite und H\u00f6he hat, das kann beliebig kompliziert werden, aber auch sehr n\u00fctzlich.<\/p>\n<p>Janine: Ja, ich bin gespannt drauf, vor allem bin ich drauf gespannt, weiter in die Zukunft geguckt, wie lang diese Reihe wird und welchen Komplexit\u00e4tsgrad wir erreichen werden.<\/p>\n<p>Helena: Da bin ich auch gespannt.<\/p>\n<h3>N\u00e4chste Folge: \u00dcberraschungsfolge am 22. April 2023 (01:02:28)<\/h3>\n<p>Helena: Aber die n\u00e4chste Folge wird sich jetzt noch nicht um Zeitreihen drehen, wir schauen mal, wann das gut reinpasst. Trotzdem wissen wir noch nicht, worum es in der n\u00e4chsten Folge geht, deswegen wird die \u00dcberraschungsfolge am 22. April erscheinen, da wir diesmal ja aus Termingr\u00fcnden fr\u00fch aufnehmen und uns noch nicht entschieden haben, was das n\u00e4chste Thema sein wird. Also wir haben viele Themen zur Auswahl, aber was wir nehmen, schauen wir mal, ihr werdet sehen.<\/p>\n<h3>Call to Action (01:02:56)<\/h3>\n<p>Janine: Genau. Und wenn ihr das sehen beziehungsweise vor allem h\u00f6ren wollt, dann folgt uns doch auf Mastodon unter (at) datenleben@podcasts.social oder auf Twitter unter (at) datenleben. Besucht gerne unsere Webseite www.datenleben.de, manchmal erscheinen da auch Blogposts und wie Helena schon sagte, wir sind jetzt auch auf YouTube und versuchen da ein bisschen Content reinzubringen. Guckt doch gerne mal vorbei, ob euch das gef\u00e4llt, was wir da machen und hinterlasst uns zu allem gerne Feedback. Wir freuen uns immer sehr dar\u00fcber, falls ihr uns als Data Scientist buchen wollt f\u00fcr Analysen oder Projekte, dann schreibt auch das gerne und falls ihr Fragen oder Themen habt, die euch interessieren, dann, ja, ihr kennt unsere Kontakte.<\/p>\n<p>Helena: Dann bleibt mir nur noch f\u00fcr eure Aufmerksamkeit zu danken und bis zum n\u00e4chsten Mal. Ciao.<\/p>\n<p>Janine: Tsch\u00fcss.<\/p>\n<h3>Outro (01:03:50)<\/h3>\n","protected":false},"author":2,"featured_media":717,"comment_status":"open","ping_status":"open","template":"","meta":{"footnotes":""},"tags":[],"class_list":["post-728","podcast","type-podcast","status-publish","has-post-thumbnail","hentry","post"],"_links":{"self":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/728","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes"}],"about":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/types\/podcast"}],"author":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/comments?post=728"}],"version-history":[{"count":10,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/728\/revisions"}],"predecessor-version":[{"id":769,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/728\/revisions\/769"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/media\/717"}],"wp:attachment":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/media?parent=728"}],"wp:term":[{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/tags?post=728"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}