{"id":585,"date":"2022-06-04T12:00:37","date_gmt":"2022-06-04T10:00:37","guid":{"rendered":"podlove-2022-05-30t13:13:06+00:00-c786c0a50307624"},"modified":"2022-06-04T12:51:53","modified_gmt":"2022-06-04T10:51:53","slug":"dl026-datathon","status":"publish","type":"podcast","link":"https:\/\/www.datenleben.de\/index.php\/2022\/06\/04\/dl026-datathon\/","title":{"rendered":"dl026: datathon \u2013 women in data science"},"content":{"rendered":"\n\t\t\n            <div class=\"podlove-web-player intrinsic-ignore podlove-web-player-loading\" id=\"player-6a500b7d9afdd\"><root data-test=\"player--xl\" style=\"max-width:950px;min-width:260px;\">\n  <div class=\"tablet:px-6 tablet:pt-6 mobile:px-4 mobile:pt-4 flex flex-col\">\n    <div class=\"flex-col items-center mobile:flex tablet:hidden\">\n      <show-title class=\"text-sm\"><\/show-title>\n      <episode-title class=\"text-base mb-2\"><\/episode-title>\n      <subscribe-button class=\"mb-4 mobile:flex tablet:hidden\"><\/subscribe-button>\n      <poster class=\"rounded-sm w-48 shadow overflow-hidden\"><\/poster>\n      <divider class=\"w-full my-6\"><\/divider>\n    <\/div>\n\n    <div class=\"tablet:flex flex-grow\">\n      <div class=\"w-64 mobile:hidden tablet:block tablet:mr-6\">\n        <poster class=\"rounded-sm shadow overflow-hidden\"><\/poster>\n      <\/div>\n      <div class=\"w-full\">\n        <div class=\"hidden tablet:block\">\n          <show-title class=\"text-base\"><\/show-title>\n          <episode-title class=\"text-xl desktop:text-2xl\"><\/episode-title>\n          <divider class=\"w-full my-4\"><\/divider>\n        <\/div>\n        <div class=\"flex items-center justify-between\">\n          <div class=\"block\">\n            <play-state on=\"active\">\n              <speed-control class=\"flex items-center\"><\/speed-control>\n            <\/play-state>\n          <\/div>\n\n          <div class=\"flex\">\n            <play-state on=\"active\">\n              <chapter-previous class=\"mx-2 block\"><\/chapter-previous>\n            <\/play-state>\n            <play-state on=\"active\">\n              <step-backward class=\"mx-2 block\"><\/step-backward>\n            <\/play-state>\n\n            <play-button class=\"mx-2 block\" :label=\"$t('PLAYER.PLAY_EPISODE')\"><\/play-button>\n\n            <play-state on=\"active\">\n              <step-forward class=\"mx-2 block\"><\/step-forward>\n            <\/play-state>\n            <play-state on=\"active\">\n              <chapter-next class=\"mx-2 block\"><\/chapter-next>\n            <\/play-state>\n          <\/div>\n\n          <div class=\"block\">\n            <play-state on=\"active\">\n              <volume-control class=\"flex items-center\"><\/volume-control>\n            <\/play-state>\n          <\/div>\n        <\/div>\n        <div class=\"flex w-full\">\n          <progress-bar><\/progress-bar>\n        <\/div>\n        <div class=\"flex w-full -mt-2\">\n          <div class=\"w-3\/12 text-left\">\n            <timer-current class=\"text-sm\"><\/timer-current>\n          <\/div>\n          <div class=\"w-6\/12 text-center truncate\">\n            <play-state on=\"active\">\n              <current-chapter class=\"text-sm\"><\/current-chapter>\n            <\/play-state>\n          <\/div>\n          <div class=\"w-3\/12 text-right\">\n            <timer-duration class=\"text-sm\"><\/timer-duration>\n          <\/div>\n        <\/div>\n      <\/div>\n    <\/div>\n    <divider class=\"w-full mt-6 mb-3\"><\/divider>\n    <div class=\"flex justify-between\">\n      <div class=\"flex mobile:w-full tablet:w-3\/12 desktop:w-3\/12 justify-between\">\n        <tab-trigger tab=\"chapters\">\n          <icon type=\"chapter\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"transcripts\">\n          <icon type=\"transcripts\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"files\">\n          <icon type=\"download\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"playlist\">\n          <icon type=\"playlist\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"share\">\n          <icon type=\"share\"><\/icon>\n        <\/tab-trigger>\n      <\/div>\n      <subscribe-button class=\"mt-1 mobile:hidden tablet:flex\"><\/subscribe-button>\n    <\/div>\n  <\/div>\n  <div class=\"w-full relative overflow-hidden\">\n    <tab name=\"chapters\">\n      <tab-chapters><\/tab-chapters>\n    <\/tab>\n    <tab name=\"transcripts\">\n      <tab-transcripts><\/tab-transcripts>\n    <\/tab>\n    <tab name=\"files\">\n      <tab-files><\/tab-files>\n    <\/tab>\n    <tab name=\"playlist\">\n      <tab-playlist><\/tab-playlist>\n    <\/tab>\n    <tab name=\"share\">\n      <tab-share><\/tab-share>\n    <\/tab>\n    <tab-overflow><\/tab-overflow>\n  <\/div>\n  <error><\/error>\n<\/root>\n<\/div>\n            <script>\n              document.addEventListener(\"DOMContentLoaded\", function() {\n                var player = document.getElementById(\"player-6a500b7d9afdd\");\n                podlovePlayerCache.add([{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/wp-json\\\/podlove-web-player\\\/shortcode\\\/publisher\\\/585\",\"data\":{\"version\":5,\"show\":{\"title\":\"datenleben\",\"subtitle\":\"der podcast \\u00fcber data science\",\"summary\":\"Was ist Data Science? Was bedeuten die Daten f\\u00fcr unser Leben? Woher kommen sie und wozu werden sie benutzt?\\r\\nDas sind alles Fragen, mit denen wir uns auseinander setzen werden.\\r\\nWer schon immer mehr \\u00fcber Daten und deren Effekt auf unser Leben wissen wollte, ist hier genau richtig.\",\"poster\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/image\\\/687474703a2f2f7777772e646174656e6c6562656e2e64652f77702d636f6e74656e742f75706c6f6164732f323032302f30362f636f7665722e706e67\\\/500\\\/0\\\/0\\\/datenleben\",\"link\":\"https:\\\/\\\/www.datenleben.de\"},\"title\":\"dl026: datathon \\u2013 women in data science\",\"subtitle\":\"Was ist der Women in Data Science Datathon?\",\"summary\":\"Wir haben mit zwei anderen Menschen an dem Women in Data Science Datathon der Stanfort University teilgenommen und berichten davon. Es geht darum, wie der Datathon organisiert ist und wie wir uns selbst organisiert haben. Wir erz\\u00e4hlen von den Problemen, die die Aufgabe beinhaltet hat und wie wir damit umgegangen sind bis hin dazu, was unsere finale L\\u00f6sung geworden ist. Dazu haben wir nat\\u00fcrlich die anderen beiden \\u2013 Piko und Keks \\u2013 auch eingeladen.\",\"publicationDate\":\"2022-06-04T12:00:37+02:00\",\"duration\":\"00:55:53.391\",\"poster\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/image\\\/68747470733a2f2f7777772e646174656e6c6562656e2e64652f77702d636f6e74656e742f75706c6f6164732f323032322f30352f3032365f436f7665725f76322e706e67\\\/500\\\/0\\\/0\\\/dl026-datathon-women-in-data-science\",\"link\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/2022\\\/06\\\/04\\\/dl026-datathon\\\/\",\"chapters\":[{\"start\":\"00:00:00.000\",\"title\":\"Intro\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:00:18.452\",\"title\":\"Thema des Podcasts\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:00:38.883\",\"title\":\"Thema der Folge\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:01:34.663\",\"title\":\"Warum ist dieses Thema interessant?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:02:53.012\",\"title\":\"Wer sind Piko und Keks?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:04:02.384\",\"title\":\"Einspieler\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:05:58.759\",\"title\":\"Wie war der datathon organisiert?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:10:03.059\",\"title\":\"Wie haben wir uns organisiert und die Daten erschlossen?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:13:41.643\",\"title\":\"Was ist One Hot Encoding?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:16:47.576\",\"title\":\"Was gab es noch f\\u00fcr Stolpersteine in den Daten?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:29:12.385\",\"title\":\"Unsere Einreichung: Neuronales Netz oder doch ein Entscheidungsbaum?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:40:44.291\",\"title\":\"Wie sahen andere L\\u00f6sungen aus?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:43:46.647\",\"title\":\"Wie war der Datathon f\\u00fcr uns?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:50:26.040\",\"title\":\"Fazit\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:53:20.972\",\"title\":\"N\\u00e4chste Folge: Wasserspiegel im Juni 2022\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:54:34.923\",\"title\":\"Call to Action\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:55:41.354\",\"title\":\"Outro\",\"href\":\"\",\"image\":\"\"}],\"audio\":[{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/file\\\/105\\\/s\\\/webplayer\\\/c\\\/website\\\/DL026_datathon.mp3\",\"size\":\"54580573\",\"title\":\"MP3 Audio (mp3)\",\"mimeType\":\"audio\\\/mpeg\"}],\"files\":[{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/file\\\/105\\\/s\\\/webplayer\\\/DL026_datathon.mp3\",\"size\":\"54580573\",\"title\":\"MP3 Audio\",\"mimeType\":\"audio\\\/mpeg\"}]}}, {\"url\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/wp-json\\\/podlove-web-player\\\/shortcode\\\/config\\\/default\\\/theme\\\/datenleben\",\"data\":{\"activeTab\":\"chapters\",\"subscribe-button\":null,\"share\":{\"channels\":[\"link\",\"facebook\",\"twitter\",\"whats-app\",\"linkedin\",\"pinterest\",\"xing\",\"mail\"],\"outlet\":\"https:\\\/\\\/www.datenleben.de\\\/wp-content\\\/plugins\\\/podlove-web-player\\\/web-player\\\/share.html\",\"sharePlaytime\":true},\"related-episodes\":{\"source\":\"disabled\",\"value\":null},\"version\":5,\"theme\":{\"tokens\":{\"brand\":\"#fff\",\"brandDark\":\"#fff\",\"brandDarkest\":\"#000\",\"brandLightest\":\"#8cc240\",\"shadeDark\":\"#807E7C\",\"shadeBase\":\"#807E7C\",\"contrast\":\"#000\",\"alt\":\"#8cc240\"},\"fonts\":{\"ci\":{\"name\":\"ci\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":800},\"regular\":{\"name\":\"regular\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":300},\"bold\":{\"name\":\"bold\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":700}}},\"base\":\"https:\\\/\\\/www.datenleben.de\\\/wp-content\\\/plugins\\\/podlove-web-player\\\/web-player\\\/\"}}]);\n                podlovePlayer(player, \"https:\/\/www.datenleben.de\/index.php\/wp-json\/podlove-web-player\/shortcode\/publisher\/585\", \"https:\/\/www.datenleben.de\/index.php\/wp-json\/podlove-web-player\/shortcode\/config\/default\/theme\/datenleben\").then(function() {\n                  player && player.classList.remove(\"podlove-web-player-loading\");\n                });\n              });\n            <\/script>\n            <style>\n              .podlove-web-player.podlove-web-player-loading {\n                opacity: 0;\n              }\n            <\/style>\n        \n\t\n\t\t\n<h3>Intro (00:00:00)<\/h3>\n<h3>Thema des Podcasts (00:00:18)<\/h3>\n<p>Willkommen zur 26. Folge beim datenleben-Podcast, dem Podcast \u00fcber Data Science. Wir sind Helena und Janine und m\u00f6chten euch die Welt der Daten n\u00e4her bringen. Was f\u00fcr Daten gibt es? Was k\u00f6nnen wir aus ihnen lernen? Und wie k\u00f6nnen wir sie \u00fcberhaupt benutzen? Wer schon immer mehr dar\u00fcber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.<\/p>\n<h3>Thema der Folge (00:00:39)<\/h3>\n<ul>\n<li>Wir haben zusammen mit zwei anderen Menschen an einem datathon teilgenommen und m\u00f6chten heute dar\u00fcber erz\u00e4hlen<\/li>\n<li>Und zwar handelte es sich um den <a href=\"https:\/\/www.widsconference.org\/datathon.html\">Women in Data Science Datathon der Stanfort University<\/a><\/li>\n<li>Weltweit haben mehrere Hundert Teams teilgenommen und wir wollten auch mitmischen<\/li>\n<li>Was wir dabei und wie wir das erlebt haben, wie wir uns organisiert haben und was die interessanten Probleme waren, die sich uns dabei gestellt haben<\/li>\n<li>Ausserdem welche L\u00f6sungen wir -- und auch andere -- entwickelt haben  <\/li>\n<li>Dazu haben wir nat\u00fcrlich die anderen beiden auch eingeladen, die sich gleich noch kurz vorstellen, nachdem Helena uns jetzt erstmal erz\u00e4hlt, warum wir das Thema interessant genug f\u00fcr eine Folge finden <\/li>\n<li>Also es geht gleich darum, wie der Datathon strukturiert war, wie wir uns organisiert und wie wir gearbeitet haben und was allgemein so unsere Erfahrung damit war<\/li>\n<\/ul>\n<h3>Warum ist das Thema interessant? (00:01:35)<\/h3>\n<ul>\n<li>Seit Lisa in Folge <a href=\"https:\/\/www.datenleben.de\/index.php\/2021\/09\/11\/dl018-3d-modelle-aus-fotos\/\">dl018: 3d-modelle aus fotos<\/a> vom Coding da Vinci Datathon erz\u00e4hlt hat, wollten wir auch mal an einem Datathon teilnehmen<\/li>\n<li>Weil datathons bieten praxisnahe Themen und im Team arbeiten, analysieren und lernen macht Spa\u00df<\/li>\n<li>Die Teams durften aus bis zu 4 Leuten bestehen und deswegen haben wir uns Verst\u00e4rkung geholt<\/li>\n<li>Zum einen Piko, Piko war schon in der Folge <a href=\"https:\/\/www.datenleben.de\/index.php\/2021\/12\/04\/dl021-python-lernen\/\">dl021: python lernen!<\/a> dabei<\/li>\n<li>Zum anderen Keks, die heute zum ersten Mal bei uns im Podcast ist<\/li>\n<\/ul>\n<h3>Wer sind Piko und Keks? (00:02:53)<\/h3>\n<ul>\n<li>Piko wohnt in Hamburg, eigentliche Ausbildung Musik und Stimme<\/li>\n<li>ist \u00fcber Hacking und Aktivismus in die Informatik gekommen<\/li>\n<li>gibt Python-Kurse und promoviert zur Anwendung von Maschinelearning im Musiktheater<\/li>\n<li>Nebenher ganz viel Feminismus; bei den Haecksen aktiv<\/li>\n<li>Keks schreibt gerade eine Masterarbeit in Astrophysik, muss daf\u00fcr auch Dinge programmieren<\/li>\n<li>Am Datathon auch teilgenommen, um eingerostete Pythonkenntnisse f\u00fcr die Masterarbeit aufzufrischen wollen<\/li>\n<li>Ansonsten vor allem mit politischer Bildungsarbeit besch\u00e4ftigt<\/li>\n<\/ul>\n<h3>Einspieler: Was ist ein Datathon? (00:04:02)<\/h3>\n<ul>\n<li>Ein Datathon ist im Wesentlichen das gleiche wie ein <a href=\"https:\/\/de.wikipedia.org\/wiki\/Hackathon\">Hackathon<\/a><\/li>\n<li>Und ein Hackathon wiederum ist eine Veranstaltung, bei der innerhalb eines bestimmtes Zeitraumes Projekte entwickelt oder weiterentwickelt werden.<\/li>\n<li>Es setzt sich zusammen aus Hacken und Marathon.<\/li>\n<li>Ziel ist es in der vorgegebenen Zeit mit technischen und kreativen Ans\u00e4tzen L\u00f6sungen f\u00fcr die gestellte Aufgabe oder das vorliegende Problem zu finden.<\/li>\n<li>Beziehungsweise verbergen sich hinter einem Hackathon oft weitere Ziele, die \u00fcber die Aufgabenstellung hinaus gehen<\/li>\n<li>Manche Firmen und Unternehmen nutzen diese als eine Form der Produktentwicklung<\/li>\n<li>Oft k\u00f6nnen auch Start-Ups aus Hackathons entstehen <\/li>\n<li>Andere richten sich eben an bestimmte Zielgruppen, zum Beispiel auch an Jugendliche, um die Auseinandersetzung mit Technologie zu f\u00f6rdern und einiges mehr<\/li>\n<li>Beim Datathon geht es wiederum ganz konkret um den Umgang mit Daten.<\/li>\n<li>So auch beim Datathon der Stanfort University, der zusammen mit der Konferenz Women in Data Science stattfindet.<\/li>\n<li>Im Falle des Women in Data Science Datathons ist das Ziel, Frauen zum Einstieg in Data Science zu ermutigen<\/li>\n<li>Entsprechend sieht auch das Angebot aus, sich bei der Konferenz zu beteiligen, an Workshops teilzunehmen und sich mit anderen zu vernetzen.<\/li>\n<li>Bei der diesj\u00e4hrigen Ausgabe war das Thema Umwelt und Klimawandel im Fokus<\/li>\n<li>Es gab einen gro\u00dfen Datensatz mit Geb\u00e4uden und deren spezifischen Eigenschaften wie Geb\u00e4udenutzung, Geb\u00e4udetyp, welcher von x m\u00f6glichen Standorten als Variable<\/li>\n<li>Zus\u00e4tzlich waren Angaben zu den klimatischen Bedingungen gegeben, wie Hitzetage, Nebel, Niederschlag und mehr<\/li>\n<li>Es wurden \u00fcber 25800 Eintr\u00e4ge auf der Plattform des Datathons vorgenommen<\/li>\n<li>Von \u00fcber 4000 Registrierungen haben 1800 Personen Eintr\u00e4ge vorgenommen<\/li>\n<li>Und die Teilnehmer*innen kamen aus \u00fcber 90 L\u00e4ndern<\/li>\n<\/ul>\n<h3>Wie war dar Datathon organisiert? (00:05:59)<\/h3>\n<ul>\n<li>Die Anmeldung erfolgte \u00fcber die Stanfort University<\/li>\n<li>Zus\u00e4tzlich mussten wir uns auch auf <a href=\"https:\/\/kaggle.com\/\">https:\/\/kaggle.com\/<\/a> anmelden<\/li>\n<li>Kaggle: bietet die M\u00f6glichkeit Datathons einzurichten, Teams zu bilden, Daten auszutauschen, sich zu vernetzen<\/li>\n<li>Ist so eine Art Social Media f\u00fcr Data Scientists<\/li>\n<li>Wir haben dort einen Datensatz mit \u00fcber 70.000 Eintr\u00e4gen bekommen und einen zweiten Datensatz mit \u00fcber 10.000<\/li>\n<li>Mit dem kleineren Datensatz sollten wir dann Testen den Energieverbrauch vorherzusagen und unser Ergebnis auf der Plattform hochzuladen<\/li>\n<li>Das wurde dann mit den echten Werten abgeglichen und dann tauchen die einreichenden Teams auf dem Scoreboard auf, wo zu sehen ist, wer wie nah herangekommen ist an die echten Werte<\/li>\n<li>Das wurde w\u00e4hrend des Datathons auf der H\u00e4lfte der Daten gerechnet<\/li>\n<li>Aus dem Grund, damit der eigene Algorithmus nicht nur darauf abgestimmt wird, einen besseren Score auf dem Leaderboard zu erhalten<\/li>\n<li>Es gab auf Kaggle auch Beispielauswertungen von den Veranstalter*innen, als erste Anhaltspunkte<\/li>\n<li>Der Datathon ging 2,5 Monate und wurde die ganze Zeit von weiteren Veranstaltungen begleitet<\/li>\n<li>Unter anderem: Vortr\u00e4ge zum Datensatz, wie bestimmte Modelle bearbeitet werden etc.<\/li>\n<li>Weil wir dort ein Team bilden mussten auf Kaggle, haben wir uns auch einen Namen gegeben: Intrusive Unicorn<\/li>\n<li>First things first: Unser Team Name lautet Intrusive Unicorn - Aufdringliches Einhorn<\/li>\n<li>F\u00fcr das besteste Teamfeeling entstand daf\u00fcr auch ein Logo, was sehr motivierend war<\/li>\n<\/ul>\n<h3>Wie haben wir uns organisiert und die Daten erschlossen? (00:10:03)<\/h3>\n<ul>\n<li>1 w\u00f6chentliches Treffen, wo wir zusammen Dinge besprechen, Aufgaben verteilen<\/li>\n<li>Dazwischen gab es Treffen, wo wir zu zweit an den Dingen gearbeitet haben<\/li>\n<li>Es gab 2 Arbeitstreffen um konkret am Code zu frickeln und anzupassen -&gt; Pairprogramming<\/li>\n<li>Pairprogramming: 1 Person ist der &quot;Driver&quot;, die Person, die alles ausf\u00fchrt und 1 Person (bei uns mehrere), die die Ansagen macht, was gemacht werden muss <\/li>\n<li>Es bearbeitet immer nur die 1 Person den Code, w\u00e4hrend die andere eben Vorschl\u00e4ge macht etc.<\/li>\n<li>Vorher mussten wir aber die Daten kennenlernen<\/li>\n<li>Wichtig: Wie kriege ich gute Daten hin? Vor allem wenn viele Informationen fehlen?<\/li>\n<li>Eine Sache war das Energy Star Rating, das nur f\u00fcr 70% der Geb\u00e4ude vorlag<\/li>\n<li>Also erste Frage: Kann man damit was anfangen?<\/li>\n<li>Zweite Frage: Was kann man damit anfangen?<\/li>\n<li>Es gibt verschiedene Daten: einige sind Zahlen, andere nicht <\/li>\n<li>facility_type: 1 Kategorie mit 60 verschiedenen M\u00f6glichkeiten<\/li>\n<li>Wohnh\u00e4user, Gesch\u00e4ftsh\u00e4user, etc.<\/li>\n<li>Einzelne davon kommen sehr oft vor, andere sehr selten<\/li>\n<li>Idee: Wir m\u00fcssen die Kategorien in Zahlen umwandeln<\/li>\n<li>Piko hat daf\u00fcr das Vorgehen mit One Hot Encoding vorgeschlagen<\/li>\n<\/ul>\n<h3>Was ist One Hot Encoding? (00:13:42)<\/h3>\n<ul>\n<li>Nehmen wir 5 H\u00e4usertypen: Wohnhaus, Schuppen, Tiefgarage, Mehrfamilienhaus, B\u00fcroturm<\/li>\n<li>Problem: weisen wir einfach der Reihe nach die Zahlen 1 bis 5 zu, stolpert die KI dar\u00fcber <\/li>\n<li>Wenn es unsicher ist, ob es 1 oder 3 ist, w\u00fcrde die KI die Mitte, also 2 ausgeben und damit einfach sagen: Es ist ein Schuppen!<\/li>\n<li>Das funktioniert also nicht <\/li>\n<li>Bei One Hot Encoding werden aus 1 Kategorie mit 5 Variablen erstmal 5 Kategorien gemacht<\/li>\n<li>Und dann wird geguckt zu wie viel Prozent das Ding in welche Kategorie passt <\/li>\n<li>Wenn es zu 0,4% ein Wohnhaus, zu 0,2% ein Schuppen und zu 0,3% ein Hochhaus<\/li>\n<li>So hat man zwar viele Kategorien, wei\u00df aber, welche Auspr\u00e4gung davon wahrscheinlicher ist\/stattfindet <\/li>\n<li>Das ist wichtig, weil ja der Schuppen nicht das Mittelding aus Wohnhaus und Hochhaus ist <\/li>\n<li>Aus der Kategorie mit 60 Auspr\u00e4gungen haben wir letztendlich 3 Kategorien gemacht, weil wir Subtypen zusammengefasst haben<\/li>\n<\/ul>\n<h3>Was gab es noch f\u00fcr Stolpersteine in den Daten? (00:16:48)<\/h3>\n<ul>\n<li>Ein Beispiel ist die Jahr-Kategorie<\/li>\n<li>Die wich manchmal zwischen den beiden Datens\u00e4tzen voneinander ab, deswegen haben wir sie erstmal ausgelassen<\/li>\n<li>Die Bundesstaaten haben wir nicht mit Namen genannte bekommen, sondern mit Zahlen von 1 bis 6<\/li>\n<li>Die waren in beiden Datens\u00e4tzen jeweils unterschiedlich h\u00e4ufig vorhanden<\/li>\n<li>In die Daten wurde im Vorfeld viel Arbeit gesteckt, um zum Beispiel die Bundesstaaten zu anonymisieren<\/li>\n<li>Eine Idee die wir zwischendruch hatten: Die Daten deanonymisieren, aber das haben wir schnell verworfen<\/li>\n<li>Wir haben uns sehr intensiv damit befasst, wof\u00fcr die Spaltennamen stehen und was wir damit tun sollen<\/li>\n<li>Janine und Keks hatten ein Treffen, um sich nur damit zu befassen, was eigentlich hinter den Daten steckt<\/li>\n<li>Teils steckten da komplexe meteorologische Rechnungen und Angeben hinter<\/li>\n<li>Es war auch sehr spannend, erstmal von den Zahlen zur\u00fcckzutreten und zu \u00fcberlegen, was das jeweils bedeutet und wie man damit umgehen kann<\/li>\n<li>Fragen: Was hat welchen Einfluss? Ist diese Angabe f\u00fcr uns \u00fcberhaupt wichtig?<\/li>\n<li>Energy Star Rating spielte vermutlich eine sehr gro\u00dfe Rolle, die maximale Windgeschwindigkeit vermutlich eher nicht<\/li>\n<li>Haben uns auch die Frage gestellt, warum diese Analyse und der Versuch so einer Vorhersage \u00fcberhaupt relevant ist<\/li>\n<li>Was k\u00f6nnte das Ziel dieser Analyse sein? Wie und wof\u00fcr kann diese angewendet werden?<\/li>\n<li>Zum Beispiel, wie wird sich der Energieverbrauch haben, welche H\u00e4user sollten gebaut werden?<\/li>\n<li>Passt dieser H\u00e4usertyp in diese Region mit seinem Energieverbrauch?<\/li>\n<li>K\u00f6nnte das Modell helfen in die Zukunft zu projizieren, wie sich die Energiebilanz der H\u00e4user \u00e4ndert, wenn sich das Klima in der jeweiligen Region wie ver\u00e4ndert?<\/li>\n<li>Janine fand es sehr hilfreich nicht nur abstrakt mit den Daten umzugehen, sondern einen praktischen Ansatz zu w\u00e4hlen und zu \u00fcberlegen, was diese Analyse leisten kann<\/li>\n<li>Baujahre der Geb\u00e4ude: Es gab ein Geb\u00e4ude das im Jahr 0 gebaut wurde<\/li>\n<li>Das stach sehr heraus und es kann vermutet werden, dass das vielleicht ein Defaultwert ist<\/li>\n<li>Die n\u00e4chste Jahreszahl war dann etwas mit 1600<\/li>\n<li>Wir brauchten statt der 0 aber einen &quot;richtigen Wert&quot;, also haben wir ein Durchschnittsbaujahr berechnet und eingetragen<\/li>\n<li>So etwas haben wir bei einigen anderen Parametern auch gemacht, fehlende Werte wurden h\u00e4ufiger durch Durschnittswerte ersetzt<\/li>\n<li>Oder auch mal mit dem Median, was der mittlere Wert ist zwischen allen Werten, die Existieren und nicht der Durchschnitt als allen vorhandenen Werten<\/li>\n<li>Eine andere Option: Wenn in einem Datensatz zu einem Geb\u00e4ude zu viele Werte fehlen, kann man den auch mal ganz rauswerfen<\/li>\n<li>Bei Datens\u00e4tzen zu 70.000 Geb\u00e4uden macht es nichts, wenn einige fehlen <\/li>\n<li>Einige Spalten\/Kategorien haben wir auch entfernt, weil dort teilweise bis zu 80% der Daten fehlten<\/li>\n<li>Oder eben ob die Angabe f\u00fcr uns \u00fcberhaupt spannend, hat es einen Effekt auf unser Modell?<\/li>\n<li>Da mussten wir eine Balance f\u00fcr finden<\/li>\n<li>Die Daten waren ja im Vorfeld auch schon gut bearbeitet, das war auch Teil der Herausforderung<\/li>\n<li>Einige Probleme wurden absichtlich im Datensatz belassen, da auch das Bereinigen der Daten Teil der Aufgabe von Data Scientists ist<\/li>\n<li>F\u00fcr die Bereinigung der Daten haben wir uns viele Histogramme und Boxplots angeguckt, wie oft kommen welche Daten vor etc.<\/li>\n<\/ul>\n<h3>Unsere Einreichung: Neuronales Netz oder doch ein Entscheidungsbaum? (00:29:12)<\/h3>\n<ul>\n<li>Danach ist die Frage: Wie kommen wir von den Daten auf die Zahlen, die wir am Ende ausrechnen wollen?<\/li>\n<li>Wir haben mit einem neuronalen Netz angefangen<\/li>\n<li>Das sind sozusagen mathematische Funktionen, die hintereinander geschaltet werden und ihre Ergebnisse aneinander \u00fcbergeben<\/li>\n<li>Diese einzelnen Fuktionen werden als Neuronen, wie sie in Gehirnen existieren, bezeichnet<\/li>\n<li>So viele Zahlen, wie man in das Netz wirft, so viele Neuronen hat es zu beginn<\/li>\n<li>Am Ende wirft es dann ebenfalls Zahlen raus<\/li>\n<li>Wenn ein Ergebnis rauskommt, dass wir abgleichen k\u00f6nnen mit realen Daten und sehen, dass das nicht stimmt, k\u00f6nnen wir das neuronale Netz anpassen, bis es in diesem Punkt stimmt<\/li>\n<li>Problem Overfitting: Wenn das Modell zu gut auf die Trainingsdaten angepasst ist, funktioniert es vielleicht nicht richtig auf den echten Daten dann<\/li>\n<li>Deswegen teilt man die Daten vorher in verschiedene Gruppen auf: Trainingsdaten, Testdaten, Validierungsdaten<\/li>\n<li>Damit das neuronale Netz nicht zu spezifische Regeln &quot;auswendig lernt&quot; und sie auf alles anwendet, auch wenn es nicht mehr passt <\/li>\n<li>Wir haben herausgefunden, dass das Energy Star Rating die Vorhersage durchgehend besser macht, als wenn es ausgelassen w\u00fcrde<\/li>\n<li>Aber weil das teilweise als Angabe fehlte, und wir mit diesem Modell auch recht weit hinten im Scoreboard waren, haben wir weiter \u00fcberlegt, was es f\u00fcr Optionen gibt<\/li>\n<li>Nur weil neuronale Netze hip und cool sind, m\u00fcssen sie ja nicht die beste L\u00f6sung sein<\/li>\n<li>Helena kam darauf, dass die besseren Vorhersagen von einem Entscheidungsbaum erzeugt wurden<\/li>\n<li>Entscheidungsb\u00e4ume verwenden wir selbst auch ganz oft, zum Beispiel wenn wir uns beim Aufr\u00e4umen entscheiden m\u00fcssen, wohin wir etwas tun<\/li>\n<li>Nimm einen Gegenstand in die Hand: Ist es ein Kleidungsst\u00fcck? Wenn Ja, tu es in den Kleiderschrank. Wenn nein, ist es ein Buch? Wenn ja, tu es in das B\u00fccherregal, etc.<\/li>\n<li>So k\u00f6nnen belieb komplizierte B\u00e4ume mit Verzweigungen entstehen und jeder Gegenstand wird dabei behandelt<\/li>\n<li>Entscheidungsb\u00e4ume werden von der Maschine selber gebaut, sieht im Datensatz Dinge und errechnet daraus, welche Regeln am effizientesten sind<\/li>\n<li>Was sollte als erstes gefragt werden, um den gr\u00f6\u00dften Teil klar aufzuteilen?<\/li>\n<li>Wir haben die Modelle mit verschiedenen Entscheidungsb\u00e4umen gerechnet <\/li>\n<li>Um die Ergebnisse zu optimieren, hat Helena ein paar Werte mit Durchschnitten verschiedener Modelle berechnet <\/li>\n<li>Damit sind wir dann auf Platz 337 von 829 Teams gelandet, also in den Top 50% \ud83d\ude00<\/li>\n<li>Mit den neuronalen Netzen w\u00e4ren wir im letzten Zehntel gelandet <\/li>\n<li>Die ersten 6 Wochen haben wir uns fast nur damit befasst: Was passiert hier eigentlich in den Daten?<\/li>\n<\/ul>\n<h3>Wie sahen andere L\u00f6sungen aus? (00:40:44)<\/h3>\n<ul>\n<li>Nach dem Datathon haben auch andere Teams ihre Einreichungen ver\u00f6ffentlicht?<\/li>\n<li>Die B\u00e4ume kamen auch bei den besten Einreichungen mit vor<\/li>\n<li>Es war offensichtlich, dass sie auch mehr Zeit investiert haben, um mehr Details zu testen <\/li>\n<li>Offenbar hatten die auch eine ganz wesentliche Erkenntnis: Wenn man kein Energy Star Rating hat, wird das Ergebnis immer auf die gleiche Weise untersch\u00e4tzt<\/li>\n<li>Sie haben das dann immer mit einem konstanten Faktor multipliziert und da verschiedene Faktoren getestet<\/li>\n<li>Helena wei\u00df nicht warum das funktioniert, ist aber sehr fasziniert von dem Ergebnis<\/li>\n<li>Eine konstante Versch\u00e4tzung hei\u00dft, dass Modell hat einen Bias<\/li>\n<li>Eine andere Gruppe hatte Entscheidungsb\u00e4ume und neuronale Netze und mehr ausprobiert, die haben die Ergebnisse aus allen Modellen genommen und dann gewichtet und daraus Durchschnittswerte gebildet, die das Modell besser gemacht haben <\/li>\n<li>Das hatte Helena innerhalb der Entscheidungsb\u00e4ume auch so gemacht bei uns, aber eben nicht mit verschiedenen Modellen<\/li>\n<\/ul>\n<h3>Wie war der Datathon f\u00fcr uns? (00:43:47)<\/h3>\n<ul>\n<li>Was war schwierig? Was hat uns sehr gefallen?<\/li>\n<li>F\u00fcr Janine war der schwierige Part das Verst\u00e4ndnis f\u00fcr den Datensatz zu entwickeln <\/li>\n<li>Dabei sind auch sch\u00f6n viele Randbereiche aufgetaucht, in die man sich einarbeiten konnte <\/li>\n<li>Es ist sehr cool mit einem Team teilzunehmen, in dem man sich wohl f\u00fchlt<\/li>\n<li>Und es ist sch\u00f6n zu merken, dass jede*r sich einbringen konnte mit dem eigenen Wissen <\/li>\n<li>Keks hat es Spa\u00df gemacht im Team, auch kennen zu lernen, wie die anderen arbeiten<\/li>\n<li>Sch\u00f6n war auch, dass alles ohne Druck war und wir einfach nur schauen wollten, wie es ist<\/li>\n<li>Hat ein Gef\u00fchl f\u00fcr Data Science und Maschinelearning entwickelt und wird sich vielleicht auch beruflich in diese Richtung orientieren<\/li>\n<li>Fand es spannend zu sehen, mit was f\u00fcr unterschiedlichen Voraussetzungen wir was beitragen konnten <\/li>\n<li>Es macht Sinn, wenn wir was lernen wollen, auch mal was ganz anderes inhaltlich zu machen und dabei etwas zu lernen, was auch angewendet werden kann<\/li>\n<li>F\u00fcr Piko war ausschlaggebend die gute Atmosph\u00e4re im Team, zum Beispiel in den Pairprogramming Sessions<\/li>\n<li>Es gab kein Ungleichgewicht, dass einzelne nur erkl\u00e4rt haben, sondern Austausch und Beitrag von allen<\/li>\n<li>Fand es gut Maschinlearning auch mal praktisch anzuwenden und zu merken, dass die vorher theoretisch gelernten Sachen auch verstanden waren und angewendet werden konnten <\/li>\n<li>Helena fand es auch cool im Team zu arbeiten, allein f\u00fcr die Motivation und die Verbindlichkeit am Ball zu bleiben<\/li>\n<li>Fand es gut Maschinelearning mal wieder aufzufrischen und anwenden zu k\u00f6nnen, weil es im Berufsalltag eher weniger vorkommt<\/li>\n<li>Inhaltliches Learning: Mit neuronalen Netzen angefangen, aber nur weil es vielseitig und komplex ist, ist es nicht unbedingt das beste, es geht auch mal mit einfacheren Prozessen<\/li>\n<li>Vorbereitung der Daten hat echt viel Zeit in Anspruch genommen<\/li>\n<li>W\u00fcrden wir das wieder machen? Ja!<\/li>\n<\/ul>\n<h3>Fazit (00:50:26)<\/h3>\n<ul>\n<li>Der Women of Data Science Datathon war gut aufgezogen, es gibt Infos, Veranstaltungen und Austausch auch zwischen den Teams via Kaggle<\/li>\n<li>Wir hatten eine feste Arbeitsstruktur mit regelm\u00e4\u00dfigen treffen, 1x Woche + Treffen zu Themen zu zweit<\/li>\n<li>Von den Skills her divers aufgebaute Teams k\u00f6nnen gut funktionieren, es sollten aber ein Mensch dabei sein, der*die schon Erfahrungen im Bereich Data Science hat<\/li>\n<li>Es geht super viel Zeit drauf, um die Daten kennenzulernen und zu putzen<\/li>\n<li>F\u00fcr diesen Datathon hat f\u00fcr unser Team der Entscheidungsbaum besser funktioniert als ein neuronales Netz<\/li>\n<li>Wichtigstes Fazit: Austausch einfach super wichtig<\/li>\n<li>Feststellung: Es ist m\u00f6glich Vorhersagen \u00fcber den Energieverbrauch zu treffen<\/li>\n<li>Spannend, weil es zeigt, dass es m\u00f6glich ist, mit dieser Datenanalyse wirklich praktische Dinge machen zu k\u00f6nnen<\/li>\n<li>Falls Menschen zuh\u00f6ren, die Interesse daran haben auch mal mitzumachen: der Women in Data Science Datathon findet offenbar jedes Jahr statt<\/li>\n<li>Ansonsten gibt es auch andere Datathons \u00fcber Kaggle zu finden<\/li>\n<\/ul>\n<h3>N\u00e4chste Folge: Wasserspiegel im Juni 2022 (00:53:21)<\/h3>\n<ul>\n<li>Es geht um das Klima, wir machen mit der klimadaten-Reihe weiter<\/li>\n<li>Wir hatten in dl007: klimadaten \u00fcber die Aspekte Waldbr\u00e4nde, Meeresspiegelanstieg und Temperaturkurven geredet und dann zu jedem eine eigene Folge machen wollen<\/li>\n<li>Davon sind bereits erschienen: <a href=\"https:\/\/www.datenleben.de\/index.php\/2020\/11\/28\/dl008-temperaturkurven\/\">dl008: temperaturkurven<\/a> und <a href=\"https:\/\/www.datenleben.de\/index.php\/2021\/05\/22\/dl014-waldbraende\/\">dl014: waldbr\u00e4nde<\/a><\/li>\n<li>Jetzt geht es in Folge 27 weiter mit Meeres- bzw. Wasserspiegel<\/li>\n<li>Daf\u00fcr gucken wir uns die letzten beiden Ver\u00f6ffentlichung der IPCC Berichte an <\/li>\n<li>Wir gucken uns an wie sich das da mit dem Meeresspiegel und der Klimakrise und grunds\u00e4tzlich Wasser auf diesem Planeten verh\u00e4lt<\/li>\n<\/ul>\n<h3>Call to Action (00:54:35)<\/h3>\n<ul>\n<li>Wenn ihr uns weiter h\u00f6ren m\u00f6chtet, folgt uns auf Twitter unter <a href=\"https:\/\/twitter.com\/datenleben\">@datenleben<\/a> &amp; Mastodon unter <a href=\"https:\/\/chaos.social\/@datenleben\">@datenleben@chaos.social<\/a><\/li>\n<li>Oder besucht unsere Webseite: <a href=\"https:\/\/www.datenleben.de\/\">www.datenleben.de<\/a><\/li>\n<li>Hinterlasst uns gerne Feedback, wir w\u00fcrden uns dar\u00fcber sehr freuen<\/li>\n<li>Ihr k\u00f6nnt uns als Data Scientists auch Buchen f\u00fcr Analysen oder Projekte<\/li>\n<li>Ausserdem hat Helena auf  einen Vortrag gehalten, der inzwischen auf YouTube ver\u00f6ffentlicht ist: <\/li>\n<li>Guckt gerne auch Helenas Vortrag von der PyConDE &amp; PyData Berlin, die im April stattfand: <a href=\"https:\/\/www.youtube.com\/watch?v=Es8HGYVweU0\">Rewriting your R analysis code in Python<\/a><\/li>\n<li>Habt ihr Fragen oder Themen, die euch interessieren? Dann schreibt uns!<\/li>\n<\/ul>\n<h3>Outro (00:55:41)<\/h3>\n<h3>Schlagworte zur Folge<\/h3>\n<p>Hackathon, Datathon, Maschine Learning, Neuronales Netz, Neuronale Netze, Entscheidungsbaum, Entscheidungsb\u00e4ume, Teamarbeit, Data Science, Datenanalyse<\/p>\n<h3>Links<\/h3>\n<ul>\n<li><a href=\"https:\/\/www.widsconference.org\/datathon.html\">WiDS Datathon<\/a><\/li>\n<li><a href=\"https:\/\/www.datenleben.de\/index.php\/2021\/09\/11\/dl018-3d-modelle-aus-fotos\/\">dl018: 3d-modelle aus fotos<\/a><\/li>\n<li><a href=\"https:\/\/www.datenleben.de\/index.php\/2021\/12\/04\/dl021-python-lernen\/\">dl021: python lernen!<\/a><\/li>\n<li><a href=\"https:\/\/de.wikipedia.org\/wiki\/Hackathon\">Wikipedia: Hackathon<\/a><\/li>\n<li><a href=\"https:\/\/kaggle.com\/\">https:\/\/kaggle.com\/<\/a><\/li>\n<li><a href=\"https:\/\/www.datenleben.de\/index.php\/2020\/11\/28\/dl008-temperaturkurven\/\">dl008: temperaturkurven<\/a><\/li>\n<li><a href=\"https:\/\/www.datenleben.de\/index.php\/2021\/05\/22\/dl014-waldbraende\/\">dl014: waldbr\u00e4nde<\/a><\/li>\n<li><a href=\"https:\/\/www.youtube.com\/watch?v=Es8HGYVweU0\">YouTube, PyData: Helena Schmidt \u2013 Rewriting your R analysis code in Python<\/a><\/li>\n<\/ul>\n","protected":false},"author":2,"featured_media":588,"comment_status":"open","ping_status":"open","template":"","meta":{"footnotes":""},"tags":[],"class_list":["post-585","podcast","type-podcast","status-publish","has-post-thumbnail","hentry","post"],"_links":{"self":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/585","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes"}],"about":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/types\/podcast"}],"author":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/comments?post=585"}],"version-history":[{"count":2,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/585\/revisions"}],"predecessor-version":[{"id":587,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/585\/revisions\/587"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/media\/588"}],"wp:attachment":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/media?parent=585"}],"wp:term":[{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/tags?post=585"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}