dl027: data science – 2 jahre datenleben

dl027: data science – 2 jahre datenleben

Intro (00:00:00)

Thema des Podcasts (00:00:18)

Willkommen zu unserer 27. Folge beim datenleben-Podcast, dem Podcast über Data Science.
Wir sind Helena und Janine und möchten mit euch die Welt der Daten erkunden.
Es wird immer wichtiger Daten in das Große Ganze einordnen zu können.
In unserem Podcast wollen wir deswegen Data Science anhand von Themen erklären, die uns alle betreffen.

Thema der Folge (00:00:38)

  • Eigentlich war für diese Folge das Thema Meeresspiegel bzw. Wasserspiegel angekündigt
  • Aber wie ihr wir hatten Urlaub und 50% von uns waren danach krank, das hat uns ein bisschen die eigentlichen Pläne zerrupft
  • Am 04. Juli 2020 haben wir diesen Podcast das erste Mal auf die Welt losgelassen
  • Seitdem haben wir über 24 Stunden Inhalt produziert; und! es sind viele Hörer*innen dazugekommen
  • Hallo ihr alle, wir freuen uns, dass ihr uns hört
  • Wir wollen gleich ein bisschen den Blick zurück werfen und Helena erzählt nochmal, was Data Science ist und ob mensch das überhaupt braucht...
  • Janine erzählt was wir hier eigentlich machen und warum wir das so machen, wie wir es tun
  • Und wir highlighten Folgen, die aus unserer Sicht einen guten Einstieg anbieten, weil sie sehr elementare Dinge/Probleme/whatever von Data Science aufzeigen

Warum ist das Thema interessant? (00:02:20)

  • Das hier wird eine Art Überblicksfolge, weil datenleben jetzt zwei Jahre alt ist
  • Data Science revisited: Folge 1 vielleicht ein bisschen geupdatet, aber vermutlich nicht ganz überlappend mit Folge 1
  • Folge 1 wird immer noch am allermeisten gehört, aber da waren wir noch ganz frisch und vielleicht noch nicht so gut
  • Deswegen nutzen wir das Jubiläum, für ein Update, auch für neue Hörer*innen, die dazu kommen

Einspieler: Data Science und datenleben (00:02:59)

  • Stell dir vor du lebst in einer Welt voller Daten... oh wait...
  • Stell dir vor du könnsten automatisiert diese Daten erfassen und auswerten... oh wait...
  • Ich glaube wir brauchen uns diese dinge nicht vorstellen, sie sind längst Realität und für jede einzelne Generation wird das alles um so selbstverständlicher
  • Früher haben wir noch per Telefonzelle bescheid gegeben
  • Heute können wir prinzipiell die Wege von Menschen ins kleinste Detail nachvollziehen
  • Datenerhebung war noch nie so einfach
  • Aber damit geht auch Verantwortung einher... oh und nicht zu vergessen die Fähigkeit die Masse an Daten zu überblicken
  • Und das können Data Scientists für uns übernehmen, wenn wir als Gesellschaft zwischen den Datenpunkten zu ertrinken drohen
  • Data Science heißt für uns
    • Sich der Daten bewusst zu werden
    • Die Daten zu erheben und aufzubereiten
    • Daten und ihre Kontexte kritisch betrachten zu können
    • Das Messverfahren zu kennen
    • Menschen dazu befähigen mittels Daten informierte Entscheidungen treffen zu können
  • Unser Podcast soll Überblicke und Einsichten in die verschiedenen Themen von Data Science bieten
    • Mal am konkreten Alltag gezeigt
    • Mal an globalen Themen betrachtet
    • Und nebenbei auf wichtige Themen wissenschaftlicher und gesellschaftlicher Art eingehen
    • Themen aufzeigen, die unser Leben, unsere Umwelt und unseren Alltag betreffen können

Was machen wir hier eigentlich und warum so? (00:04:41)

  • vor 2 jahren haben wir diesen podcast gestartet und es macht uns immer noch spaß
  • Folge 1 ist jetzt lange her, wir dachten, wir gucken uns dieses Thema nochmal kurz und knapp an für alle, die neu zum Podcast gekommen sind und nicht von Folge 1 ab alles nachhören
  • Wer in unsere Folgen Historie schaut, könnte sich vielleicht Fragen, geht es wirklich um Data Science?
  • Klar, wir sprechen zum Beispiel über Standarddatensätze oder Datenvisualisierung, das klingt schon sehr nach Data Science
  • Aber warum auch über Klimawandel, Studien zu Drogen oder über Wahlumfragen reden?
  • Weil Forschung immer Daten erhebt, die ausgewertet werden und weil Data Science sich damit beschäftigt WIE Daten ausgewertet werden können
  • Wir sind keine Klimaforscherinnen, keine Unfallexpertinnen...
  • Aber unser Zugang zu den Themen basiert nicht darauf alles über die Disziplin zu wissen, mit der wir uns befassen, sondern anzusehen, wie mit den Daten umgegangen wird und werden kann
  • Im Wesentlichen ist das auch die Arbeit von Data Scientists:
  • Es gibt immer wieder neue Kontexte, neue Projekte, in die sich eingearbeitet werden muss
  • Eins bleibt dabei immer gleich: Die Expertise im Umgang mit Daten
  • Wie suchen wir die themen aus?
  • Danach, was wir selbst an Interessen haben und was wir wichtig finden, dass sich Menschen darüber Gedanken machen
  • Wovon wir denken, dass es a) im Kontext Data Science spannend ist
  • Und die b) gut illustrieren, wie Data Science mit unserem Leben, unseren Entscheidungen verzahnt ist
  • Wir wollen dazu anregen auch auf Basis von Daten informierte Entscheidungen zu treffen
  • Es ist nicht so leicht anhand von Informationen ein garantiertes Ergebnis vorherzusagen
  • Helena hat Star Trek "Strange new Worlds" geguckt und findet die Herangehensweise der Vulkanier nicht zielführend, keine Entscheidungen zu treffen, wenn nicht alle Informationen vorliegen, denn oft gibt es diesen Zeitpunkt nicht, wo alles bekannt ist
  • Nicht zu reagieren, auch wenn zeitkritisch reagiert werden muss, hat auch Einfluss auf das Ergebnis (Beispiel: Pandemie, Handeln war nötig, obwohl vieles anfangs noch unbekannt war)
  • Helena widerspricht den vermeintlich extram logischen Vulkaniern, denn man muss auch mit unvollständigen Informationen informierte Entscheidungen treffen
  • Und das ist ein Kernpunkt von Data Science

Was ist Data Science, braucht man das? (00:08:58)

  • Wir brauchen Data Science, weil wir so viele Daten haben, dass wir Menschen brauchen, die wissen, wie damit umzugehen ist
  • Wir brauchen nicht nur Statistiker*innen, Datan Analysts, sondern auch Menschen, die die Daten erfassen, etc.
  • Beispiel: Flugpläne optimieren, die richtige Frage formulieren, die dann zu einem passenden Ergebnis führt und mit Daten beantwortet werden kann
  • Antworten müssen in einer verständlichen Sprache formuliert werden
  • Problem: Manchmal werden Dinge vorhergesagt, die nicht eintreffen, weil sich die Gegebenheiten geändert haben, ein Denkfehler dabei war, etc. damit muss man umgehen können

'If you're considering going into this field, definitely consider how comfortable you are delivering results that aren't super clear-cut and that you may find out later turned out to be wrong! 😆' @BecomingDataSci, Twitter

  • Deutsch etwa: Wenn du vor hast im Bereich Data Science zu arbeiten, denk darüber nach, wie gern du auch Ergebnisse, die nicht so richtig eine klare Antwort geben, kommunizieren möchtest; vor allem, wenn die sich später als falsche herausstellen
  • Also wie Du damit umgehen kannst und dass du damit umgehen kannst, dich auch mal geirrt zu haben (sehr relevanter Punkt)
  • Verschiede Subbereiche von Data Science Interview - SQL for Data Scientists, ab 33:55
    • Data Analyst -> wertet Daten aus/arbeitet mit Daten
    • Data Engineer -> sammeln Rohdaten und verarbeiten so, dass die für andere nutzbar sind
    • Machine Learning Specialist
  • Helena war im April auf einer Data Scienc Konferenz, da gab es einen Vortrag "Braucht man überhaupt noch Data Scientists"? Dr. Setareh Sadjadi: Do we really need Data Scientists?
  • Überlegung dahinter: Vielleicht braucht es keine Data Scientists, weil es gibt ja die Spezialisierungen Der Vortrag behandelt die Frage, ob sich Data Science als Berufsfeld nicht in kürze selbst überholt hätte
  • Ein weiteres Argument ist, dass automatische Machine Learning Tools Leute ersetzen die selbst mit Daten arbeiten und es nur noch die Leute braucht die dann Ergebnisse angucken
  • Ausserdem gäbe es mittlerweile so viele selbst ernannte Data Siencetists, dass der Markt gesättigt sei
  • Die Vortragende selbst berichtet aber davon wie schwierig es ist überhaupt Data Scientists zu finden, daher hält sie das Argument für vorgeschoben dass schon zuviele gäbe
  • Und wer mit Machine Learning gearbeitet hat, weiß, dass es uns nicht so schnell überflüssig machen wird, wie manche Leute das gerne behaupten
  • Entwicklung der Künstlichen Intelligenz ist viel langer als es nach außen den Anschein macht, es braucht hier noch den Menschen, der sich die Dinge auch ansieht und bewertet
  • Data Science scheint also sehr umfangreich zu sein, welche Skills muss man so mitbringen?
  • Auf jeden Fall statistisches Grundwissen und man sollte schon Programmieren können, insbesondere
  • Technische Key Skills:
    • Python oder R -> sind die wesentlichen Programmiersprachen in diesem Bereich
    • Tools: Jupyter Notebook bzw. RStudio als Entwicklungsumgebungen sinnvoll
    • Erfahrungen mit verschiedenen Formen von Daten, wie Datenbanken, z.B. SQL
    • Grundverständnis von Cloudsystemen und Softwareadministration, z.B. Docker
  • Es geht bei Data Science nicht nur darum Daten einmalig auszuwerten, sondern das ganze kontinuierlich machen zu können
  • Daher schadet es nicht, ein bisschen was mit DevOps-Methoden anfangen zu können
  • Je nach Bereich in den man geht, sollte man auch die Erfahrungen sammeln, z.B. Maschine Learning
  • Aber Data Science ist nicht nur Maschine Learning! Es gibt viele Themen, die komplett ohne auskommen und es ist auch nicht immer die beste Lösung
  • Nicht-Technische Key Skills:
    • Kommunication sowohl mit technischen Personen und nicht-technischen Personen notwendig
    • Hartnäckickigkeit, wenn Dinge nicht funktionieren, viel trial and error aushalten
    • Kreativität im Umgang mit den Daten und um neue Lösungswege zu finden
    • Neugier ist wichtig, recherchieren, wie andere Leute Dinge machen, bereit sein mehr zu lernen
  • Viele der genannten Dinge sind im Vortrag SQL for Data Scientists (ab 33:55) auf der Women in Data Science Conference enthalten
  • Was tun um Data Scientist zu werden?
  • Eine Option ist der Quereinstieg aus Informatik oder einer wissenschaftlichen Fachrichtung, insbesondere wenn eh viel mit Daten gearbeitet wurde
  • Es hilft in Projekten zu sein, wo andere mit Daten arbeiten; man muss nicht alles von Anfang an können, manchmal lernt man einfach während man dran arbeitet
  • Es gibt mittlerweile Data Science als Studiengang an verschiedenen
    deutschen Unis:
  • Studis online: Studiengänge Data Science / Data Management, Bachelor
  • Versucht während des Studiums schon thematisch passend zu Arbeiten, viele große Unternehmen und Forschungsinstitute haben sogenannte Werksstudentenjobs
  • Erfahrung unter realistischen Bedingungen sammeln kann, ohne dass gleich verlangt wird dass man alles schon kann

Welche Folgen empfehlen wir zum Einstieg? (00:24:48)

  • In welche Folgen lohnt es sich am meisten reinzuhören, als Neuhörer*in?
  • Wir wollen drei Folgen nennen, die besonders gut auf bestimmte Aspekte von Data Science eingehen
  • dl013: datenvisualisierung
    • Technische Einblicke in Datenvisualisierung mit Data Science
    • Es geht nicht nur um die Darstellung selbst (Kommunikation von Daten)
    • ... sondern auch um das Kennenlernen von Daten (Exploration)
    • ... und das überprüfen der Methode/Modelle der Analyse (Verifikation)
  • dl004: racial profiling
    • Beschäftigt sich damit woher Daten kommen und was die Konsequenzen daraus sind
    • Welchen Effekt hat die Herkunft der Daten und was passiert, wenn z.B. Justizbehörden auf Basis von Daten Urteile fällen
    • Ein sehr akutes Beispiel ist die Illegalisierung von Abtreibungen in einigen Staaten der USA
    • Besonders kritisch vor dem Hintergrund welche Datenspuren wir in unserem Alltag hinterlassen: Einkäufe von Schwangerschaftstests mit EC oder Kreditkarte, Apps, die den Zyklus tracken, etc.
    • Eins Beispiel dafür, wie scheinbar "unschuldige" Daten schädlich genutzt werden können, nur weil sich die Gesetzeslage ändert
    • Und genau darum geht es in Folge 4, nur eben am Beispiel racial profiling
  • dl023: web scraping weihnachtsmarkt
    • Wir haben interessante Daten im Internet gefunden und die könnten wir ja mal benutzen
    • Worum es genau geht: Kontext von Daten ist wichtig – Kenne dein Messverfahren
  • Das sind die Folgen, die wir für einen schnellen Einstieg zu Kernaspekten von Data Science empfehlen, aber natürlich seid ihr herzlich eingeladen alle anderen auch zu hören

Fazit (00:29:54)

  • In unserem Podcast gibt es technische, aber auch gesellschaftliche Themen, in wie fern Daten unser Leben beeinflussen
  • Es gibt aber auch den wissenschaftlichen Teil, zum Beispile die Klimadaten
  • Unser Ziel ist es, nicht nur die technischen Details zu beleuchten, sondern alles was mit Date Science zu tun hat; Auswertungen, Einfluss der Messergebnisse auf unser Leben, was es braucht um Data Scientist zu werden und auch Darstellungen einfach besser zu verstehen
  • Wir hoffen das konnte diese Folge ganz gut zeigen
  • Als Data scientist braucht man ein gewisses Maß an Frustrationstoleranz, aber vor allem Spaß am konstruktiven und kreativen Umgang mit Problemen und Lösungswegen
  • Fähigkeiten in Sachen Programmieren und Statistik können ziemlich wichtig sein
  • Inzwischen muss man nicht mehr Quereinsteigen in dieses Feld, sondern es gibt inzwischen Studiengänge
  • Das war es so grob, worum es diese Folge ging

Nächste Folge: Wasserspiegel Anfang Juli 2022 (00:31:37)

  • Es geht um das Klima, wir machen mit der klimadaten-Reihe weiter
  • Wir hatten in dl007: klimadaten über die Aspekte Waldbrände, Meeresspiegelanstieg und Temperaturkurven geredet und dann zu jedem eine eigene Folge machen wollen
  • Davon sind bereits erschienen: dl008: temperaturkurven und dl014: waldbrände
  • Jetzt geht es in Folge 28 weiter mit Meeres- bzw. Wasserspiegel
  • Dafür gucken wir uns die letzten beiden Veröffentlichung des IPCC Berichtes an
  • Wir gucken uns an wie sich das da mit dem Meeresspiegel und der Klimakrise und grundsätzlich Wasser auf diesem Planeten verhält

Call to Action (00:32:27)

  • Wenn ihr uns weiter hören möchtet, folgt uns auf Twitter unter @datenleben & Mastodon unter @datenleben@chaos.social
  • Oder besucht unsere Webseite: www.datenleben.de
  • Hinterlasst uns gerne Feedback, wir würden uns darüber sehr freuen
  • Ihr könnt uns als Data Scientists auch Buchen für Analysen oder Projekte
  • Habt ihr Fragen oder Themen, die euch interessieren? Dann schreibt uns!

Outro (00:33:05)

Schlagworte zur Folge

Data Science, Podcast, Ziel, Inhalt, datenleben

Quellen

Weiterführende Links


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.