dl009: Jahresrückblick

dl009: Jahresrückblick

Intro (00:00:00)

Thema des Podcasts (00:00:18)

Willkommen zur neunten Folge beim datenleben-Podcast, dem Podcast über Data Science!
Wir sind Helena und Janine und möchten euch mitnehmen in die Welt der Daten.
Was ist Data Science? Was bedeuten die Daten für unser Leben? Woher kommen sie und wozu werden sie benutzt?
Das sind alles Fragen, mit denen wir uns auseinander setzen.
Wer schon immer mehr über Daten und deren Effekt auf unser Leben wissen wollte, ist hier genau richtig.

Thema der Folge (00:00:46)

  • Auch wir möchten bei den Jahresrückblicken mitspielen und uns ansehen, was so passiert ist
  • Wir haben unseren Podcast begonnen, eine Pandemie hat uns überrollt, die USA haben gewählt
  • Helena hat erzählt, welche Data Science Themen im Jahr 2020 dominiert haben
  • Ein bisschen wollen wir auch orakeln, was so 2021 angeht, welche Themen uns erwarten

Warum ein Jahresrückblick (00:02:09)

  • Möglichkeit mal auf die Metaebene zu gehen und auch mal über den Podcast selber zu reden
  • Bietet auch Platz für kleinere Themen, die jetzt vielleicht keine ganze Folge füllen werden
  • Im Einspieler wird 2020 einmal im Schnelldurchlauf abgespult, irgendwie war doch einiges los

Einspieler: Jahresrückblick — 2020 im Schnelldurchlauf (00:03:57)

Unser erstes (halbes) Podcastjahr (00:11:23)

  • Unser Podcast ist im Juli erstmals erschienen und damit jetzt ein knappes halbe Jahr alt
  • Die erste Folge wurde und wird mit Abstand am häufigsten heruntergeladen
  • In absoluten Zahlen ist die zweite Folge zu Coronadaten auf Platz zwei
  • Guckt man aber nach Laufzeit und Downloads ist Folge fünf zum Wetterprojekt sehr erfolgreich
  • Janines favorisierte Folgen: Racial Profiling (wichtiges Thema: und #FrauenLesen (Herzensthema)
  • Helenas favorisierte Folge: Temperaturkurven (hat bei der Recherche viel dazugelernt)
  • Schön ist am Podcasten, wie viel man aus den Themen selbst noch mitnehmen kann und dass man sich dabei so in immer wieder neue spannende Themen einarbeiten kann
  • Wie kam es dazu? Idee gab es schon länger und arbeiten auch schon in anderen Projekten zusammen
  • Helena hört schon seit immer viel Podcasts und hatte Lust darauf einen eigenen zu starten
  • Data Science lag nahe, weil es das Thema im deutschsprachigen Bereich noch nicht so oft gibt
  • Janine war begeistert, weil sie als Geisteswissenschaftlerin gerne Wissen vermittelt
  • Wir freuen uns sehr über das positive Feedback, das wir bisher auch bekommen haben

Was nehmen wir mit aus 2020 an Themen oder Erkenntnissen?

Coronadaten und 2020 (00:23:35)

  • Dieses Thema, aus Folge 2, wollen wir nochmal aufgreifen, weil sich seitdem ja einiges getan hat
  • Was für Effekte sind in der Zwischenzeit noch aufgetaucht?

Was hat es imt der ruhigen Erde auf sich? (00:24:11)

  • Wenn der Mensch die Füße still hält, beruhigt sich auch der Planet, d.h. die seismische Aktivität während Lockdowns ist messbar zurückgegangen
  • Hier hat die ETH Zürich eine Meldung zu publizierten Forschungsergebnissen rausgegeben
  • Es wurden Datensätze von über 300 seismischen Stationen auf der ganzen Welt analysiert
  • Eine "Welle der Ruhe" breitete sich von China in die restliche Welt aus
  • Längste und markanteste Menschen verursachte seismische Lärmreduktion, die aufgezeichnet wurde
  • Interessant weil neue Ansätze für die Forschung gegeben sind: Bewegungsmuster des Menschen können ggf. mit diesen neuen Daten künftig erkannt und rausgerechnet werden
  • Wichtiges Ziel: bisher verborgene Signale von Erdbeben und Vulkanen zu finden

Wie sieht die Unfallstatistik jetzt aus? (00:27:47)

Haben die Maßnahmen einen Effekt auf die Grippesaison? (00:28:55)

  • Es zeigt sich: Maskenpflicht + Hygieneregeln haben einen Effekt auf Erkältungen und Grippeviren
  • Das RKI beschreibt einen Rückgang von Atemwegserkrankungen im Vergleich zum Vorjahreszeitraum:

Vermutlich stehen die niedrigeren ARE-Raten im Zusammenhang mit der Einhaltung der AHA-Regeln (plus Lüften) und der erneuten Kontaktbeschränkungen seit dem 02.11.2020 (45. KW), womit das Ansteckungsrisiko für Atemwegserkrankungen ganz allgemein deutlich reduziert wurde. Quelle

  • Auch hier können sich die Zahlen durch Nachmeldungen noch ändern, Trend scheint aber da zu sein
  • Dies zeigt auch der Blick auf die Südhalbkugel, wo die Grippesaison bereits überstanden ist
  • Dort sei die Influenza-Aktivität kaum messbar gewesen

Helena wie steht es um die Luftverschmutzung? (00:31:49)

  • Durch den Lockdown gab es einen starken Rückgang der Luftverschmutzung
  • Dieses Jahr könnte das Klimaziel deswegen vielleicht erreicht werden, nur aufgrund des Lockdowns
  • Es sind zum Beispiel auch einige auf das Fahrrad umgestiegen, mal gucken, wie nachhaltig das ist
  • Untersuchung zeigte, dass nur wenige Tage homeoffice immense Summen an CO2 einsparen

Wozu soll dieser sogenannte Kontext gut sein? (00:34:45)

  • Wir haben bei der Coronapandemie relativ live miterlebt, wie die Wissenschaft arbeitet
  • Dass nicht alle Erkenntnisse in Stein gemeißelt sind, sondern auch aktualisiert werden können
  • Coronadaten zeigten auch: Kontext für Grafiken ist wichtig
  • Es wurde gezeigt wo Infektionen stattfinden, dabei wurde teils weggelassen, dass man bei 75% der Ansteckungen nicht weiß, wo sie passiert sind
  • Von den gezeigten 25% fanden wiederum 75% im Privaten statt, falscher Schluss: die meisten Ansteckungen finden im Privaten statt
  • Fügt man die unbekannten 75% jeweils hinzu, wird offensichtlich wie sich die Aussage verschiebt
  • Beispiel Paratexte: Welche Infos brauche ich für Textverständnis?
  • Hörspiel "Krieg der Welten" (1938): Was passiert, wenn wir den Kontext ignorieren?
  • Die angebliche Massenpanik war zwar eine Zeitungsente, aber es gab dennoch besorgte Menschen
  • Was wir aus dieser Legende lernen können: Es gibt immer menschen, die Ziele verfolgen
  • Etwa auch mit absichtlich generierten Falschmeldungen, wie man sie im Internet oft findet
  • Empfehlung: Hört euch mal das Hörspiel "Krieg der Welten" an, Klassiker der Sci-Fi-Literatur

Warum gibt es keine guten Duftkerzen mehr? (00:43:18)

  • Ein besonders herausragendes Symptom von Covid-19 ist der Geschmacksverlust
  • Begriff etwas irreführend, da der Geschmack auf der Zunge weiterhin funktioniert
  • Riechverlust würde es vielleicht besser treffen, aber bei laufender Nase weniger Riechen zu können ist dann vielleicht wieder zu unspezifisch
  • Offenbar wird aber dieses Symptom auch gerne mal nicht wirklich wahrgenommen
  • Kate Petrova wertete aus wie auf Amazon Duftkerzen in den letzten Jahren bewertet wurden
  • Es wurde sich seit Corona zunehmend beschwert, dass Duftkerzen nicht riechen würden
  • Getreu nach dem Motto Kenne dein Messverfahren hat sie auch die Sternebewertung herangezogen
  • Als Kontrollgruppe auch die Entwicklung der Bewertung von Nicht-Duftkerzen angeschaut
  • Die hat sich 2020 nur leicht verschlechtert, während Duftkerzen deutlich schlechter abschnitten

Die Wahl in den USA 2020: Trump vs. Biden (00:47:54)

  • Aktueller Stand: Trump weiter fleißig vor Gericht, Biden müsste nach Wahlmenschen gewinnen
  • Am 14.12.2020 werden die Wahlmenschen ihre Stimmen abgeben
  • Gute Informationen über alle Zusammenhänge mit den Wahlen finden sich immer auf FiveThirtyEight
  • Machen viele Datenanalysen, unter anderem haben sie auch eine Vorhersagen aus Umfragen erstellt
  • 40.000 Wahlen simuliert: Trumps Chancen lägen demnach bei 10%, Bidens bei 89%
  • Kritik an Umfragen: Sie sind sehr unpräzise und können ganz anders ausfallen, als Wahlergebnisse
  • Beispiel: Shy Torie Effect von 1992
  • Popular Vote: Biden lag kontinuierlich vorne, 2016 lag Hillary Clinton auch hier vorne, wurde aber nicht Präsidentin, weil nach Wahlmenschen entschieden wird
  • Pandemieeffekt: Viel mehr Briefwähler*innen, aber nur bei den Demokraten, sorgte für Aufregung
  • Daher sah es zuerst so aus, als würde Trump vorne liegen, bis die später ausgezählten Briefwahlunterlagen in die Statistik mit eingeflossen sind
  • Beispiel: Pennsylvania, Biden konnte mit 80% der Briefwahlstimmen an ihm vorbeiziehen
  • Laura Bronner twitterte dazu bereits am 04. November, wie sich das Verhältnis verschiebt
  • Im Hintergrund der Wahl mussten Datenanalysten permanent bestimmen, ob ein Staat für einen Kandidaten feststeht
  • Übersichtskarte über Wählerstimmen: Teilweise irreführend von der farblichen Gestaltung her
  • Gute Darstellung: Land does not vote, People do
  • Es gab zahlreiche verschiedene Karten, die interessante Perspektiven auf die Wahl geben
  • Zum Beispiel danach, welche Bevölkerungsgruppen wie gewählt haben, anhand von Geographie
  • Glücklicherweise hatte Trumps Framing gegen die Briefwahlstimmen etc. keinen Effekt

Welche Data Science Themen gab es in 2020? (01:04:40)

  • Zwei besonders erwähnenswerte Themen: GPT-3 Sprachmodell und das Problem von Proteinfaltungen

Was ist der Sprachgenerator GPT-3? (01:05:13)

  • Im Mai 2020 wurde GPT-3 veröffentlicht, dritte Version des von OpenAI entwickelten Sprachmodells
  • Die Texte sind so gut, dass sie nicht mehr einfach von merschlichen Texten zu unterscheiden sind
  • GPT-3 dabei ein Neuronales Netz; Abkürzung steht für: Generative Pre-trained Transformer
  • Transformer sind eine bestimmte Art von neuronalen Netzen die sequentielle Daten verarbeiten
  • Sequentielle Daten sind Daten mit einem klar definierten Anfang und Ende, etwa Texte oder Musik
  • Generative heißt dann, dass es Etwas erzeugen kann, in diesem Fall eben Text
  • In einem Interview des Deutschlandfunk sprach Christian Chiarcos über das erste Buch, das von einem Computer geschrieben wurde und in einem Wissenschaftsverlag erschienen ist
  • Es enthält von der KI erstellte Zusammenfassungen über Forschungstexte zu einem bestimmten Thema
  • Warum möchte man, dass Computer Bücher schreiben?
  • Beispiele: "Wiederbelebung" verstorbener Autoren; Unterstützung bei der Forschungsarbeit
  • Große Frage: Kann GPT-3 als KI intelligent sein?
  • Turing-Test Kurzfassung: Eine Person am Rechner chattet mit jemandem und soll mittels Fragen feststellen, ob die andere Entität ein Mensch oder eine KI ist
  • Wenn die KI es schafft als Mensch durchzugehen, ist der Turing-Test bestanden
  • Blogbeitrag: Giving GPT-3 a Turing Test

Turing-Test: Ist Janine ein Mensch? (01:14:51)

  • Fragerunde 1: Triviafragen der Art "Was ist schwerer, eine Maus oder ein Elefant?"
  • Fragerunde 2: Triviafragen der Art "Wie viele Augen hat eine Giraffe?", "… eine Sonne?"
  • Fragerunde 3: Absurde Fragen der Art "Wie sporgelst Du einen Morgel?"
  • Letzte Frage: Verstehst Du diese Fragen?
  • Fazit: Bei Wissensfragen schneidet GPT-3 eher besser ab als Menschen es würden
  • Aber: Wo keine Daten vorliegen, kann die KI nicht richtig antworten, deswegen sind Bleistifte vielleicht auch mal schwerer als Toaster
  • Ist Janine ein Mensch: Hm, vielleicht
  • Mehr zum Thema Turing-Test gibt es in einer künftigen datenleben-Folge (;

Was hat Data Science mit Proteinfaltungen zu tun? (01:23:27)

  • Proteine bestehen aus über 100 Aminosäuren, die wiederum Moleküle sind, die aus Atomen bestehen
  • Proteine kodieren Gene, es gibt 180 Millionen verschiedene Proteine
  • Biologische Funktion von Proteinen hängt stark davon ab, welche Form sie haben
  • Es ist aber nur die Struktur von ca. 170.000 Proteinen bekannt
  • Das Berechnen der Form, bzw. der Faltung eines Proteins ist sehr sehr rechenauwendig
  • Bisher waren Menschen deutlich besser als Computer darin, hier optimale Ergebnisse zu erzeugen, daher wurde Proteinfaltung als Spiel angeboten
  • Am 30.11. wurde die Nachricht verbreitet, dass Proteinfaltungen gelöst sind
  • DeepMind: AlphaFold: a solution to a 50-year-old grand challenge in biology
  • Das gehört zu den wichtigen Data Science Problemen wo jederzeit ein Sprung möglich ist
  • Sprung meint: Keine kontinuierliche Verbesserung in der Forschung, sondern eine neue Entwicklung den Stand der Technik plötzlich enorm weiterbringt
  • Beispiel: Vor 10 Jahren, wurden Deep Neural Networks entwickelt, die Deep Learning konnten
  • Ein Kandidat für einen weiteren Sprung ist das Thema Deep Fakes

Was erwartet uns in 2021? (01:28:32)

  • Glaskugel auspacken! Was könnte uns in 2021 erwarten?
  • In Sachen Data Science Entwicklungssprünge: Autonomes Fahren bietet sich an, Deep Fakes könnten auch noch weitere Sprünge produzieren
  • Mehr Corona, hoffentlich keine weiteren Pandemien
  • Wie geht es weiter mit Corona? Impfungen, Impfwirkung, Langzeiterkenntnisse allgemein zu Corona
  • Podcast: Wir wollen unser erstes Ganzes Podcastjahr bestreiten
  • Themen auf unserer Liste: Verständlichkeit von Grafiken, Künstliche Intelligenz und vieles mehr
  • Vor allem auch ein paar mehr Interviewfolgen sind auch geplant
  • Bundestagswahlen 2021, mit einer Wahlumfragen-Folge von uns
  • Die große Frage in 2021 ist nämlich, wer wird die nächste Bundeskanzlerin?
  • Wir planen mindestens 12 neue Podcast-Folgen zu veröffentlichen

Fazit 2020 (01:33:34)

  • Wie war das Jahr 2020 für Dich? Januar, Februar, März, Quarantäne, Dezember.
  • Janines Fazit zum Jahr: Merkwürdig, was das Zeitgefühl angeht; viel gelernt; nicht so entspannend, wie der reduzierte Terminkalender einem suggeriert
  • Die Pandemie hat die Ressourcen immer ganz gut weggefressen
  • Komplette Ambivalenz des Lebens in ganzer Bandbreite vorhanden gewesen
  • Helenas Fazit zum Jahr: Totale Achterbahnfahrt; bis März lief alles; Lockdown hat zunächst Verteidigung der Doktorarbeit verhindert
  • Dann im Sommer doch den Doktortitel verteidigen können; mehr Lockdown und US-Wahl-Panik
  • Manchmal war es entspannend, aber Feiern gehen wird doch sehr vermisst und Festivals
  • Generell: am besten nicht zu sehr drauf hoffen, dass 2021 sehr viel besser wird, aber vielleicht wird der Weg ja insgesamt gut

Nächste Folge: #remoteChaos3xperience am 30.01.2021 (01:38:43)

  • Wir machen eine kleine Winterpause, indem wir eine Folge aussetzen
  • Die nächste Folge zum #rC3 oder auch der #remoteChaos3xperience erscheint am 30.01.2021
  • #rC3 ist die Online-Alternative zum Chaos Communication Congress des CCC
  • Werden uns viele Vorträge angucken und über Data Science relevante Vorträge berichten
  • Anregungen geben, welche Vorträge sehenswert sind
  • Auch für nicht so technikaffine Menschen gibt es dort viele tolle Themen zu entdecken!

Call to Action (01:40:46)

  • Wenn ihr uns weiter hören möchtet, folgt uns auf Twitter unter @datenleben
  • Oder besucht unsere Webseite: www.datenleben.de mit unseren Shownotes etc.
  • Hinterlasst uns gerne Feedback, wir würden uns darüber sehr freuen
  • Habt ihr Fragen oder Themen, die euch interessieren? Dann schreibt uns!
  • Was sind zum Beispiel eure Themen aus 2020, die man nochmal genauer unter die Lupe nehmen sollte?

Outro (01:42:03)

Schlagworte zur Folge

Jahresrückblick, 2020, Podcast, Podcasting, Corona, Pandemie, Covid-19, Präsidentschaftswahl USA, Wahlumfragen, Briefwahl, Künstliche Intelligenz, Turing-Test, Proteinfaltungen, Entwicklungen Date Science

Quellen

Weiterführende Links


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert