{"id":898,"date":"2025-02-15T12:00:10","date_gmt":"2025-02-15T11:00:10","guid":{"rendered":"ce377a45-3be0-4f64-ba49-1be14f49dcc9"},"modified":"2025-02-13T11:38:09","modified_gmt":"2025-02-13T10:38:09","slug":"dl057-was-sind-neuronale-netze","status":"publish","type":"podcast","link":"https:\/\/www.datenleben.de\/index.php\/2025\/02\/15\/dl057-was-sind-neuronale-netze\/","title":{"rendered":"dl057: was sind neuronale netze?"},"content":{"rendered":"\n\t\t\n            <div class=\"podlove-web-player intrinsic-ignore podlove-web-player-loading\" id=\"player-69f538d113796\"><root data-test=\"player--xl\" style=\"max-width:950px;min-width:260px;\">\n  <div class=\"tablet:px-6 tablet:pt-6 mobile:px-4 mobile:pt-4 flex flex-col\">\n    <div class=\"flex-col items-center mobile:flex tablet:hidden\">\n      <show-title class=\"text-sm\"><\/show-title>\n      <episode-title class=\"text-base mb-2\"><\/episode-title>\n      <subscribe-button class=\"mb-4 mobile:flex tablet:hidden\"><\/subscribe-button>\n      <poster class=\"rounded-sm w-48 shadow overflow-hidden\"><\/poster>\n      <divider class=\"w-full my-6\"><\/divider>\n    <\/div>\n\n    <div class=\"tablet:flex flex-grow\">\n      <div class=\"w-64 mobile:hidden tablet:block tablet:mr-6\">\n        <poster class=\"rounded-sm shadow overflow-hidden\"><\/poster>\n      <\/div>\n      <div class=\"w-full\">\n        <div class=\"hidden tablet:block\">\n          <show-title class=\"text-base\"><\/show-title>\n          <episode-title class=\"text-xl desktop:text-2xl\"><\/episode-title>\n          <divider class=\"w-full my-4\"><\/divider>\n        <\/div>\n        <div class=\"flex items-center justify-between\">\n          <div class=\"block\">\n            <play-state on=\"active\">\n              <speed-control class=\"flex items-center\"><\/speed-control>\n            <\/play-state>\n          <\/div>\n\n          <div class=\"flex\">\n            <play-state on=\"active\">\n              <chapter-previous class=\"mx-2 block\"><\/chapter-previous>\n            <\/play-state>\n            <play-state on=\"active\">\n              <step-backward class=\"mx-2 block\"><\/step-backward>\n            <\/play-state>\n\n            <play-button class=\"mx-2 block\" :label=\"$t('PLAYER.PLAY_EPISODE')\"><\/play-button>\n\n            <play-state on=\"active\">\n              <step-forward class=\"mx-2 block\"><\/step-forward>\n            <\/play-state>\n            <play-state on=\"active\">\n              <chapter-next class=\"mx-2 block\"><\/chapter-next>\n            <\/play-state>\n          <\/div>\n\n          <div class=\"block\">\n            <play-state on=\"active\">\n              <volume-control class=\"flex items-center\"><\/volume-control>\n            <\/play-state>\n          <\/div>\n        <\/div>\n        <div class=\"flex w-full\">\n          <progress-bar><\/progress-bar>\n        <\/div>\n        <div class=\"flex w-full -mt-2\">\n          <div class=\"w-3\/12 text-left\">\n            <timer-current class=\"text-sm\"><\/timer-current>\n          <\/div>\n          <div class=\"w-6\/12 text-center truncate\">\n            <play-state on=\"active\">\n              <current-chapter class=\"text-sm\"><\/current-chapter>\n            <\/play-state>\n          <\/div>\n          <div class=\"w-3\/12 text-right\">\n            <timer-duration class=\"text-sm\"><\/timer-duration>\n          <\/div>\n        <\/div>\n      <\/div>\n    <\/div>\n    <divider class=\"w-full mt-6 mb-3\"><\/divider>\n    <div class=\"flex justify-between\">\n      <div class=\"flex mobile:w-full tablet:w-3\/12 desktop:w-3\/12 justify-between\">\n        <tab-trigger tab=\"chapters\">\n          <icon type=\"chapter\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"transcripts\">\n          <icon type=\"transcripts\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"files\">\n          <icon type=\"download\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"playlist\">\n          <icon type=\"playlist\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"share\">\n          <icon type=\"share\"><\/icon>\n        <\/tab-trigger>\n      <\/div>\n      <subscribe-button class=\"mt-1 mobile:hidden tablet:flex\"><\/subscribe-button>\n    <\/div>\n  <\/div>\n  <div class=\"w-full relative overflow-hidden\">\n    <tab name=\"chapters\">\n      <tab-chapters><\/tab-chapters>\n    <\/tab>\n    <tab name=\"transcripts\">\n      <tab-transcripts><\/tab-transcripts>\n    <\/tab>\n    <tab name=\"files\">\n      <tab-files><\/tab-files>\n    <\/tab>\n    <tab name=\"playlist\">\n      <tab-playlist><\/tab-playlist>\n    <\/tab>\n    <tab name=\"share\">\n      <tab-share><\/tab-share>\n    <\/tab>\n    <tab-overflow><\/tab-overflow>\n  <\/div>\n  <error><\/error>\n<\/root>\n<\/div>\n            <script>\n              document.addEventListener(\"DOMContentLoaded\", function() {\n                var player = document.getElementById(\"player-69f538d113796\");\n                podlovePlayerCache.add([{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/wp-json\\\/podlove-web-player\\\/shortcode\\\/publisher\\\/898\",\"data\":{\"version\":5,\"show\":{\"title\":\"datenleben\",\"subtitle\":\"der podcast \\u00fcber data science\",\"summary\":\"Was ist Data Science? Was bedeuten die Daten f\\u00fcr unser Leben? Woher kommen sie und wozu werden sie benutzt?\\r\\nDas sind alles Fragen, mit denen wir uns auseinander setzen werden.\\r\\nWer schon immer mehr \\u00fcber Daten und deren Effekt auf unser Leben wissen wollte, ist hier genau richtig.\",\"poster\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/image\\\/687474703a2f2f7777772e646174656e6c6562656e2e64652f77702d636f6e74656e742f75706c6f6164732f323032302f30362f636f7665722e706e67\\\/500\\\/0\\\/0\\\/datenleben\",\"link\":\"https:\\\/\\\/www.datenleben.de\"},\"title\":\"dl057: was sind neuronale netze?\",\"subtitle\":\"Wo es anfing und welche Entwicklungen zu den heutigen neuronalen Netzen gef\\u00fchrt haben\",\"summary\":\"Wir haben der Frage gewidmet: Was sind neuronale netze? Wo hat das eigentlich angefangen? Wir beginnen mit dem Blick darauf, was eigentlich ein Neuron ist und wie ab den 1940er Jahren damit experimentiert wurde, elektronische Neuronen herzustellen. Das war n\\u00e4mlich der Ausgangspunkt daf\\u00fcr, dass um 1960 herum das Perzeptron orgestellt werden konnte - ein einfaches neuronales netz. Es geht darum, in wie fern das eine wichtige grundlage f\\u00fcr die heutigen neuronalen Netze war.\",\"publicationDate\":\"2025-02-15T12:00:10+01:00\",\"duration\":\"00:38:40.483\",\"poster\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/image\\\/68747470733a2f2f7777772e646174656e6c6562656e2e64652f77702d636f6e74656e742f75706c6f6164732f323032352f30322f3035375f436f766572322e706e67\\\/500\\\/0\\\/0\\\/dl057-was-sind-neuronale-netze\",\"link\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/2025\\\/02\\\/15\\\/dl057-was-sind-neuronale-netze\\\/\",\"chapters\":[{\"start\":\"00:00:00.000\",\"title\":\"Intro\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:00:18.452\",\"title\":\"Thema des Podcasts\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:00:37.588\",\"title\":\"Thema der Folge\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:01:30.389\",\"title\":\"Warum ist dieses Thema wichtig\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:01:46.154\",\"title\":\"Einspieler: Der Sand in den Getrieben der neuronalen Netze\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:04:46.584\",\"title\":\"Was ist ein Neuron?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:07:48.976\",\"title\":\"Was war das elektronische Neuron?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:12:25.376\",\"title\":\"Perceptron \\u2013 Wie sah das erste neuronale Netz aus?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:18:38.622\",\"title\":\"Wie sieht das Training aus?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:23:46.487\",\"title\":\"Was ist Backpropagation und Deep Learning?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:28:23.302\",\"title\":\"Was macht die heutigen Transformer und Reasoning Modelle aus?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:33:02.244\",\"title\":\"Fazit\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:37:52.319\",\"title\":\"Call to Action\",\"href\":\"\",\"image\":\"\"}],\"audio\":[{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/file\\\/181\\\/s\\\/webplayer\\\/c\\\/website\\\/DL057-neuronale-netze.mp3\",\"size\":\"39679526\",\"title\":\"MP3 Audio (mp3)\",\"mimeType\":\"audio\\\/mpeg\"}],\"files\":[{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/file\\\/181\\\/s\\\/webplayer\\\/DL057-neuronale-netze.mp3\",\"size\":\"39679526\",\"title\":\"MP3 Audio\",\"mimeType\":\"audio\\\/mpeg\"}]}}, {\"url\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/wp-json\\\/podlove-web-player\\\/shortcode\\\/config\\\/default\\\/theme\\\/datenleben\",\"data\":{\"activeTab\":\"chapters\",\"subscribe-button\":null,\"share\":{\"channels\":[\"link\",\"facebook\",\"twitter\",\"whats-app\",\"linkedin\",\"pinterest\",\"xing\",\"mail\"],\"outlet\":\"https:\\\/\\\/www.datenleben.de\\\/wp-content\\\/plugins\\\/podlove-web-player\\\/web-player\\\/share.html\",\"sharePlaytime\":true},\"related-episodes\":{\"source\":\"disabled\",\"value\":null},\"version\":5,\"theme\":{\"tokens\":{\"brand\":\"#fff\",\"brandDark\":\"#fff\",\"brandDarkest\":\"#000\",\"brandLightest\":\"#8cc240\",\"shadeDark\":\"#807E7C\",\"shadeBase\":\"#807E7C\",\"contrast\":\"#000\",\"alt\":\"#8cc240\"},\"fonts\":{\"ci\":{\"name\":\"ci\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":800},\"regular\":{\"name\":\"regular\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":300},\"bold\":{\"name\":\"bold\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":700}}},\"base\":\"https:\\\/\\\/www.datenleben.de\\\/wp-content\\\/plugins\\\/podlove-web-player\\\/web-player\\\/\"}}]);\n                podlovePlayer(player, \"https:\/\/www.datenleben.de\/index.php\/wp-json\/podlove-web-player\/shortcode\/publisher\/898\", \"https:\/\/www.datenleben.de\/index.php\/wp-json\/podlove-web-player\/shortcode\/config\/default\/theme\/datenleben\").then(function() {\n                  player && player.classList.remove(\"podlove-web-player-loading\");\n                });\n              });\n            <\/script>\n            <style>\n              .podlove-web-player.podlove-web-player-loading {\n                opacity: 0;\n              }\n            <\/style>\n        \n\t\n\t\t\n<p>Wir haben der Frage gewidmet: Was sind neuronale netze? Wo hat das eigentlich angefangen? Wir beginnen mit dem Blick darauf, was eigentlich ein Neuron ist und wie ab den 1940er Jahren damit experimentiert wurde, elektronische Neuronen herzustellen. Das war n\u00e4mlich der Ausgangspunkt daf\u00fcr, dass um 1960 herum das Perzeptron orgestellt werden konnte - ein einfaches neuronales netz. Es geht darum, in wie fern das eine wichtige grundlage f\u00fcr die heutigen neuronalen Netze war.<\/p>\n<h3>Links und Quellen<\/h3>\n<ul>\n<li>datenleben\n<ul>\n<li><a href=\"https:\/\/www.datenleben.de\/\">www.datenleben.de<\/a><\/li>\n<li>Social Media: Mastodon <a href=\"https:\/\/podcasts.social\/@datenleben\">@datenleben@podcasts.social<\/a><\/li>\n<li>YouTube: <a href=\"https:\/\/www.youtube.com\/@datenleben\">@datenleben<\/a><\/li>\n<\/ul>\n<\/li>\n<li>Erw\u00e4hnte datenleben-Folgen\n<ul>\n<li><a href=\"https:\/\/www.datenleben.de\/index.php\/2023\/07\/22\/dl040-whisper\/\">dl040: wie nutzen wir whisper f\u00fcr transkripte?<\/a><\/li>\n<li><a href=\"https:\/\/www.datenleben.de\/index.php\/2024\/10\/12\/dl055-chatgpt\/\">dl055: chatGPT<\/a><\/li>\n<\/ul>\n<\/li>\n<li>Einspieler\n<ul>\n<li><a href=\"https:\/\/www.projekt-gutenberg.org\/etahoff\/sandmann\/index.html\">projekt-gutenberg.org, E.T.A. Hoffmann: Der Sandmann<\/a><\/li>\n<li><a href=\"https:\/\/de.wikipedia.org\/wiki\/Der_Sandmann_(Hoffmann)\">Wikipedia: Der Sandmann (Hoffmann)<\/a><\/li>\n<\/ul>\n<\/li>\n<li>Quellen und weiterf\u00fchrende Links\n<ul>\n<li><a href=\"https:\/\/de.wikipedia.org\/wiki\/Nervenzelle\">Wikipedia: Nervenzelle<\/a><\/li>\n<li><a href=\"https:\/\/de.wikipedia.org\/wiki\/Hebbsche_Lernregel\">Wikipedia: Hebbsche Lernregel<\/a><\/li>\n<li><a href=\"https:\/\/www.mpg.de\/gehirn\">https:\/\/www.mpg.de\/gehirn<\/a><\/li>\n<li><a href=\"https:\/\/de.wikipedia.org\/wiki\/McCulloch-Pitts-Zelle\">Wikipedia: McCulloch-Pitts-Zelle<\/a><\/li>\n<li><a href=\"https:\/\/de.wikipedia.org\/wiki\/Perzeptron\">Wikipedia: Perzeptron<\/a><\/li>\n<li><a href=\"https:\/\/de.wikipedia.org\/wiki\/Backpropagation\">Wikipedia: Backpropagation<\/a><\/li>\n<li><a href=\"https:\/\/de.wikipedia.org\/wiki\/Deep_Learning\">Wikipedia: Deep Learning<\/a><\/li>\n<li><a href=\"https:\/\/de.wikipedia.org\/wiki\/Transformer_(Maschinelles_Lernen)\">Wikipedia: Transformer (Maschinelles Lernen)<\/a><\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<h3>Schlagworte zur Folge<\/h3>\n<p>Neuronale Netze, Maschine Learning, Perceptron, Backpropagation, Deep Learning<\/p>\n<h3>Intro (00:00:00)<\/h3>\n<h3>Thema des Podcasts (00:00:18)<\/h3>\n<p>Helena: Willkommen zur 57. Folge beim Datenleben Podcast, dem Podcast \u00fcber Data Science. Wir sind Helena<\/p>\n<p>Janine: und Janine<\/p>\n<p>Helena: und m\u00f6chten euch in die Welt der Daten mitnehmen. In unserer Welt wird es immer wichtiger, Daten in das gro\u00dfe Ganze einzuordnen. Deswegen wollen wir Data Science anhand von Themen erkl\u00e4ren, die uns alle betreffen.<\/p>\n<h3>Thema der Folge (00:00:38)<\/h3>\n<p>Janine: Genau, und was uns vor allem alle betrifft, sind neuronale Netze, denn sie sind gewisserma\u00dfen \u00fcberall. Und wir dachten uns, wir stellen nochmal die Frage, was sind sie und vor allem, woher kommen sie? Diese Folge wird nochmal etwas technischer, weil, ja, wir fragen uns eben, was sind neuronale Netze? Daf\u00fcr m\u00fcssen ein paar Grundlagen erkl\u00e4rt werden. Und ganz am Anfang nat\u00fcrlich aber auch die Frage, was ist eigentlich ein Neuron? Und ja, dann setzen wir damit an, wie ab den 1940er Jahren damit experimentiert wurde, elektronische Neuronen herzustellen. Das war n\u00e4mlich der Ausgangspunkt daf\u00fcr, dass so um 1960 herum das Perzeptron vorgestellt werden konnte, ein einfaches neuronales Netz. Und inwiefern das eine wichtige Grundlage f\u00fcr die heutigen neuronalen Netze war, darum geht es heute.<\/p>\n<h3>Warum ist das Thema wichtig? (00:01:30)<\/h3>\n<p>Helena: Genau, und wir finden das Thema wichtig, weil letztlich s\u00e4mtliche modernen KI-Systeme, die uns so umgeben, darauf basieren. Und darum, ja, wollen wir jetzt den neuronalen Netzen heute mal eine ganze Folge widmen.<\/p>\n<h3>Einspieler: Der Sand in den Getrieben der neuronalen Netze (00:01:46)<\/h3>\n<p>Janine: Der Sand in den Getrieben der neuronalen Netze. Manchmal, wenn ich \u00fcber die sogenannte k\u00fcnstliche Intelligenz nachdenke, muss ich an den Sandmann denken. Diese Novelle von E.T.A. Hoffmann wurde 1816 ver\u00f6ffentlicht. Darin wird erz\u00e4hlt, wie Nathanael von einem Alchemisten und einem Professor hinters Licht gef\u00fchrt wird, indem sie bewirken, dass er sich in Olimpia, eine mechanische Puppe, verliebt. Auf alle G\u00e4ste des Abends wirkt die musizierende und singende Olimpia merkw\u00fcrdig leblos und unheimlich, auf Nathanael wirkt sie jedoch ganz anders, nachdem er sie durch ein pr\u00e4pariertes Opernglas betrachtet. Selbst als er sie zum Tanz auffordert, wirkt der Einfluss auf ihn fort, ihre zun\u00e4chst eiskalte Hand erscheint ihm pl\u00f6tzlich, als w\u00fcrde ein Puls darin anfangen zu schlagen. Auch das Gespr\u00e4ch mit ihr genie\u00dft er, selbst wenn seine Angebetete nichts anderes antwortet als immer wieder &quot;Ach, ach, ach&quot;. Den Spott, den die anderen G\u00e4ste f\u00fcr Olimpia \u00fcberhaben, ignoriert er, doch sein Freund Sigmund versucht offen mit ihm zu reden.<\/p>\n<blockquote>\n<p>&quot;Wunderlich ist es doch, dass viele von uns \u00fcber Olimpia ziemlich gleich urteilen. Sie ist uns, nimm es nicht \u00fcbel, Bruder, auf seltsame Weise starr und seelenlos erschienen. Ihr Wuchs es regelm\u00e4\u00dfig, so wie ihr Gesicht, das ist wahr. Sie k\u00f6nnte f\u00fcr sch\u00f6n gelten, wenn ihr Blick nicht so ganz ohne Lebensstrahl, ich m\u00f6chte sagen, ohne Sehkraft w\u00e4re. Ihr Schritt ist sonderbar abgemessen, jede Bewegung scheint durch den Gang eines aufgezogenen R\u00e4derwerks bedingt. Ihr Spiel, ihr Singen hat den unangenehmen, richtigen, geistlosen Takt der singenden Maschine und ebenso ihr Tanz. Uns ist diese Olimpia ganz unheimlich geworden, wir mochten nichts mit ihr zu schaffen haben, es war uns als tue sie nur so wie ein lebendiges Wesen, und doch habe es mit ihr eine eigene Bewandtnis.&quot; Nathanael gab sich dem bitteren Gef\u00fchl, das ihn bei diesen Worten Siegmunds ergreifen wollte, durchaus nicht hin, er wurde Herr seines Unmuts und sagte blo\u00df sehr ernst: &quot;Wohl mag euch, ihr kalten prosaischen Menschen, Olimpia unheimlich sein. Nur dem poetischen Gem\u00fct entfaltet sich das gleich Organisierte, nur mir ging ihr Liebesblick auf und durchstrahlte Sinn und Gedanken. Nur in Olimpias Liebe finde ich mein Selbst wieder, euch mag es nicht recht sein, dass sie nicht in platter Konversation faselt wie die anderen flachen Gem\u00fcter, sie spricht wenig Worte, das ist wahr, aber diese wenigen Worte erscheinen als echte Hieroglyphe der inneren Welt, voll Liebe und hoher Erkenntnis des geistigen Lebens in der Anschauung des ewigen Jenseits. Doch f\u00fcr alles das habt ihr keinen Sinn und alles sind verlorene Worte.&quot;<\/p>\n<\/blockquote>\n<p>Manchmal, wenn ich \u00fcber die sogenannte k\u00fcnstliche Intelligenz nachdenke, muss ich an den Sandmann denken.<\/p>\n<h3>Was ist ein Neuron? (00:04:47)<\/h3>\n<p>Helena: Ja und um zu erkl\u00e4ren, was neuronale Netze sind, besch\u00e4ftigen wir uns jetzt erstmal mit der Frage, was ist eigentlich ein Neuron, so ganz allgemein gesprochen. Also unser Gehirn besteht aus vielen Milliarden Nervenzellen und diese Nervenzellen werden auch Neuronen genannt. Dabei, ja, nehmen die Nervenzellen \u00fcber Nervenbahnen Erregungen anderer Zellen auf und leiten diese dann oft auch weiter. Und diese Erregungen werden vor allen Dingen \u00fcber elektrische Signale \u00fcbertragen, aber auch \u00fcber chemische Botenstoffe. Diese chemischen Botenstoffe kennt man vielleicht auch unter dem Namen Neurotransmitter. Und dadurch kommen eben Informationen zwischen Neuronen ja an andere Orte und man kann sich dabei vorstellen, so ein elektrisches Signal ist schneller als so ein chemischer Botenstoff. Die haben dann eben etwas andere Funktionen. Und pro Neuron gibt es dann etwas mehr als 1000 Verbindungen zu anderen Neuronen. Das ist schon ganz sch\u00f6n viel. Und diese Verbindungen werden auch, und diese Bahnen werden dann eben als Synapsen bezeichnet. Das sind dann quasi auch die Nervenbahnen sozusagen. Das Besondere jetzt an so einem Gehirn ist, das ist in der Lage die Synapsen- und Nervenzellen ja immer wieder anzupassen, um eben neue Dinge zu lernen und sich an neue Gegebenheiten anzupassen. Also das menschliche Gehirn lernt, w\u00e4hrend es benutzt wird. Und um zu lernen, hat mal jemand die sogenannte Hebbsche Lernregel aufgestellt, die dann besagt, dass wenn ein Neuron besonders oft ein anderes Neuron anregt, dann passen sich die Synapsen dahingehend an, dass dieses zweite Neuron auch leichter anzuregen ist von dem ersten. Das hei\u00dft, das Signal wird quasi verst\u00e4rkt, wenn das viel benutzt wird. Und man kann sich jetzt vorstellen, wenn man diese Lernregel zugrunde legt, dann erkl\u00e4rt es auch, warum wir Dinge \u00fcben m\u00fcssen. Weil dadurch, dass man, wenn man eine neue F\u00e4higkeit lernen m\u00f6chte, dann ist ja der Klassiker, man muss die wiederholen, wiederholen, wiederholen. Und dabei geht es eben darum, um das zu machen, die n\u00f6tigen Neuronen und die Synapsen zu verbessern quasi, also die Verbindung zu verbessern, sodass es einem leichter f\u00e4llt. Das ist eigentlich auch ganz gut zu wissen. Also Lernen bei Menschen funktioniert durch Wiederholen und so funktioniert eben das menschliche Gehirn auch.<\/p>\n<p>Janine: Und das bis ins hohe Alter, wie man inzwischen wei\u00df. Wo man fr\u00fcher noch so ein bisschen gedacht hat, das menschliche Gehirn entwickelt sich und irgendwann ist man erwachsen und dann ist es fertig, ist eigentlich inzwischen auch klar geworden, dass man bis ins hohe Alter alles M\u00f6gliche eigentlich lernen kann.<\/p>\n<p>Helena: Ja, ich meine, klar, wir kennen vielleicht alle Menschen, die etwas \u00e4lter sind, die vergesslicher werden, aber sie erinnern sich ja dann doch schon auch an Dinge, die sie noch erleben. Das w\u00fcrde ja nicht gehen, wenn das Gehirn nicht mehr lernen k\u00f6nnte. Weil sich an Dinge zu erinnern ist ja trotzdem, ja, ein Prozess des Lernens.<\/p>\n<h3>Was war das elektronische Neuron? (00:07:49)<\/h3>\n<p>Janine: Und was die Menschen irgendwann mal besonders interessiert hat zu lernen, ist, wie die Welt um sie herum funktioniert. Und deswegen haben sie vieles beobachtet, auseinandergenommen und in die kleinsten Teile hin untersucht, um die Funktionsweise zu verstehen oder bestimmte Aspekte der Natur vielleicht nachzuahmen. Und dabei sind sie eben wirklich bis in die feinsten Strukturen gegangen, wie eben zum Beispiel auch die Neuronen. Und da begann es Anfang der 1940er Jahre, dass vor allem die Idee verfolgt wurde, selbst ein elektronisches Neuron herzustellen. Und ja, darum geht es jetzt um diese elektronischen Neuronen der, naja, 1940er Jahre.<\/p>\n<p>Helena: Genau, in den 1940er Jahren, ja, das ist quasi kurz nachdem von Alan Turing \u00fcber Berechenbarkeit und so weiter Computer theoretisch beschrieben wurden und er dann eben die These aufgestellt hat, dass Computer in der Lage sind, alles zu berechnen, solange sie bestimmte Grundf\u00e4higkeiten haben. Und deswegen hat man sich dann gedacht, okay, man hatte zu dem Zeitpunkt ja noch nicht so wirklich Computer, es gab nur erste Prototypen, aber dieses Berechnungssystem, k\u00f6nnte man nicht Neuronen von Menschen so nachbilden, dass man beweisen kann, dass das menschliche Gehirn in der Lage ist, im Prinzip alles zu berechnen. So, da ging es noch gar nicht unbedingt darum, das Gehirn an sich nachzubauen, sondern die einzelnen Neuronen zu modellieren, mit dem Ziel nachzuweisen, dass das menschliche Gehirn eben alles berechnen kann, nach den Regeln von Turing. Und das, was dazu gebaut wurde, war das sogenannte McCulloch-Pitts-Modell und hierbei wurden Neuronen folgenderma\u00dfen angenommen, dass die folgende elektrische Eigenschaften eben haben. Also ein einzelnes Neuron hatte dann mehrere Eing\u00e4nge, wo dann Signale wie 1 oder 0 rein k\u00f6nnen, weil wir sind hier in einem Computersystem, also es soll ja quasi ein Computer nachbauen. Und abh\u00e4ngig von den Eingangswerten soll das Neuron dann 1 oder 0 ausgeben k\u00f6nnen. Dabei gab es eben einzelne Eing\u00e4nge, die quasi verst\u00e4rkend gewirkt haben und dann einzelne, die abschw\u00e4chend gewirkt haben. Also wenn jetzt in einem bestimmten Eingang eine 1 war, dann hat es die Wahrscheinlichkeit erh\u00f6ht, dass man eine 0 rauskriegt und in dem anderen Fall bei anderen Neuronen, wenn dann eine 1 ankam, wurde eher eine 1 wieder ausgegeben und das hat man \u00fcber sogenannte Schwellwert-Gatter implementiert, deren quasi Ziel es ist, wenn so und so viele Einsen gekommen sind, dann wird auch eine 1 ausgegeben. Und durch die abschw\u00e4chenden Eing\u00e4nge wird quasi dann, wenn da eine 1 reinkommt, das wieder abgezogen. Und wenn man jetzt sagt, man hat 10 Eing\u00e4nge, davon sind 5 additiv und 5 subtraktiv und man hat dann irgendwie 4 Einsen bei den additiven und 2 Einsen bei den subtraktiven, da hat man den Wert 2 und wenn jetzt der Schwellwert von diesem Neuron 3 ist, dann gibt man eine 0 aus. Wenn der Schwellwert aber eine 1 oder 2 gewesen w\u00e4re, dann w\u00fcrde man eben eine 1 ausgeben. Und das, was man mit dieser Art von Neuronen dann machen konnte, ist Aussagenlogik betreiben. Also wenn ja quasi eine Aussage wahr ist und dann eine 1 geschickt hat an das Neuron und eine andere Aussage auch wahr war, dann konnte man eben die Unverkn\u00fcpfung damit machen, aber eben auch andere Sachen wie exklusives &quot;oder&quot; zum Beispiel. Das hei\u00dft, wenn eine Aussage 1 ist oder eine andere Aussage 1, dann kann nur 1 rauskommen, wenn nur 1 von beiden 1 ist. Wenn beides 1 oder 0 ist, dann w\u00fcrde das, wenn beides 1 ist, kommt 0 raus, nur wenn 1 1 ist 0. Das wird uns sp\u00e4ter nochmal betreffen. Also ein &quot;oder&quot; ist ja, wenn es reicht, wenn ein Eingang 1 ist, das w\u00e4re quasi Schwellwert von 1. Das exklusive &quot;oder&quot; ist ein bisschen komplizierter. Man hat aber auch sowas wie &quot;nicht&quot;. Also wenn jetzt, dass man umkehrt, dazu muss man dann eben, ja, das, was da rauskommt, eben umdrehen k\u00f6nnen. Aber hier war eben das Ziel nachzuweisen, ja, wenn man jetzt sagt, Neuronen, menschliche Neuronen funktionieren auch ungef\u00e4hr so, dann hat man damit bewiesen, ja, mit menschlichen Neuronen kann man jetzt quasi beliebige Computer bauen. Das hat man jetzt so nicht weitergemacht, sondern das Ziel war jetzt eher, dass man versucht hat, in Computern menschliche Neuronen oder das Gehirn nachzubauen.<\/p>\n<h3>Perceptron \u2013 Wie sah das erste neuronale Netz aus? (00:12:25)<\/h3>\n<p>Helena: Und das erste elektronische neuronale Netz, was dann ver\u00f6ffentlicht wurde, war das sogenannte Perzeptron. Das Perzeptron wurde 1958 eingef\u00fchrt und ist ein einfaches neuronales Netz und es hat eben Eingangswerte und f\u00fcr jeden Eingangswert gibt es dann noch zus\u00e4tzlich so Gewichtungswerte, die dann sagen, ja, wie wichtig ist dieser Eingang. Also diese Gewichtungswerte stellen quasi die Synapsen dar, weil wir vorhin hatten bei der h\u00fcbschen Lernregel, ja, wenn die Synapsen besonders oft benutzt werden, dann kommen da Werte besonders gut durch und das w\u00fcrde man bei diesem Gewichtungswert eben dadurch darstellen, dass der Wert dann h\u00f6her wird, wenn dann diese Verbindung eben wichtiger ist. Und dann hat man auch hier eben eine Schwellwertfunktion, also man hat alle Eingangswerte, alle Eingangswerte werden dann eben, also die k\u00f6nnen dann wieder 0 oder 1 sein, werden dann eben mit den Gewichtungen multipliziert und dann alle addiert und dann hat man f\u00fcr alle Eingangswerte eine Zahl und dann gibt es wieder diese Schwellwertfunktion, also wenn diese Zahl gr\u00f6\u00dfer ist als ein bestimmter Schwellwert, die dann eben auch spezifisch f\u00fcr diese Neuronen sind, dann gibt es eine 1 aus und wenn der Schwellwert eben nicht erreicht wird, dann eine 0. Der Unterschied hier ist jetzt zum einen, dass man gleich ein ganzes Netz aus mehreren Neuronen hat, aber auch, dass es nur diese additiven Eing\u00e4nge gibt. Es gibt nicht die subtraktiven Eing\u00e4nge wie in dem McCulloch-Pitts-Modell. Das liegt auch daran, dass das, also das McCulloch-Pitts-Modell ist etwas, was man elektronisch relativ leicht nachbauen kann mit Transistoren und so weiter, aber das Perzeptron selber sollte eher auch in Software laufen und da funktioniert es halt einfacher, wenn alle Eing\u00e4nge sich ungef\u00e4hr gleich verhalten. Deswegen hat man ja nur noch diese additiven Werte gehabt. Gut, in seiner Standardausf\u00fchrung besteht jetzt so ein Netz eben aus Inputneuronen, das k\u00f6nnen dann mehrere sein, die dann jeweils Eingangswerte haben. Dann gibt es noch eine Mittelebene, das sind dann die Neuronen, an die die Werte \u00fcbergeben werden und im Fall von Perzeptron hat man die Gewichtungswerte hier zuf\u00e4llig generiert und dann hat man ein oder mehrere Outputneuronen, deren Ausgabe dann das Ergebnis ist. Also wenn man jetzt zum Beispiel sagt, man m\u00f6chte Handschrifterkennung machen von Zahlen, was so eine ganz klassische Aufgabe der KI-Forschung war seit den, ja ich glaube 80er Jahren, bis das dann irgendwann mal gel\u00f6st wurde, aber das hat mehrere Jahrzehnte gedauert, dann h\u00e4tte man zum Beispiel 10 Outputneuronen und je nachdem, welches davon dann eine 1 ausgibt, das entspricht dann eben einer Ziffer, die erkannt wurde. Eine Besonderheit von Perzeptron im Gegensatz zu den McCulloch-Pitts-Neuronen, die dann ja im Prinzip dazu da sind, Computer nachzubauen, k\u00f6nnen die Perzeptronen eben trainiert werden. Und Training hei\u00dft dann, dass die Gewichtungswerte auf der Outputseite des Netzwerkes sich ver\u00e4ndern k\u00f6nnen. Ja, im Prinzip gibt man dann Eingangsdaten in dieses neuronale Netz rein und guckt dann, was eben rausgekommen ist und dann wei\u00df man, was rauskommen soll und guckt dann, ja wie h\u00e4tte man die Gewichtung der Ausgabeneuronen \u00e4ndern m\u00fcssen, damit auch das Ergebnis stimmt.<\/p>\n<p>Janine: Das hei\u00dft, es wird manuell eingegriffen einmal?<\/p>\n<p>Helena: Naja, man hat Trainingsdaten. Also das manuelle Eingreifen ist letztlich einfach ein Algorithmus, mit dem man ja guckt, welche Werte h\u00e4tten das Ergebnis gehabt und dann macht man das ganz oft f\u00fcr verschiedene Eingangs- und Ausgangswerte und vergleicht dann diese Werte, die diese Ergebnisse h\u00e4tten produzieren sollen und ver\u00e4ndert dann die Gewichtungswerte graduell. Und zwar immer in die Richtung, in der man denkt, das wird dann richtiger sozusagen. Also man berechnet einen sogenannten Gradienten, das ist dann eben eine Steigung, die man in verschiedenen dimensionalen R\u00e4umen machen kann. Und man m\u00f6chte quasi immer versuchen, den steilsten Abstieg zu nehmen, um m\u00f6glichst wenig Trainingsrunden zu brauchen und dann geht man eben runter, bis man das Minimum erreicht hat und ab wo es dann nicht mehr besser wird.<\/p>\n<p>Janine: Mhm.<\/p>\n<p>Helena: Wichtig bei den Perzeptron-Modellen ist eben, dass nur die letzte Schicht trainiert wird und die k\u00f6nnen aber mehrere Schichten haben, da sind dann eben Zufallszahlen drin. Und letztlich f\u00e4ngt man bei jedem neuronalen Netz immer mit Zufallszahlen an, mit denen man das gewichtet, wenn man noch nicht trainiert hat und trainiert dann eben die entsprechenden Werte. Was jetzt ein Problem vom Standardperzeptron war, ist, dass die klassische Aussagenlogik damit nicht umsetzbar gewesen ist, weil man das exklusive &quot;oder&quot; nicht erzeugen konnte, weil man ja nur die additiven Eing\u00e4nge hat und nicht irgendwie in der Lage war, Ausschl\u00fcsse zu generieren. Was eben auch daran liegt, bei einem Netz k\u00f6nnte man ja Ausschl\u00fcsse dadurch erzeugen, dass man in bestimmte Richtungen die Verbindungen abschw\u00e4cht und in andere verst\u00e4rkt, aber um das zu erreichen, m\u00fcsste man die Mittelebene trainieren. Wenn man nur die letzte Ebene trainiert, kann man das exklusive &quot;oder&quot; eben nicht darstellen. Ja, das hat dann eben l\u00e4ngerfristig die neuronalen Netzerforschung des Perzeptrons eingeschr\u00e4nkt, dass man festgestellt hat, ja, bestimmte Dinge lassen sich damit nicht abbilden. Und wie gesagt, die L\u00f6sung ist dann eben, dass man zwischen Eingabeneuron und Ausgabeneuron noch eine Mittelebene braucht, aber man kann die eben erstmal nicht trainieren mit dem, was man Anfang der 1980er Jahre an Perzeptron generiert hat.<\/p>\n<p>Janine: Und was war dann der n\u00e4chste Schritt, um da weiterzukommen?<\/p>\n<p>Helena: Ja, also jetzt hatte ich hier jetzt nochmal ein konkreteres Beispiel erstmal, um das Training zu erkl\u00e4ren, bevor wir dann in den n\u00e4chsten Schritt kommen.<\/p>\n<p>Janine: Ja, sehr gut.<\/p>\n<h3>Wie sieht das Training aus? (00:18:39)<\/h3>\n<p>Helena: Gut, wir hatten jetzt gerade einmal kurz das Training angesprochen, jetzt m\u00f6chte ich dann auch einmal ein bisschen besser drauf eingehen. Also, wie trainiert man so ein Perzeptron-Netz? Das geht mit \u00fcberwachtem Lernen, das hei\u00dft, man hat Eingangsdaten und wei\u00df, was die sind. Das hei\u00dft, man kann Eingangsdaten reingeben und immer beim Ergebnis gucken, war das richtig oder nicht. Und am Anfang initialisiert man eben alle Gewichtungen mit Zufallszahlen, wie gesagt, und dann wendet man einfach das neuronale Netz auf die Daten an und guckt, ob die Vorhersage stimmt. So, der dritte Schritt ist dann, man guckt, ob das erwartete Ergebnis vorausgesagt wurde oder nicht. Mathematisch wird dann eine Zahl berechnet, wie gro\u00df der Fehler ist, also wie stark die Vorhersage vom Zielwert abweicht und wenn man eben ausrechnen kann, wie gro\u00df ein Fehler ist, kann man eben diesen Gradienten auch berechnen, weil wenn man jetzt, keine Ahnung, 100 Daten hat, an denen man trainiert, kann man dann gucken, ja, f\u00fcr welche Daten ist denn das Ergebnis besonders schlecht und an der Stelle w\u00fcrde man eben st\u00e4rker in die Richtung gehen, dass das korrigiert wird. Dann definiert man noch eine Lernrate, zum Beispiel 0,01 und damit berechnet man das neue Gewicht aus dem Fehler, indem man eben die Fehler f\u00fcr alle Trainingseinheiten benutzt und dann mit 0,01 trainiert, weil man m\u00f6chte ja auch nicht zu schnell immer hin und her pendeln. Wenn man einfach mal den Fehlerwert nehmen w\u00fcrde, k\u00f6nnte man ja dann f\u00fcr manche Sachen die Vorhersage korrigieren und f\u00fcr andere wieder falsch machen und das w\u00fcrde dann hin und her pendeln. Aber deswegen will man eben iterativ vorgehen und zwar langsam in kleinen Schritten und deswegen eben eine Lernrate von zum Beispiel 0,01.<\/p>\n<p>Janine: Also gewisserma\u00dfen eine bedachte Ann\u00e4herung an das, was man dann m\u00f6chte, damit man \u00fcberhaupt weiter vergleichen kann, wie entwickelt sich das gerade?<\/p>\n<p>Helena: Ja, und das Ganze wird dann auch als Gradientenabstiegsverfahren genannt, was so ein Standardalgorithmus in vielen Bereichen der Informatik ist, wenn man Dinge numerisch berechnen m\u00f6chte. Ja, und dann wiederholt man eben die Schritte 2 bis 4, bis das Ergebnis zufriedenstellend ist. Also zufriedenstellend, man definiert das dann entweder durch eine bestimmte Rate, also Qualit\u00e4t von den Ergebnissen oder an einer Maximalanzahl an Werten. So, und wenn man einmal das Training f\u00fcr alle Trainingsdaten einmal gemacht hat und f\u00fcr alle Gewichtungen ebenfalls, dann wird das Ganze als Epoche bezeichnet. Also wenn man jetzt irgendwie so ein neuronales Netz trainiert, dann sieht man, ja, es passiert gerade viel Training und dann kann einem das Programm zum Beispiel sagen, ja, jetzt habe ich eine Epoche trainiert und eine Epoche hei\u00dft dann, dass jeder Trainingsdatensatz einmal durchgelaufen ist. Hierzu kann man ja immer noch sagen, bei Perzeptronen kann nur die letzte Ebene der Neuronen trainiert werden.<\/p>\n<p>Janine: Ja, und da wir uns ja alle schon eine Weile mit allem rund um KI, neuronalen Netzen und Maschinenlearning besch\u00e4ftigen, gezwungenerma\u00dfen, weil es so weit in den Alltag reinreicht, k\u00f6nnen wir ja vielleicht nochmal den Begriff verwenden, den du auch aufgeschrieben, aber ich glaube noch gar nicht gesagt hast. Das, was bei den Perzeptronen passiert, ist das, was wir als \u00fcberwachtes Lernen bezeichnen.<\/p>\n<p>Helena: Ja, genau. Das ist \u00fcberwachtes Lernen und \u00fcberwachtes Lernen hei\u00dft immer, dass man ein gew\u00fcnschtes Ergebnis kennt. Also das hei\u00dft, man hat Eingangsdaten, die man da reinf\u00fchrt hat und man wei\u00df immer, man hat diese gelabelt, diese Eingangsdaten und das Label ist dann das Ergebnis. Und \u00fcberwachtes Lernen hat nat\u00fcrlich immer den Nachteil, dass man prinzipbedingt weniger Daten hat, die korrekt gelabelt sind.<\/p>\n<p>Janine: Also so \u00fcberspitzt \u00fcbertragen auf eine Alltagssituation k\u00f6nnte ich mir jetzt vorstellen, dass es auch so ein bisschen so ist, wie wenn man einem Hund oder einer Katze oder etwas einem Trick beibringt. Man wei\u00df, wie Sitz oder Rolle aussehen soll und hat das Bild im Kopf und versucht nun das Tier so lange zu trainieren, bis es tats\u00e4chlich das gew\u00fcnschte Ergebnis liefert.<\/p>\n<p>Helena: Genau und dann gibt man dem Tier halt das Leckerli, wenn es das richtig gemacht hat.<\/p>\n<p>Janine: Ja und das ist dann gewisserma\u00dfen die richtige Gewichtung.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Ja, also das klingt auf jeden Fall alles mit den Eingangsdaten und dem Trainieren von Daten und den Netzen ja schon relativ vertraut mit dem ganzen Vokabular, das uns ja schon jetzt ein paar Jahre begleitet. Aber von der Leistungsf\u00e4higkeit her ist das, was jetzt Helena bei den Perzeptronen beschrieben hat, noch weit weg von dem, mit dem wir heute arbeiten. Eben mit dieser Einschr\u00e4nkung auch, es wird nur die letzte Ebene trainiert und es gibt noch wichtige Entwicklungsschritte, die daf\u00fcr n\u00f6tig waren, zu dem Punkt zu kommen, an dem wir heute sind. Welche sind das denn noch, Helena?<\/p>\n<h3>Was ist Backpropagation und Deep Learning? (00:23:46)<\/h3>\n<p>Helena: Ja, der erste wichtige Entwicklungsschritt ist, weil wir schon so sehr darauf rumgeritten sind, dass nur die letzte Ebene trainiert wird, dass man alle Ebenen trainieren k\u00f6nnen will und das wurde 86 eben ver\u00f6ffentlicht in Form des Algorithmus der Backpropagation. Also man kann im Prinzip sagen, wenn man Eingangswerte in so ein neuronales Netz reinpackt, dann hat man die erste Ebene, wo die verarbeitet werden und dann die zweite Ebene, wo die verarbeitet werden und dann, keine Ahnung, mehrere Ebenen und dann die letzte Ebene und dann den Ausgang und das Ganze wird dann eben als Forward Propagation bezeichnet, also die Daten wandern vorw\u00e4rts durch das neuronale Netz. Und man m\u00f6chte ja, wenn man das Ergebnis hat, dann auch die Trainingswerte, also die Gewichtung auf allen Ebenen anpassen und dann muss man eben den berechneten Fehler r\u00fcckw\u00e4rts wieder durch das Netzwerk ausbreiten und das ist dann die Backpropagation. Also wir erkl\u00e4ren jetzt nicht, wie der Algorithmus funktioniert. Wenn man das Netz jetzt mehrere Schichten tief lernen l\u00e4sst, also quasi die Tiefe ist die Menge der Schichten, die man trainiert, dann bezeichnet man das Ganze auch als Deep Learning. Ja, im Prinzip seit es Backpropagation gibt, hat man noch nicht unbedingt auch immer Deep Learning gemacht, weil das Problem ist, dass sehr viel Rechenleistung verbraucht ist, insbesondere das Deep Learning und man kann sagen, gut, der Algorithmus existiert seit 86, aber die Hardware, mit der man dann ausreichend gro\u00dfe neuronale Netze trainieren kann, existiert erst seit Ende der 2000er Jahre und dabei geht es nicht nur um die Hardware, sondern eben auch darum, dass die Software zur Verf\u00fcgung steht, denn bei der Hardware handelt es sich um Grafikkarten. Und naja, Grafikkarten wurden halt immer schneller und konnten immer besser Grafik berechnen, weil Computerspiele eben ein Milliardenmarkt geworden sind und man daher durch Entwicklung von Grafikkarten, ja, hat sich eben gelohnt, da sehr viel Geld reinzustecken und weil eben so ein Bildschirm sehr viele Pixel hat, ist es bei Grafikkarten eben auch wichtig, dass sehr viele Dinge parallel gerechnet werden k\u00f6nnen, damit man schneller den Bildschirminhalt wechseln kann. Da geht es dann gar nicht immer um die Genauigkeit der Berechnung, sondern nur darum, m\u00f6glichst viel parallel zu machen. Allerdings hatten Grafikkarten nat\u00fcrlich einen sehr eingeschr\u00e4nkten Nutzungsbereich, also Grafikkarten wurden dann eben \u00fcber Grafikbibliotheken programmiert, die dann nur Grafikfunktionen unterst\u00fctzt haben, bis dann eben, ja, Mitte der 2000er eine Firma namens Nvidia, die kennt man vielleicht, auf die Idee gekommen ist, ja, es gibt jetzt nur Grafikbibliotheken, die unsere Grafikkarten nutzen, aber eigentlich w\u00e4re es doch auch nicht schlecht, diese gro\u00dfe Parallelrechenkapazit\u00e4t auch f\u00fcr andere Anwendungen zur Verf\u00fcgung zu stellen, weshalb sie dann eben, ja, eine Plattform namens CUDA zur Verf\u00fcgung gestellt haben, was eine Programmierschnittstelle ist, \u00fcber die man eben das Ganze programmieren kann, und zwar nicht nur f\u00fcr Grafik, sondern f\u00fcr alle m\u00f6glichen Dinge. Dabei ist jetzt noch nicht unbedingt, ja, im Fokus gewesen, dass es jetzt auf jeden Fall mit Machine Learning und neuronalen Netzen weitergeht, sondern eben auch um andere Formen von Datenanalysen. Aber dadurch, dass man dann eben diese Grafikkarten und diese parallelen Rechenmaschinen gut programmieren konnte, hat sich dann eben gezeigt, dass man jetzt in der Lage ist, auch gr\u00f6\u00dfere neuronale Netze zu trainieren. Weshalb dann so ab 2012 rum sich der Begriff Deep Learning f\u00fcr alles, was mit neuronalen Netzen auf Grafikkarten zu tun hat, durchgesetzt hat, weil es jetzt pl\u00f6tzlich m\u00f6glich war, das einfach zu machen. Ja, das ist der Weg bis zum Deep Learning, aber das ist jetzt ja auch schon wieder ein paar Jahre her. Also 2012 war so das Jahr, wo gezeigt wurde und klar wurde, ja, das funktioniert jetzt erstaunlich gut, weil neuronale Netze eben die Eigenschaft haben, sehr viel besser zu werden in dem Moment, wo sie auch sehr viel gr\u00f6\u00dfer werden. Also wenn sie sehr klein sind, dann k\u00f6nnen sie nicht so viel, sondern die Skalierung ist hier wichtig.<\/p>\n<h3>Was macht die heutigen Transformer und Reasoning Modelle aus? (00:28:23)<\/h3>\n<p>Helena: Gut, dann kommen wir schon zu den heutigen Modellen. Also was ich jetzt bisher erkl\u00e4rt hatte mit den Perzeptronen, ist, das sind dann eben neuronale Netze, die in eine Richtung funktionieren. Und das ist lange Zeit bei neuronalen Netzen Standard gewesen, dass es Ebenen gibt, die nacheinander ausgef\u00fchrt werden. Und das wurde dann eben ge\u00e4ndert durch die Transformer-Modelle, bei denen auch zirkul\u00e4re Strukturen existieren, wo dann eben einzelne Bereiche mehrfach ausgef\u00fchrt werden mit leicht ver\u00e4nderten Daten.<\/p>\n<p>Janine: Dar\u00fcber haben wir ja tats\u00e4chlich auch schon in anderen Folgen geredet, zum Beispiel \u00fcber Whisper, wo es um Transkriptionen ging. Ja, das ist auf jeden Fall da ein bisschen genauer noch erkl\u00e4rt, als wir jetzt wahrscheinlich hier darauf eingehen.<\/p>\n<p>Helena: Genau, oder eben in der chatGPT-Folge, wo wir auch den Attention-Mechanismus, der eben iterativ durch sein Netz durchgeht und W\u00f6rter miteinander in Bezug setzt. Das Ganze l\u00e4uft eben zirkul\u00e4r ab und irgendwann kommt dann eben die Vorhersage, welches Wort denn jetzt als n\u00e4chstes kommen soll. Das Ganze wird dann fortgef\u00fchrt auch in sogenannten Reasoning-Modellen, also Modellen, die in der Lage sind, nicht einfach nur Text vorherzusagen, sondern auch sozusagen nachzudenken. Und ein bekanntes Beispiel davon ist jetzt vor kurzem sehr in den Medien gewesen, n\u00e4mlich das Deep-Seek-Modell. Letztlich ist das auch ein Transformer, der zirkul\u00e4r arbeitet mit den Eingangsdaten. Und dessen Aufgabe soll aber erst mal sein, Fakten aufzulisten, die relevant sind f\u00fcr die Aufgabe und dann eben Zwischenschritte zu generieren. Das hei\u00dft, man hat in diesem Fall nicht nur innerhalb vom neuronalen Netz zirkul\u00e4re Strukturen, sondern das Ganze soll selber Schritt f\u00fcr Schritt auf die richtige L\u00f6sung kommen, mit dem Ziel, dass man da auch komplexere Fragen mit beantworten kann, als chatGPT das in seiner ersten Version konnte. Also bei chatGPT, wenn man das O1-Modell benutzt, kriegt man eben auch diese Reasoning-Funktion. Man sieht die Zwischenschritte aber nicht, die das Ding beim Denken quasi macht. Wenn man jetzt sich Deep-Seek, das kann man sich tats\u00e4chlich einfach runterladen, das Modell, und dann gehen die Anfragen auch nicht nach China, wenn man daran schickt.<\/p>\n<p>Janine: Da h\u00e4ngt noch eine ganze Menge mehr mit dran, auf was wir jetzt nicht eingehen. Wir bleiben da bei der technischen Seite, denke ich mal.<\/p>\n<p>Helena: Ja, jedenfalls sieht man dann eben die Zwischenschritte, die es macht, wie es quasi nachdenkt und am Ende kommt dann auch eine Antwort raus. Und das ist durchaus auch ganz interessant, insbesondere, wenn man sich auch anguckt, wie das menschliche Gehirn im Vergleich dazu funktioniert.<\/p>\n<p>Janine: Ja, es ist auf jeden Fall dadurch ein bisschen besser m\u00f6glich, so stelle ich es mir zumindest vor. Ich habe jetzt noch nicht damit gearbeitet, im Gegensatz zu dir, dass die Punkte, wo Fehler passieren, nachvollziehbarer werden und da ganz anders angesetzt werden kann, um ja dann vielleicht doch noch Informationen hinzuzuf\u00fcgen, die das Ergebnis tats\u00e4chlich verbessern. Wie in der Argumentation mit einem Menschen eigentlich, wenn jemand etwas erkl\u00e4rt und ich habe den Gedankengang vor mir, was oft passiert, wenn man mit Menschen redet, weil sie manchmal einfach sprechend denken, dann kann man an einzelnen Stellen einhaken und sagen, ich gebe dir noch mal eine Zusatzinformation, vielleicht ver\u00e4ndert sich dann ja dein Argument.<\/p>\n<p>Helena: Ja, ich meine, gedacht ist es ja auch im Hinblick auf, man m\u00f6chte irgendwie was ausrechnen und benutzt halt schriftliche Multiplikation zum Beispiel, da muss man ja auch Zwischenschritte aufschreiben. Oder man berechnet eine komplexere physikalische Aufgabe und braucht dann eben die Zwischenschritte und muss erst mal alle Formeln aufschreiben, die relevant sind, um auf eine L\u00f6sung zu kommen. Das ist, glaube ich, auch so in der Hinsicht gedacht, dass man versucht, so n\u00e4her an das menschliche Denken und Arbeiten dran zu kommen.<\/p>\n<p>Janine: Ja, klingt auf jeden Fall so. Und bestimmt auch immer noch mit der Idee, irgendwann mal menschliches Bewusstsein nachzuahmen.<\/p>\n<p>Helena: Ja, das ist ja gerade ganz gro\u00dfes Thema, dass man ja eine generelle Artificial Intelligence, also eine allgemeine KI baut, die nicht nur, ja, keine Ahnung, Textvervollst\u00e4ndigung kann, wie das jetzt chatGPT macht, sondern die selber denken kann. Wer wei\u00df, wann das kommt.<\/p>\n<h3>Fazit (00:33:02)<\/h3>\n<p>Janine: Es hat sich jetzt sehr sch\u00f6n gezeigt und ich glaube, damit gehen wir so ein bisschen ins Fazit schon \u00fcber.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Also, hallo Fazit. Ich finde es sehr sch\u00f6n, dass sich tats\u00e4chlich aufgezeigt hat, wie halt immer ein Entwicklungsschritt dazu gekommen ist, der immer ein bisschen mehr reingegeben hat, um die Ergebnisse einfach zu verbessern. Also, eben angefangen mit dem elektronischen Neuron, dann das Perzeptron, das das nochmal ver\u00e4ndert hat, wie das trainiert werden konnte und bis hin zu den neuen Algorithmen, die dann reingegeben wurde, dass das Deep Learning hinzugekommen ist und eben die Transformer-Modelle, um quasi nochmal etwas aufgreifen zu k\u00f6nnen und darauf aufbauend, dann das Ergebnis weiter zu bringen, bis hin jetzt zu diesem Reasoning-Modell. Also, es ist eigentlich tats\u00e4chlich eine sehr sch\u00f6n zu sehende Linie, wie sich das immer weiter verbessert hat, hin zu dem Punkt, tats\u00e4chlich irgendwie so etwas wie Denken zu simulieren.<\/p>\n<p>Helena: Ja, man kann jetzt auch noch, also ich werde jetzt auch nochmal ein bisschen Vergleiche von den modernen neuronalen Netzen zum menschlichen Gehirn anstellen. Also, das menschliche Gehirn hat viele hundert Milliarden Neuronen und jedes Neuron hat etwa tausend Verbindungen. Also, tausendmal mehr Verbindungen gibt es als Neuronen und chatGPT hat 400 Milliarden Neuronen mit 12.000 Verbindungen. Also, im Prinzip sogar mehr Verbindungen, allerdings sind die alle sehr starr, weil man immer 12.000 Neuronen auf einer Ebene hat, die dann nicht untereinander kommunizieren, sondern immer nur mit der n\u00e4chsten Ebene. Das ist ein sehr gro\u00dfer Unterschied nat\u00fcrlich zum menschlichen Gehirn, wo diese tausend Verbindungen halt sehr viel dynamischer sind und dadurch eben auch deutlich flexibler ist und viel kleiner sein kann, um bessere Ergebnisse zu liefern in vielerlei Hinsicht. <\/p>\n<p>Janine: Ich stelle mir das so vor, dass dadurch quasi das assoziative Denken des Menschen da eben herkommt, dass die Strukturen und Verbindungen flexibler sind und neu entstehen k\u00f6nnen untereinander, ohne dass wir das vielleicht auch bewusst machen und dass wir Wissen \u00fcbertragen k\u00f6nnen auf etwas anderes, um es in einem anderen Kontext anzuwenden.<\/p>\n<p>Helena: Ja, ich meine, das versucht man ja mit diesem Attention-Mechanismus ja auch nachzubilden, das \u00dcbertragen von Wissen.<\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: Aber ja, dadurch, dass das alles eben durch relativ kleine Computerchips berechnet werden k\u00f6nnen soll, braucht man eben diese klare Struktur, die so ein k\u00fcnstliches neuronales Netz hat mit den verschiedenen Ebenen hintereinander. Es ist halt viel einfacher umzusetzen technisch, als so wie das menschliche Gehirn funktioniert. Ja, also die Struktur im menschlichen Gehirn ist halt auch insofern nochmal besonders, weil es parallel zum Anwenden weiterlernt. Da haben wir ja schon gesagt, wenn bestimmte Verbindungen besonders oft benutzt werden, dann werden die besser und so lernt das menschliche Gehirn weiter, w\u00e4hrend das eben bei KI-Modellen bei neuronalen Netzen nicht so ist. Die werden einmal trainiert und dann kann man das Ergebnis wieder als Grundlage nehmen, um sie weiter zu trainieren, aber die Anwendung selber, die sogenannte Inference, da \u00e4ndert sich gar nichts am Ergebnis. Also das \u00e4ndert gar nichts an der Struktur des neuronalen Netzes, sondern es gibt einfach was aus und dann kann nat\u00fcrlich so ein Anbieter wie OpenAI daherkommen und Feedback von den Nutzern einsammeln, um dann beim n\u00e4chsten Mal, wenn sie es weiter trainieren, das zu verwenden, um das Netz zu feintunen, aber das wird nicht die ganze Zeit durch die Benutzung weiter trainiert. Dann gibt es noch einen gro\u00dfen Unterschied, dass ein k\u00fcnstliches neuronales Netz eben auf Anfragen basiert. Also es arbeitet nur, wenn man Eingangsdaten aktiv da reinf\u00fcttert, w\u00e4hrend das menschliche Gehirn die ganze Zeit arbeitet. Also es erm\u00f6glicht, den Kontext besser zu behalten \u00fcber einen l\u00e4ngeren Zeitraum, aber das hei\u00dft auch, dass man ja eben Tr\u00e4ume haben kann, die jetzt nicht direkt von \u00e4u\u00dferen Einfl\u00fcssen kommen. Die k\u00f6nnen nat\u00fcrlich von Dingen kommen, die einem an dem Tag passiert sind oder die man f\u00fcr den n\u00e4chsten Tag erwartet, aber diese Einfl\u00fcsse passieren nicht in dem Moment des Traumes. Ja, was man vielleicht auch noch sagen sollte, ist: neuronale Netz bezeichnet auch unser Gehirn, sind auch neuronale Netze, weshalb es dann auch oft von k\u00fcnstlichen neuronalen Netzen die Rede ist, wenn man so moderne KI-Systeme meint, wobei man das k\u00fcnstlich auch oft einfach wegl\u00e4sst.<\/p>\n<p>Janine: Das stimmt.<\/p>\n<p>Helena: Ja, das war mein Fazit.<\/p>\n<h3>Call to Action (00:37:52)<\/h3>\n<p>Janine: Das war dein Fazit. Dann ja, machen wir doch mal mit dem Rest des Endes weiter. Wenn ihr unsere Folgen h\u00f6ren m\u00f6chtet, folgt uns doch gerne auf Mastodon unter @datenleben@podcasts.social oder guckt auf unserer Webseite vorbei www.datenleben.de. Da k\u00f6nnt ihr uns auch nat\u00fcrlich gerne Feedback hinterlassen oder auch per Mail. Wir freuen uns immer sehr \u00fcber Kommentare zu unseren Folgen. Ja, und falls euch die Arbeits- und Denkweise gef\u00e4llt, k\u00f6nnt ihr uns auch als Data Scientist f\u00fcr Analysen und Projekte buchen.<\/p>\n<p>Helena: Ja, und dann bleibt mir nichts anderes als f\u00fcr eure Aufmerksamkeit zu danken und bis zum n\u00e4chsten Mal. Ciao. <\/p>\n<p>Janine: Tsch\u00fcss.<\/p>\n","protected":false},"author":2,"featured_media":903,"comment_status":"open","ping_status":"open","template":"","meta":{"footnotes":""},"tags":[],"class_list":["post-898","podcast","type-podcast","status-publish","has-post-thumbnail","hentry","post"],"_links":{"self":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/898","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes"}],"about":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/types\/podcast"}],"author":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/comments?post=898"}],"version-history":[{"count":5,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/898\/revisions"}],"predecessor-version":[{"id":904,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/898\/revisions\/904"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/media\/903"}],"wp:attachment":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/media?parent=898"}],"wp:term":[{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/tags?post=898"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}