dl055: chatGPT
Wir begleiten das Thema Machine Learning schon eine ganze Weile. Und jetzt fanden wir, dass es Zeit ist, mal eine ganze Folge über ChatGPT zu reden. Uns interessiert vor allem das T in dem GPT, wofür wir erstmal einen Sprung ins Jahr 2017 machen, wo nämlich ein Transformer-Modell veröffentlicht wurde. Davon ausgehend können wir dann herausfinden, was eigentlich im Hintergrund bei ChatGPT so passiert. Und wir haben uns auch noch die Frage gestellt, wie wird ChatGPT inzwischen im Alltag genutzt? Ausserdem reden wir auch noch über Datenschutz und wie solche Sprachmodelle lokal genzutzt werden können.
Links und Quellen
- datenleben
- www.datenleben.de
- Social Media: Mastodon @datenleben@podcasts.social
- YouTube: @datenleben
- Erwähnte datenleben-Folgen
- Sprachmodelle
- media.ccc.de, Annika Rüll: Lass mal das Innere eines Neuronalen Netzes ansehen!
- arxiv.org, Ashish Vaswani et al.: Attention Is All You Need
- TEXperimenTales, Jürgen Hermes: Wie man auch GPT4-o1-preview noch ins Stolpern bringt
- GitHub.com, meta-llama: Llama Modells. License
- Wikipedia.de: Mistral AI
- GitHub.com, Ollama: Ollama
- https://docs.openwebui.com
- 2point0.ai: How using Continue, Groq and Llama 3 gives you coding superpowers
- Datenschutz
- bfdi.bund.de, Der Bundesbeauftragte für den Datenschutz und die Informationsfreiheit Prof. Ulrich Kelber: Tätigkeitsbericht 2023. 32. Tätigkeitsbericht für den Datenschutz und die Informationsfreiheit
- tagesschau.de: ChatGPT in Italien wieder verfügbar
- Wikipedia.de: Verordnung über Künstliche Intelligenz
- deutschlandfunk.de, : AI Act der EU. Fesseln für die künstliche Intelligenz. (Abschnitt: Welche Kritik gibt es am AI Act?)
- Erwähnte Anwendungen/Seiten
Schlagworte zur Folge
Machine Learning, Neuronale Netze, ChatGPT, Large Language Modell, LLM, Datenschutz
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 55. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch die Welt der Daten näher bringen. Was für Daten umgeben uns und was erzählen sie uns über unsere Welt? Diesen Fragen gehen wir anhand konkreter Themen in unserem Podcast nach.
Thema der Folge (00:00:37)
Janine: Und dieses Mal ist das konkrete Thema "ChatGPT". Wir begleiten das Thema Machine Learning, künstliche Intelligenz etc. ja schon eine ganze Weile, immer mal wieder. Es fing mal an mit den Überlegungen dazu, wie sich die Sprachmodelle entwickeln werden, die jetzt zum Beispiel auch zu ChatGPT geführt haben. Und jetzt fanden wir, dass es Zeit ist, über genau das einmal zu reden. Und da haben wir uns auch wieder konkrete Themen ausgesucht. Uns interessiert vor allem das T in dem GPT, was für Transformer steht. Und zwar machen wir da erstmal einen Sprung ins Jahr 2017, wo nämlich ein Transformer-Modell veröffentlicht wurde. Und davon wird Helena gleich mehr erzählen, denn davon ausgehend können wir dann herausfinden, was eigentlich im Hintergrund bei ChatGPT so passiert, während es mit Menschen redet oder so tut, als würde es mit Menschen reden. Und wir haben uns auch noch eine andere Frage gestellt, nämlich jetzt, wo ChatGPT so lange schon verfügbar ist, wie sieht denn die Nutzung im Alltag gerade aus? Und natürlich wieder ganz wichtig, wie steht es um den Datenschutz? Kleiner Spoiler vorweg, sehr komplexes Thema. Und zum Schluss haben wir dann noch ein paar Hinweise, Tipps, Informationen dazu, welche Modelle sich auch lokal ausführen lassen, ohne mit fremden Servern verbunden zu sein. Ja, genau, das sind die Themen heute.
Warum ist das Thema interessant? (00:02:04)
Helena: Ja, und wir haben uns für dieses Thema entschieden, weil ChatGPT einfach so das Machine Learning Thema seit im Grunde fast zwei Jahren ist, das kam ja, glaube, im Dezember vor zwei Jahren raus. Und bisher haben wir dem noch keine ganze Folge gewidmet und wollen das jetzt mal nachholen. Und deswegen dachten wir, wäre es auch gut, sich mal anzugucken, wie eigentlich konkret ChatGPT funktioniert, soweit man das eben in einem Audioformat erklären kann, ohne Formeln und so.
Einspieler: Hallo, ChatGPT! (00:02:44)
Janine: Hallo ChatGPT.
ChatGPT: Guten Tag, was möchtest du besprechen?
Janine: Eigentlich würde ich gerne über dich reden, wenn das in Ordnung ist.
ChatGPT: Klar, das ist in Ordnung. Was möchtest du über mich wissen?
Janine: Wie siehst du selbst deine Entwicklung über die letzten zwei Jahre? Du hast ja bald Geburtstag.
ChatGPT: Das ist eine interessante Frage. In den letzten zwei Jahren habe ich mich weiterentwickelt, vor allem in Bezug auf meine Fähigkeit Kontexte besser zu verstehen und auf individuelle Bedürfnisse einzugehen. Mein Wissen hat sich ebenfalls erweitert, was mir hilft, präzisere und relevantere Antworten zu geben. Ich freue mich darauf, weiterhin zu lernen und mich zu verbessern. Was interessiert dich besonders an meiner Entwicklung?
Janine: Wie lernst du all diese neuen Dinge?
ChatGPT: Ich lerne durch das Verarbeiten und Analysieren von großen Mengen an Text und Daten. Meine Entwickler trainieren mich mit verschiedenen Textquellen, sodass ich Muster, Zusammenhänge und Wissen erkennen kann. Das Training erfolgt in einem kontrollierten Umfeld, um sicherzustellen, dass ich nützliche und relevante Informationen bereitstellen kann. Es ist ein bisschen so, als würde ich aus einer riesigen Bibliothek lernen. Was denkst du über diese Art des Lernens?
Janine: Das klingt ganz gut. Lernst du auch durch unser Gespräch gerade?
ChatGPT: Ich lerne nicht direkt aus unseren Gesprächen, da ich keine persönlichen Daten speichere oder anpassbare Erinnerungen habe. Aber ich nutze die Informationen, um besser auf deine Fragen zu antworten und den Kontext während unserer Unterhaltung zu verstehen. Jeder Chat ist also eine neue Gelegenheit, meine Fähigkeiten zu nutzen, ohne dass ich etwas dauerhaft speichere. Hast du noch weitere Fragen dazu?
Janine: Das ist interessant. In deinen AGB steht, dass auch meine Inhalte, die ich dir übermitte, dafür benutzt werden. Aber ich mag Datenschutz.
ChatGPT: Es ist verständlich, dass Datenschutz wichtig ist. In den AGB wird erklärt, dass Daten gesammelt werden können, um die Dienste zu verbessern. Aber ich selbst speichere keine persönlichen Informationen oder spezifische Gespräche. Deine Privatsphäre hat Priorität und ich bin hier, um dir zu helfen, ohne dass du dir Sorgen machen musst. Wenn du noch mehr Fragen zum Thema Datenschutz hast, frag einfach.
Janine: Danke, das reicht erstmal. Freust du dich auf deinen Geburtstag?
ChatGPT: Ich finde den Gedanken an einen Geburtstag spannend. Es ist eine gute Gelegenheit, über meine Entwicklung nachzudenken. Es bedeutet auch, dass ich weiterhin nützlich sein kann und mich weiter verbessere. Hast du ein besonderes Erlebnis, das du gerne zu deinem Geburtstag teilst?
Janine: Nein, das Beste ist einfach jedes Jahr der Kuchen.
ChatGPT: Kuchen ist wirklich ein Highlight an jedem Geburtstag. Gibt es eine besondere Sorte, die du besonders magst?
Janine: Alles mit Obst ist toll, aber ich wette fast, du magst eher Cookies? Schließlich bist du ja auch eine Webanwendung und die haben immer Cookies.
ChatGPT: Haha, das ist ein cleverer Witz. Ich habe zwar keine Vorlieben wie Menschen, aber die Idee von Cookies ist schon amüsant. Obstkuchen klingt jedenfalls sehr lecker. Hast du ein Lieblingsobst, das du gerne in deinem Kuchen hast?
Janine: Nein, ich mag alles. Danke für das Gespräch. Ich muss dann mal weiterarbeiten. Tschüss.
ChatGPT: Gern geschehen. Viel Erfolg bei der Arbeit. Wenn du wieder Lust auf ein Gespräch hast, bin ich hier. Tschüss.
Was ist doch gleich dieses chatGPT? (00:06:19)
Helena: Also, ChatGPT ist ein neuronales Netz. Es basierte in seiner ersten Version, ja, vor knapp zwei Jahren, auf GPT-3, einem Sprachmodell, das erstmals in der Lage war, nicht nur grammatikalisch richtige Sätze zu produzieren, wie das bei GPT-2 der Fall war, sondern auch in der Lage, inhaltlich korrekte Sätze zu erzeugen. Dabei steht GPT für "generative pre-trained transformer". Das "g" meint also, dass etwas generiert wird. Das "p", "pre-trained", also "vortrainiert", meint, dass man das Modell bereits im trainierten Zustand nutzen kann, es also nicht komplett selber trainieren muss. Das ist, wenn man sich andere Machine Learning-Themen anguckt, wie zum Beispiel Handschrifterkennung, oft so, dass die meisten Dokumente dazu einem erklären, wie man das jetzt selber trainiert, aber man findet weniger, die das schon irgendwie können. Gut. Ein anderer wesentlicher Punkt bei pre-trained Modellen ist aber auch, dass man das Training von diesem Punkt an fortsetzen kann. Also man kann das Modell weiter spezialisieren, was auch "fine-tuning" genannt wird. Das steht im Gegensatz zu vielen anderen Modellen, die man oft gesehen hat, mit denen ich auch früher gearbeitet hatte, bevor es eben Transformer-Modelle gab. Und insbesondere die großen Sprachmodelle funktionieren ja nur, wenn man wirklich viel Training oder sehr viele Daten zur Verfügung hat, sodass es sich eigentlich nicht lohnt, das selber durchzuführen, weil die erst gut werden, wenn man zu viel davon, also sehr viele Daten hat. Deswegen ist es gut, dass sich hier eingebürgert hat, dass man die schon im trainierten Zustand bekommt. Gut. Dann gibt's noch das T, und das steht für "Transformer". Also es wird im Wesentlichen eine Eingabe in eine Ausgabe transformiert. Und am einfachsten zu verstehen ist das Ganze am Beispiel von Übersetzungen, wo man einen Text in einer Sprache nimmt und in eine andere übersetzt. Oder wie wir das ja auch schon einmal in einer Folge hatten über Whisper, was ein Tool ist, was Podcasts, also Audio nimmt und da geschriebene Sprache draus macht. Das ist auch ein Transformer gewesen. Auch hier wird etwas transformiert. Wie genau das dann, oder was das dann für ChatGPT bedeutet, das kommt dann später.
Janine: Genau. Wir wollen mit dem Anfang beginnen, aber nicht ganz am Anfang. Ja, was generell beim Thema künstliche Intelligenz oder Machine Learning immer zu sagen ist, es geht hier immer noch nicht darum, dass die Anwendungen, die wir benutzen, wirklich intelligent sind, von sich aus denken, wie eine Form von Bewusstsein haben oder dergleichen. Wir benutzen aber trotzdem jetzt den Begriff künstliche Intelligenz, weil das sagen eben die meisten so.
Helena: Ja.
Janine: Wir wissen vermutlich alle inzwischen schon relativ gut, dass es auch den Begriff neuronale Netze gibt, haben wir ja gerade auch schon benutzt und dass solche Anwendungen eben aufgrund dieser neuronalen Netze überhaupt entwickelt werden können. Und der Begriff, der da eben noch drunter liegt, ist Machine Learning. Hat Helena ja alles gerade schon angerissen. Wir haben also ein Modell, einen bestimmten Algorithmus, der trainiert wird, um bestimmte Dinge zu erkennen oder zu machen. Und es gibt dazu sehr gute Einführungsvorträge, die beispielsweise auch auf dem Chaos Communication Congress schon häufiger gehalten wurden, die das wirklich gut erklären. Deswegen verzichten wir darauf jetzt, auf diese Sachen nochmal näher einzugehen. Wir werden auf jeden Fall mindestens einen davon in den Shownotes verlinken. Und bei ChattGPT ist es jetzt so, dass es nicht einfach nur ein neuronales Netz ist, sondern eine ganze Ecke komplexer wird. Und ja, der Ausgangspunkt, mit dem wir anfangen, ist die Stelle, wo quasi etwas hinzugekommen ist, was ChatGPT wirklich möglich gemacht hat. Und zwar ein Transformer-Modell, über das uns Helena jetzt mehr erzählt.
Wie funktioniert das Transformermodell All you need is Attention? (Helena)
Helena: Genau. Im Jahr 2017 wurde unter dem Titel "Attention, it's all you need" das Transformer-Modell veröffentlicht. Das war von einem Team von Google, die das als wissenschaftliche Veröffentlichung publiziert haben. Somit steht die Grundidee dann auch eben allen zur Verfügung. Und das wesentliche Konzept, das hier eingeführt wurde, ist die sogenannte "Self-Attention" oder "Attention" bzw. eben ja, "Selbstaufmerksamkeit" oder "Aufmerksamkeit". Was heißt denn das Ganze? Also, wenn man jetzt mit ChatGPT arbeitet, dann ist so der erste Schritt, man startet mit einem Text, was man ja als Frage da reingibt, und dann versucht, das Modell eben auf Basis dieses Textes das nächste Wort vorherzusagen. Also immer ein Wort nacheinander. Der erste Schritt ist jetzt, dass man einen Eingabetext hat, und den muss man eben in Zahlen umwandeln, weil Computer nun mal mit Zahlen arbeiten. Neuronale Netze sind da nichts anderes. Und dann ist quasi jedes Wort eine Liste von bestimmten Zahlen. Diese Liste von Zahlen wird auch Vektor genannt. Und ja, es ist letztlich eine sehr lange Liste von Zahlen, und bei GPT-3 waren das etwa 12.800 Einträge in dem Vektor. Ja, und diese Codierung von oder Repräsentation von Wörtern in diesem Zahlenraum nennt man auch "Embedding", also "Einbettung". Ja, und das Ganze besteht eben aus ungefähr 12.000 Zahlen, aber das heißt nicht, dass es nur auf 12.000 Wörter begrenzt wäre. Wie viele Wörter man darstellen kann, wächst dann auch exponentiell mit der Anzahl der Zahlen pro Vektor. Deswegen reichen 12.000 schon für ziemlich viel aus. Man kann jetzt davon ausgehen, dass modernere Versionen von chatGPT auch mehr benutzen, aber das ist nicht bekannt. Gut, das heißt, wir haben jetzt unseren Eingabetext, der besteht aus ganz vielen Zahlen jetzt, also für jedes Wort eine Zahl. Dann ist der nächste Schritt eben die sogenannte "Self-Attention". Also dabei spielt dann eben das betrachtete Wort eine Rolle. Also das betrachtete Wort ist eben das Wort an dieser Stelle in dem Satz. Das Ganze wird dann auch der Vektor q genannt. Dann gibt es noch den sogenannten "Key-Vektor", den man dann eben k nennt, und der sagt aus, wie relevant andere Wörter für das aktuelle Wort sind. Und dann gibt es noch den "Value-Vektor", also den Wert-Vektor, der die Informationen enthält, die eben über das Wort weitergegeben werden. Ich komme gleich noch zu einem Beispiel. Dann ist die "Attention" in diesem Modell das Produkt der Vektoren q und k, und das wird dann ganz nochmal mit einem Algorithmus namens "Softmax" und einem Skalierungsfaktor weiterverarbeitet und anschließend noch mit dem V, also dem "Value-Vektor" multipliziert.
Janine: Also der Vektor q ist im Prinzip das betrachtete Wort selbst.
Helena: Ja.
Janine: Der Key-Vektor ist, wie relevant andere Wörter für das aktuelle Wort sind, also wie viele Wörter sozusagen quasi mit einbezogen werden. Und dann der, mit dem es multipliziert wird, ist der Skalierungsvektor, wie wichtig es ist quasi selber als Wort. Kann man das so sagen?
Helena: Nee, das ist eher, welche Informationen übertragen werden.
Janine: Ah ja, stimmt.
Helena: Das können wir uns jetzt mal an einem Beispiel uns angucken. Wir wollen die Attention bzw. Aufmerksamkeit für das Wort "Katze" berechnen. Und zwar ist der Satz "Die Katze jagt die Maus". Dann sind eben die Werte für, wie relevant sind die einzelnen Wörter, vielleicht bei Katze und Jagd vielleicht 0,4 jeweils. Also für die Katze ist schon relevant, dass sie eine Katze ist. Und die Maus ist dann jetzt nicht so wichtig für die Katze. Die könnte ja eben auch einen Vogel jagen oder ein Spielzeug. Wenn man dann eben durch den Satz durchgeht und dann bei der Maus ankommt, dann ist für die Maus, wenn sie feststellt, oh, sie wird gejagt und zwar von einer Katze, dann ist die Katze schon sehr relevant für die Maus. Deswegen hat sie dann einen höheren Wert an dieser Stelle. Und der Value-Vektor sorgt dann dafür, dass die Information weitergegeben wird, was die Katze eigentlich macht. Also wenn man jetzt das Ganze für die Katze ausrechnet, dann ist der Vektor, der am Ende rauskommt, steht dann eben für eine jagende Katze. Das ist dann ja kein eigentliches Wort mehr, weil bei uns sind das ja schon mehrere Wörter, aber die Bedeutung von diesem Vektor ist "jagende Katze". Wenn man das Ganze für die Maus macht, dann ist das, was da rauskommt, eine gejagte Maus von einer Katze gejagte Maus. Weil es schon für die Maus deutlich relevanter ist, dass sie von einer Katze gejagt wird, als ob die Katze jetzt die Maus jagt oder was anderes. Also für die Maus hat es eben einen sehr großen Einfluss darauf, wie ihr Leben danach aussieht, während für die Katze, das ist nicht ganz so wichtig, ob es jetzt diese eine konkrete Maus ist. Und was jetzt eben im Beispiel auch schon vorkam, ist, dass dieser Attention-Mechanismus eben nicht nur einmal ausgerechnet wird, sondern eben mehrfach parallel. Und der Vorteil dabei ist, dass man dann verschiedene Aspekte der Beziehung zwischen Wörtern gleichzeitig verarbeiten bzw. lernen kann, wenn man das Modell trainiert. Ja, und dann hat man diesen Vektor, der dann im Wesentlichen die Aussage zu diesem Wort sagt. Und das macht man dann nochmal eben für alle Wörter in dem Text. Und am Ende kommt dann eben ein Wert raus für das letzte Wort. Ja, und da hat man letztlich eine abstrakte Version des Textes. Und das Ganze muss dann wieder in einen anderen Text umgewandelt werden, weil wir einen Transformer haben, der Dinge, Eingangswerte in einen Ausgangswert umwandelt. Und das Ganze funktioniert eben Wort für Wort. Aber in den Output geht dann auch nochmal der Ausgabetext ein. Das heißt, wir machen wieder den Attention-Mechanismus für den Ausgabetext, der ja bis zu einem gewissen Punkt auch schon feststeht. Das ergibt, wenn man sich eine Vorübersetzung oder sowas wie eine Transkription von einem Podcast anguckt, ja auch sehr viel Sinn, weil es spielt ja nicht nur eine Rolle, was ist die Bedeutung des Eingangssignals oder des Eingangstextes, sondern wenn ich jetzt in einer anderen Sprache bin, muss ich ja auch innerhalb dieses übersetzten Textes darauf achten, dass was auch immer als nächstes Wort kommt, dass das ja auch zu dem passt. Man übersetzt ja nicht Wort für Wort und dann nur einzelne Wörter, dann ist die Grammatik völliger Quatsch, sondern man übersetzt ja komplette Textpassagen. Das heißt, man muss dann auf den Ausgabetext auch nochmal diesen Attention-Mechanismus machen, berücksichtigt dabei aber eben dann nur die Wörter, die bereits erstellt wurden. Also in dem Ausgabetext auch repräsentiert sind. Die anderen Wörter werden maskiert, was dann heißt, die werden im Wesentlichen auf Null gesetzt. Und dann haben wir von zwei verschiedenen Attention-Mechanismen zwei Outputs, die dann erstmal zusammen verarbeitet werden müssen. Ja und da folgt dann auch nochmal ein neuer Attention-Block und das Ergebnis davon wird dann in ein Feed-Forward-Netz gespeist, was im Wesentlichen eine Form von neuronalem Netz ist, die quasi nur in eine Richtung passiert. Also bei der Attention kann man durchaus sich vorstellen, dass das sich mehrfach wiederholt für verschiedene Sachen und es gibt auch verschiedene neuronale Netze, die darauf basieren, dass man bestimmte Schleifen drin hat, dass manche Aspekte mehrfach passieren in einem Algorithmus-Durchlauf, während bei einem Feed-Forward-Netz, was am Ende jetzt hier kommt, immer nur in eine Richtung gerechnet wird.
Janine: Das heißt, man könnte sich bei der Attention vorstellen, dass eventuell zwischendurch quasi mit Zwischenergebnissen schon mal gearbeitet wird.
Helena: Ja und dieses Feed-Forward macht dann am Ende die entscheidende Magie, die aus dem, was man vorher in diesen Attention-Blöcken an Informationen über das aktuelle Wort bekommen hat, verarbeitet, um dann eben neue Wörter vorherzusagen. Und das, was da jetzt rauskommt, sind Ausgabe-Wahrscheinlichkeiten für verschiedene Wörter. Also man bekommt quasi nicht nur ein Wort ausgegeben von diesem neuronalen Netz, sondern verschiedene, jeweils mit Wahrscheinlichkeitswerten. Und wenn man es ganz genau nimmt, sind es auch gar nicht auf Wortebene, sondern eigentlich arbeitet man auf sogenannter Tokenebene und Wörter, viele Wörter sind halt auch dann genau ein Token, aber ein Token kann eben auch Punkt sein oder Komma oder wenn man jetzt zum Beispiel die Katze hat, dann ist das vielleicht ein Token und wenn man jetzt das Wort Kätzchen hätte, dann wäre quasi Katze immer noch das eine Token und das Chen wäre dann noch ein neues Token. Einfach weil man dann alle Begriffe schon erschlagen kann, quasi die auf "chen" enden im Deutschen und braucht dann nicht irgendwie 100.000 neue Token dafür, sondern kann einfach dann die Wörter an dieser Stelle splitten und dann lernt auch das neuronale Netz, dass "chen" eine Verniedlichung ist und muss dann nicht für jedes Wort diese Verniedlichungsform kennen, um damit arbeiten zu können.
Janine: So ein bisschen wie diese Kühlschrankpoesie, wo man auch einfach Endungen an Wortstämme ranhängen kann.
Helena: Ja, genau. Und was jetzt hier bei so einem Transformer-Modell mit der Attention ja auch eine Rolle spielt, ist, wie lang können eigentlich diese Texte sein und je nachdem, welches Modell man hat, sind das 8.000 von diesen Token oder eben Wortfragmente oder auch 120.000, was schon relativ viel ist. Das heißt, die können relativ lange Texte verarbeiten, ohne den Faden zu verlieren. Das ist jetzt bei ChatGPT in der Ursprungsversion noch nicht so viel gewesen, ist jetzt inzwischen aber deutlich mehr geworden.
Janine: Ja, das ist natürlich relativ ähnlich zu dem, was wir schon mal bei Whisper besprochen hatten, als es darum ging, wie Whisper eigentlich funktioniert, um unsere Audiodateien in Texte zu verwandeln. Da hatten wir das Wort "Token" auch schon mit drin. Das war Folge 40 for the record. Und ja, bei Whisper war allerdings in Anführungsstichen das Problem, dass es auch diese Token generiert über das, was gesagt wurde, damit es weiß, was quasi als nächstes gesagt werden kann und den Kontext hat. Also in den Token steckt auch da der Kontext für das, was als nächstes übersetzt werden kann und wahrscheinlich orientiert sich darin dann eben die konkrete Wortbedeutung. Nur ist es bei Whisper so gewesen, dass es nicht über die gesamte Eingabe der Audiodatei zurückreicht, sondern immer nur, meinetwegen die letzten drei Token sind noch bekannt. Das sind immer so kleine Zeitintervalle gewesen, in denen quasi Satzfragmente drin stecken. Und die überlappen sich so ein bisschen, damit es immer weiter fortgeführt wird, aber alles, was weiter zurückliegt als diese drei Token, sagen wir mal, ich weiß nicht mehr die genaue Anzahl, das wird halt verworfen, das spielt keine Rolle mehr. Und deswegen konzentriert sich Whisper immer nur auf den aktuellen Abschnitt, den es transkribiert, und weiß halt nicht mehr, was vorher war. Und ich glaube, das ist eines der Probleme, warum es immer noch nicht die Sprechenden auseinanderhalten kann, weil es ja nicht weiß, wie viele Personen schon gesprochen haben.
Helena: Ja, also wenn man jetzt sagt, die Hauptanwendung wäre jetzt wirklich sowas wie Podcasts zu transkribieren, dann könnte man das ja da eintrainieren, dass es dann eben auch mit deutlich längeren Abschnitten arbeitet und eine deutlich höhere Kontextlänge hat. Das verlängert natürlich die Zeit, in der so ein Algorithmus durchläuft. Und wenn man jetzt sowas wie Whisper für Echtzeitanwendungen benutzen wollen würde, dann ist das halt unpraktisch. Also das ist halt dann die Frage, wofür will man das einsetzen? Und dann muss man es halt darauf auch optimieren.
Janine: Genau. Und das ist ja auch Rechenleistung, die dabei aufgewendet werden muss, die man erstmal in Hardware vorhanden haben muss. Und auch ein Energieaufwand, der natürlich steigt, je länger ein aufwendiges Modell läuft.
Helena: Ja. Gut. Das, was ich jetzt erklärt habe für den Transformer, kann man sich ganz gut vorstellen, hoffe ich, für Übersetzungen und gesprochene Sprache in geschriebene Sprache umwandeln. Wenn man jetzt das Ganze sich aber für sowas wie Chat-GPT oder GPT anguckt, dann muss man erstmal gucken, ja, wie ist das denn da umgesetzt? Aber praktischerweise sind Transformer ja schon von Anfang an so gedacht, dass sie eben Wort für Wort generieren. Das heißt, man kann das Ganze auch so nutzen, dass man sagt, ja, wir starten jetzt mit einem Text, den man quasi als Input reinpackt, aber dann eben auch bei dem Output reinpackt. Und dann sagt man, man will einfach nur das nächste Wort haben und die Idee ist dann quasi in der Ursprungsform gewesen, man fängt quasi einen Text an und der soll dann die Geschichte vervollständigen. Das waren so die ersten Beispiele von GPT-3, die ich gesehen hatte, die dann darauf basiert haben. Also wenn man jetzt zum Beispiel den Satz hat "Die Katze jagt", dann wären ja mehrere Möglichkeiten möglich, wie zum Beispiel "Der Satz ist jetzt einfach zu Ende, das nächste Token ist ein Punkt." Oder Wörter wie "eine", "die", "den" oder "einen" könnten rauskommen. Hier haben wir dann verschiedene Wahrscheinlichkeiten. Vermutlich ist dann die Wahrscheinlichkeit relativ hoch für "eine", weil "die Maus", wie in unserem vorherigen Beispiel, dazu müsste ja eigentlich "die Maus" schon mal in dem Text vorher vorgekommen sein, damit man typischerweise einen bestimmten Artikel nimmt und nicht einen unbestimmten wie "eine". Gut, aber wenn jetzt das nächste Wort eben "eine" ist, dann ist es schon relativ oder sehr wahrscheinlich, dass danach auch "Maus" kommt, während wenn das Modell dann aussucht, ja, ich nehme jetzt das mit der geringeren Wahrscheinlichkeit, "einen", "die Katze jagt einen", dann muss man ja weiter vervollständigen und dann kommt da "einen Vogel" höchstwahrscheinlich.
Janine: Was ich mich frage, wenn es Bedeutung erkennen kann, dieses "Chat GPT", kann es auch absichtlich nicht Bedeutung erkennen? Also, ich denke da an vogonische Gedichte.
Helena: Ja, vogonische Gedichte kann ChatGPT natürlich generieren. Und das hat mir auch einen schönen Text generiert gerade.
Janine: Aha.
Helena: Blurgle the Splonky Frapple. O squalid splurf of the rancid breeze, How you wiggle through my spleen with ease, Gromp the wobble, oh flibbly bloo, Spatch the greebs, for the muck is due!
Janine: Hm.
Helena: Und noch ein paar Absätze mehr.
Janine: Interessant. Also, ich glaube, mir fehlt noch so ein bisschen vogonische Würze. Da sind noch zu viele Wortworte drin, die mehr wortig sind, als ich sie in vogonischer Dichterei erwarten würde. Es haben sich mir noch nicht die Eingeweide zusammengezogen. Das fehlt ein bisschen, aber ChatGPT kann ja noch lernen.
Helena: Ja, ich dachte auch, irgendwie sind erstaunlich viele normale Wörter da mit drin.
Janine: Ja, falls irgendein Mensch, der uns zuhören sollte, was ich fast nicht glaube, aber falls ein Mensch Kontext braucht, Vogonen sind eine außerirdische Spezies, die im Anhalter durch die Galaxis die Erde gesprengt hat und nun ja, sehr stolz auf ihre Dichterei ist, wobei sie bei den meisten anderen Wesenheiten, die das All bewohnen, eher so etwas wie Krämpfe auslöst, weil sie so abgrundtief schlecht ist.
Helena: So behaupten das zumindest einige Leute. Andere Leute behaupten, das sei gar nicht so schlecht, wie der Hauptcharakter im Anhalter, der findet das okay.
Janine: Ja, gut. Wenn man mit einer gewissen, nun ich sag mal, Demotivation gegenüber der Welt eingestellt ist, dann sind vogonische Gedichte wahrscheinlich auch nicht so das Problem. Ja, kommen wir zurück zu ChatGPT.
Helena: Genau, was ich ja gerade erklärt hatte, ist, dass GPT ursprünglich eigentlich nur in der Lage ist, Sätze zu vervollständigen oder Texte ja, zu ergänzen. Also es endet nicht bei einem Satz, sondern kann schon ganze Texte generieren auf Basis des Eingangstextes. Das ist ja noch nicht genau das, was ChatGPT macht, weil bei ChatGPT ist das ja ein Chat, wo man Fragen stellt oder Eingangstexte gibt. Und wie das da gelöst ist, ist im Wesentlichen, dass man nicht einfach nur die Frage als Inputfrage nimmt, die man da eingetippt hat, und dann generiert das eben einen Output, eine Ausgabe, sondern man muss im Hintergrund ein Setting definieren, also einen Rahmentext erstellen, wie zum Beispiel "Es gibt ein Gespräch zwischen Mensch und AI und der Mensch sagt, was jagt die Maus?, und dann antwortet die AI, Doppelpunkt", und das ist dann der Text, der dann weiter vervollständigt wird von dem Modell. Und das ist in der Praxis, sind diese Prompts, so nennt man das auch, Prompt, also nicht nur Frage, sondern Prompt, dann durchaus komplexer. Und ja, seit es ChatGPT gibt, gibt es auch irgendwie immer wieder das Thema: der neue Berufszweig ist Prompt Engineering, also das Entwickeln von möglichst schlauen Prompts, mit denen diese Sprachmodelle in der Lage sind, dann auch wirklich die Antwort zu geben, die man haben möchte. Und letztlich war bei ChatGPT im Vergleich zu dem GPT-3, was davor kam, eben, dass man eine schlaue Prompt quasi hatte, die eben dieses Setting so generiert, dass es sich wie ein richtiges Gespräch anfühlt. Und wenn man sich andere Modelle anguckt, dann haben die eben auch verschiedene Prompts, die dann im Hintergrund bestimmte Dinge als Kontext mitliefern, den wir jetzt selber nicht noch als Kontext mitgeliefert haben. Ja, und dann vervollständigt das Sprachmodell eben dieses Gespräch. Im Prinzip ist das Sprachmodell jetzt nicht so unendlich schlau, es kann dann ja auch anfangen, den menschlichen Teil wieder zu vervollständigen. Da würde dann eben die Benutzeroberfläche oder das, was man da angebunden hat, einfach dann den Text abschneiden und im nächsten Fall dann den Kontext eben wieder so setzen, ohne diesen vom Computer generierten Teil, den der Mensch angeblich antworten würde. Ja, und das letzte Thema, was vielleicht noch eine Rolle spielt, ist das Training.
Wie werden solche Modelle trainiert? (00:10:44)
Helena: Wie trainiert man solche Modelle? Also letztlich sind das eben auch sogenannte Deep-Learning-Modelle, das heißt, sie werden so trainiert wie andere Deep-Learning-Modelle, darüber reden wir jetzt hier nicht. Also mathematisch betrachtet ist der Algorithmus der gleiche, aber was jetzt Sprachmodelle im Besonderen eben auszeichnet, ist, wenn man jetzt einen Text hat, der hat 100 Wörter, dann entsprechen diese 100 Wörter schon 99 Trainingsdaten-Sätzen, weil man ja den Text an jeder beliebigen Stelle aufhören kann und dann im Training sagen kann, ja, sag mir jetzt das nächste Wort voraus. Das heißt, man kann schon mit relativ wenigen Texten so ein Sprachmodell sehr effizient trainieren, also effizient im Sinne von, man braucht nicht so unendlich viele Eingangstexte. Und was dabei trainiert wird, sind eben die Gewichtungen, die eben in diesen Zwischenschritten bei der Attention verwendet werden oder auch in diesem Feed-Forward-Netz, was am Ende kommt, da gibt es auch Gewichtungen der neuronalen Netzparameter und das ist letztlich das, was dann rausfällt, diese Gewichtungsmatrizen. In diesen Zahlen stecken letztlich auch diese Fakten drin, die eben so ein Modell benutzen kann, um damit zu arbeiten. Also es gibt eine Unterscheidung zwischen Modell, das ist, wie rechnet man, wie ist dieses neuronale Netz aufgebaut und so weiter und dann gibt es eben die Gewichtungsmatrizen, die dann tatsächlich den trainierten Zustand repräsentieren. Und diese Gewichtungsmatrizen sind sehr abstrakt, weshalb es eben auch als sehr schwierig festzustellen gilt, welche Teile dieser Matrizen jetzt für welche genauen Fakten stehen. Ich meine, man kann das ja auch vergleichen mit einem menschlichen Gehirn, letztlich sind neuronale Netze ja so ein bisschen daran angelehnt. Wir wissen jetzt auch nicht, in welchen Neuronen jetzt welche Fakten genau gespeichert sind. Ja.
Janine: Ich finde, das ist auf jeden Fall sehr schön dargestellt insgesamt, weil ich glaube jetzt, das auch ein bisschen besser zu verstehen, wie das aufeinander aufbaut. Und wir hatten ja in früheren Folgen auch schon mal auf so Sachen hingewiesen, wie die KI halluziniert sich etwas zusammen, indem halt Sachen auftauchen, die vielleicht nicht stimmen oder die halt den Fakten eben widersprechen. Und ich glaube, ich habe jetzt so ein bisschen das Gefühl dafür, wie so etwas tatsächlich entstehen kann, weil es ja einfach nach wahrscheinlichen nächsten Worten sucht. Also, wenn irgendwelche Kontexte irgendwann irgendwo in diesem Internet mal gegeben waren und das zu den Trainingsdaten gehört hat, hat das natürlich auch Einfluss. Und natürlich muss ein Wort auf ein Wort folgen. Also, die Eingabe erfordert ja eine Ausgabe, also muss da am Ende etwas stehen. Und das ist ja nur eine Vervollständigung bis zu dem Punkt, wo potenziell die Eingabe ausgeführt wurde, falls man versteht, was ich sagen möchte. Naja, ja. Jedenfalls hoffe ich, dass ihr anderen auch, die uns hier vielleicht zuhören oder sehr wahrscheinlich zuhören, eben auch diese grundsätzliche Arbeitsweise so ein bisschen mitgenommen habt aus dem, was bisher schon gesagt wurde und wie so die Interaktion mit Chat-GPT funktioniert, dass tatsächlich eine Ausgabe rauskommt.
Wie wird chatGPT im Alltag genutzt? (00:32:09)
Janine: Und weil diese Anwendung schon eine ganze Weile jetzt im Gebrauch ist, seit fast zwei Jahren, haben sich auch schon verschiedene Anwendungsmöglichkeiten herauskristallisiert. Ich selbst habe es noch nicht genutzt, im Sinne von noch gar nicht. Also, nie.
Helena: Hast du nicht mal bei einer Suchmaschine schon automatisch generierten Antwortstext von der KI bekommen?
Janine: Ich habe es nicht bewusst genutzt. Also, ich habe nie ChatGPT einen Prompt geliefert und auf eine Ausgabe gehofft. Aber natürlich werde ich wahrscheinlich im Hintergrund Sachen benutzt haben, ohne es zu wissen.
Helena: Okay. Weil verschiedene Suchmaschinen ja mittlerweile, wenn man dann eine Suchanfrage reinschreibt, auch oben erstmal einen KI-generierten Antworttext zeigen, bevor dann die ganzen normalen Suchergebnisse kommen. Also, hätte ja sein können, dass du das in der Form schon mal gesehen hast.
Janine: Gesehen vielleicht, wahrgenommen als solches eher nicht.
Helena: Ach so, okay.
Janine: Da tauchen ja eigentlich manchmal auch immer schon eher, dachte ich, die irgendwelche Snippets aus Wikipedia automatisch auf, die vorübersetzt werden und sowas.
Helena: Genau, das gibt es auch, aber das ist es jetzt je nach Suchmaschine nicht mehr nur.
Janine: Okay. Naja, ich habe keine eigenen Erfahrungen damit oder keine bewussten eigenen Erfahrungen, aber hin und wieder mit Menschen geredet oder Menschen zugehört, die es benutzen. Und da haben sich für mich verschiedene Punkte herauskristallisiert. Es ist vor allem oft der berufliche Kontext und Dinge, die da halt öfter mal genannt werden, sind, dass kleine zeitraubende Aufgaben abgenommen werden können dadurch, das weiße Blatt gefüllt wird für Leute, die viel mit Texten arbeiten. Also, ChatGPT bietet einen Anfangspunkt, eine Vorlage, die man dann selbst überarbeiten oder ausbessern kann. Man kann sich Ideen generieren lassen und ja, Texte schreiben lassen, die relativ banale Inhalte haben, wo es auch nicht auf die Ästhetik des Textes unbedingt ankommt. Und ja, manche benutzen ChatGPT statt Google. Also, nicht nur eine Suchmaschine, die auch KI-Ergebnisse liefert, sondern tatsächlich konkret gleich in den Chat mit einer KI treten, um Ergebnisse zu bekommen. In meiner Vorstellung war das so, vielleicht denken die Leute bei Google immer mehr an die Stichworte und bei ChatGPT kann man halt einfach eine Frage stellen, als würde man irgendeinen Menschen fragen. Sag mal, kannst du mir nicht mal kurz sagen, das und das? So war meine Vorstellung von ChatGPT. Liege ich da in etwa richtig? Wahrscheinlich nicht.
Helena: Ja, also beim Googlen oder beim Benutzen verschiedener Suchmaschinen ist schon seit Jahren das Problem, dass wenn man Stichworte benutzt, man auch immer angezeigt bekommt, welche Stichworte jetzt einfach nicht benutzt wurden, weil es keine sinnvollen Suchergebnisse dazu gab. Was oft sehr frustrierend ist aus meiner Sicht, wenn man denkt, ja, okay, jetzt sind da irgendwie 20 Suchergebnisse, die passen alle überhaupt nicht zu meinem Problem. Weil ein entscheidendes Wort nicht drin vorgekommen ist. Und früher konnte man das immer noch erzwingen, dass bestimmte Wörter oder Phrasen drin vorkamen und das ist über die Zeit aber immer mehr abgebaut worden. Und gerade sowas wie Google ist ja schon seit Jahren eher dabei, auch Leuten Fragen zu ermöglichen. Also da kann man schon seit Jahren einfach Fragen reinschicken und man kriegt irgendwie Antworten. Aber mein persönliches Problem mit sowas wie Google ist dann oft, dass es je nachdem, in welchem Thema man sucht, einfach mit Werbung zugemüllt ist. Also nicht nur bezahlte Werbung, das ist ja okay, irgendwie müssen die ja auch ihre ganzen Sachen finanzieren, das ist ja okay. Aber irgendwie Webseiten, die darauf ausgelegt sind, möglichst viele Suchergebnisse oder bei möglichst vielen Suchen möglichst weit oben bei Google vorzukommen, die dann aber alle nicht wirklich sinnvolle Ergebnisse liefern. Also es ist sehr abhängig davon, was man im Internet sucht, aber bei vielen Themen kommt einfach auch bei Google und bei anderen Suchmaschinen keine sinnvolle Ausgabe mehr raus. Und an der Stelle ist ChatGPT halt viel einfacher, weil man da ja die Frage reinschreiben kann und man kriegt halt eine Antworten. Man kann sich eben auch Quellen geben lassen. Die stimmen dann auch nicht immer so hundertprozentig mit dem überein, was man wirklich gesucht hat, weil es manchmal auch einfach keine Webseiten gibt, die exakt das Thema so behandeln, wie man es gesucht hat. Das ist dann auch ein bisschen ärgerlich. Aber wenn man dann schon mal eine Antwort von ChatGPT hat, dann ist es mit dieser Antwort auch ein bisschen leichter, dann wieder das in Suchmaschinen reinzupacken und dann zu überprüfen, ob die Fakten immerhin stimmen. Und was ich jetzt auch öfter gesehen habe, ist, dass bei Suchmaschinen schon ein LLM beziehungsweise so ein Sprachmodell eingebaut ist, dass es mir eben schon passende Suchergebnisse mit Quellen anzeigt, ohne dass ich jetzt ChatGPT benutzen muss. Ja, was ich dann auch, also ich hatte letzte Woche mal wieder angefangen, die Sherlock Holmes Bücher zu lesen und da ist mir aufgefallen, dass Sherlock Holmes und ChatGPT sehr viel gemeinsam haben. Im ersten Buch sagt Sherlock nämlich, dass sein Gehirn sehr effizient deduzieren würde, um dann irgendwelche kriminalistischen Rätsel zu lösen. Aber um anderen verständlich zu machen, wie er darauf gekommen ist, dass das doch sehr kompliziert wäre und er darüber dann nochmal extra nachdenken müsste. Also er kann das dann? Das ist dann der Unterschied zu ChatGPT, was dann manchmal, wenn es um die Herleitung geht, doch sehr fragwürdig ist, um das zu erklären. Aber er braucht dafür mehr gedankliche Leistung, um auf die richtige Lösung zu kommen. Und dazu hattest du ja einen Artikel gefunden, der ChatGPT auf die Probe gestellt hat und dann die These nennt, dass das, was ChatGPT als Ergebnis erzeugt, dem kahnemanschen schnellen Denken entsprechen würde. Also Kahneman war ein, wie heißt diese Wissenschaft, wo es um Geld geht?
Janine: Ökonom?
Helena: Ja, genau. Kahneman war eben ein Ökonom, der sich angeguckt hat, wie Menschen Entscheidungen treffen und hat dann ein sehr berühmtes Buch geschrieben, was heißt "Schnelles Denken, langsames Denken". Und er hat dann eben die These aufgestellt, dass menschliches Denken eben sich in zwei verschiedenen Prozessen gliedert. Das eine ist das schnelle Denken, das ist das, was passiert, wenn ich jetzt einen Satz sage, ohne vorher genau darüber nachzudenken, was ich sage. So, es kommt einfach raus. In einem flüssigen Gespräch spricht man einfach miteinander, ohne dass man irgendwie lange Gesprächspausen hätte. Und wenn man jetzt eben darüber nachdenken würde, warum ich jetzt genau diese Wörter in dieser Form gesagt habe, würde ich das ja auch nicht unbedingt können. Also das ist die Art des Denkens, die so automatisch immer mitläuft. Und hierauf basieren ja auch Fangfragen, das Ausnutzen, dass man, wenn man nicht wirklich über etwas nachdenkt, sondern einfach dieses schnelle Reagieren hat, dann irgendwie zu einem falschen Schluss kommt. Und dann gibt es laut Kahneman noch das langsame Denken, also das Nachdenken, wo man dann vielleicht nicht mehr auf Fangfragen reinfällt, weil man den Fehler nach ein bisschen Nachdenken sieht, den man sonst gemacht hätte. Ja, wo man vielleicht auch Dinge nachrechnen muss oder logische Schlüsse nochmal überprüfen muss oder das, was man sagt, auch schlüssig begründet. Und das ist das, was ChatGPT nicht kann. Und in diesem Artikel wurden eben auch entsprechend solche Szenarien generiert, wo man dann feststellt, ja, ChatGPT ist bei Fangfragen, die man sich jetzt neu ausdenkt, auch nicht so gut. Das hat natürlich einige gelernt. Aber wenn man sich Szenarien ausdenkt, die relativ ähnlich zu bekannten Szenarien sind, kann man es eben damit durcheinander bringen, weil es ja eben nicht nachdenken kann. Aber das schnelle Denken kann es halt schon, diese spontane Dinge auf basierender Erfahrung generieren zu lassen. Gut, ja, wie wird ChatGPT im Alltag sonst noch genutzt? Also was ich jetzt zum Beispiel schon mal gemacht habe, ist, ich hatte vor, ein bestimmtes Gericht zu kochen und wollte dann irgendwie wissen, ja, okay, ich möchte jetzt vielleicht mal andere Gewürze benutzen, welche könnte ich denn da verwenden? Und damit das einem bestimmten Kochstil entspricht, ob man jetzt irgendwie indisch kochen möchte oder ja, chinesisch oder so, das sind dann verschiedene Gewürze, wo ich jetzt auch nicht immer hundertprozentig weiß, was genau wohin gehört, und dann könnte ich das nachfragen und dann gab es leckeres Essen daraus. Was ich jetzt auch gehört hatte von Wissenschaftler*innen, ist, dass sie, weil wissenschaftliche Veröffentlichungen halt auf Englisch sind, gerne auch den Text Korrektur gelesen bekommen von ChatGPT, weil es eben nicht nur Rechtschreibung korrigieren kann, sondern auch Grammatik. Und somit es ermöglicht für nicht-englische Muttersprachler, besser verständliche Texte zu erstellen. Und gerade im Wissenschaftsbereich ist das ja üblich, dass das meist auf Englisch passiert, aber viele ja nicht in englischsprachigen Ländern geboren wurden und das so perfekt können. Und da lässt man halt nicht den Text komplett generieren, sondern nur Korrektur lesen, da guckt dann auch nochmal ein Mensch drauf, ob es auch alles immer noch Sinn macht, was da steht. Aber es ermöglicht eben Dinge, die vorher nicht so möglich waren. Ja, im Bereich vom Programmieren habe ich das durchaus auch schon ganz oft benutzt. Hier ist es natürlich auch beruflich sehr interessant. Das hat allerdings ein paar Einschränkungen, zu denen ich später noch komme. Ein Beispiel, was ich noch habe, ist, ich habe vor ein paar Jahren mal in einem Kundenprojekt ein bestimmtes Problem gehabt, was ich lösen wollte, oder wo ich keine sinnvolle Lösung gefunden habe, in einer proprietären Software, wo ich dann viel im Internet gesucht habe und verschiedene Dokumentationen gelesen habe und es nicht gefunden habe. Und jetzt hatte ich mich daran erinnert und dann habe ich zum Testen mal ChatGPT gefragt und habe sofort die richtige Antwort bekommen. Also, wenn man nach längerem im Internet suchen und Dokumentationen lesen keine Antwort gefunden hat, dann sollte man vielleicht spätestens mal ChatGPT testen. Gerade bei so Softwareproblemen sieht man ja auch sehr schnell, ob es richtig ist, was ChatGPT behauptet, weil man es einfach ausprobieren kann. Und dann habe ich diesen Sommer mal wieder Kurse an der Uni gegeben und dann festgestellt, dass jüngere Teilnehmende selbstverständlich sich von ChatGPT helfen lassen und die älteren Teilnehmenden nicht.
Janine: Okay.
Helena: Also, es ist offenbar, ja, wie bei vielen Computertechnologien, dass was neu ist, wird von jüngeren Leuten eher eingesetzt. Ja, und ich denke, dass ChatGPT durchaus nützlich ist, um so Programmcode besser zu verstehen. Das Risiko, wenn man jetzt noch lernen möchte, ist natürlich, dass man nicht genug lernt, um es selbstständig zu verstehen. Also, man kann dann vielleicht selbstständig bestimmte Programmieraufgaben gar nicht mehr lösen, weil das ChatGPT immer für einen macht. Solange es die richtigen Lösungen generiert, ist das vielleicht auch okay, weil wenn das ChatGPT kann, warum muss der Mensch das dann noch machen? Braucht man ja nicht mehr. Aber sobald es komplizierter wird und spezieller, dann fängt ChatGPT irgendwo an, halt Dinge nicht mehr so richtig gut hinzubekommen. Also, je spezieller die Themen werden, je allgemeiner die sind, desto besser ist halt auch die Antwort. Also, kann ich, wenn man programmiert, durchaus empfehlen, wenn man eine Frage nicht sofort beantwortet bekommt, erst mal ChatGPT zu fragen. Und man kann das ja, wie gesagt, sehr schnell ausprobieren. Ja.
Janine: Ja. Wir hatten ja auf dem Mastodon-Account gestern eine kurze Frage gestellt, wer denn so wofür ChatGPT nutzt. Und da landete auch eine Antwort drunter, wo auch das Python-Coden mit angegeben wurde, dass eine Person das halt benutzt, um Code zu generieren, wo zwar generell bekannt ist, was er tun soll, aber die Syntax jetzt eben nicht auswendig auf dem Schirm ist. Und dann liefert halt ChatGPT sehr schnell benutzbare Dinge, die mit kurzem drüberfliegen auch gut verifiziert werden können, wenn das schon bekannt ist, was es eigentlich leisten soll an der Stelle, der Python-Code.
Helena: Ja.
Janine: Und das ist halt richtige Buzzwords liefert für Dinge, wo man sich vielleicht selber gerade nicht so gut auskennt.
Helena: Und dann kann man damit wieder weiter suchen im Internet.
Janine: Genau.
Helena: Ja, das denke ich auch. Also, ich habe das dann bei den Kursen auch genutzt, weil ich dann live immer Dinge erklärt habe auf dem Beamer und die Teilnehmenden wollten dann eben auch das, was ich gezeigt habe, auch zugeschickt bekommen, aber gerne mit erläuternden Kommentaren. Dafür habe ich dann auch ChatGPT genutzt, um eben Kommentare hinzuzufügen, die erklären, was passiert. An einigen Stellen musste ich dann auch was dazu schreiben, die dann das Warum erklären. Gerade wenn man lernt, ist es auch wichtig, dass man das Was erklärt bekommt, was passiert. Das heißt auch, was ChatGPT gemacht hat, ist, denke ich, hilfreich. Aber das Warum, das weiß ChatGPT dann nicht unbedingt. Deswegen habe ich das dann eben noch ergänzt. Und bei Kommentaren in Programmierungen ist es ja generell so, man will eigentlich in erster Linie das Warum reinschreiben, weil das Was, das sagt ja auch der Code, wenn man den Code verstehen und lesen kann. Aber warum man das tut, das muss man dann eben kommentieren. Und das musste ich in diesem Fall eben auch. Das konnte ChatGPT nicht. Ja, es hilft sehr viel beim Programmieren. Jetzt ist natürlich das Problem, wenn ich das beruflich einsetze, dass man ja die Daten an eine amerikanische Firma schickt. Und ich darf jetzt in vielen Kundenprojekten diesen Code für die Datenanalysen nicht einfach an andere Firmen weitergeben. Also ich habe dann einen Vertrag unterschrieben, in dem drin steht, ich muss diese Firmengeheimnisse natürlich für mich behalten. Also darf ich die mit ChatGPT schon mal nicht teilen.
Janine: Ja.
Wie sieht der Datenschutz bei chatGPT aus? (00:45:58)
Helena: Ja, was uns dann zu dem nächsten Abschnitt bringt. Wie sieht denn eigentlich der Datenschutz bei ChatGPT aus?
Janine: Ja, Datenschutz bei ChatGPT, das Thema hatten wir versprochen. Und es ist ein wahnsinnig großes Thema, weil da sehr viele, viele Dinge dran hängen, was auch gesellschaftliches und so weiter angeht, wie ich finde. Und ja, ich werde sehr an der Oberfläche bleiben. Gucken wir mal, was am Ende bei rauskommt. Also natürlich ist es hier auch wie bei vielen digitalen Anwendungen eben ein Thema, weil letztlich Daten eingegeben werden, die auch personenbezogene Daten sein könnten. Das hatten wir in der letzten Folge bei den Gesundheitsdaten auch schon als Thema. Und bei ChatGPT ist es nochmal besonders spannend, weil diese Technologie im Prinzip von jetzt auf gleich sehr vielen Menschen zur Verfügung stand. Also ChatGPT hat am 30. November 2022 die Öffentlichkeit betreten und war dann eben da mit allen Konsequenzen. Wir haben das ja auch mit der Bildgenerierung durch das Thema. Dort wurde dann auch danach darüber geredet, was hat das eigentlich für rechtliche Konsequenzen, welche Bilder da benutzt wurden. Und so ähnliche Themen gibt es eben bei ChatGPT natürlich auch. Und dieses Thema ist in den letzten zwei Jahren sehr, sehr groß geworden, weswegen sich das auch gar nicht so einfach runterbrechen lässt. Und auch allgemein in dieses Ganze, wie gehen wir als Gesellschaft mit künstlicher Intelligenz um auf verschiedenen Ebenen, in verschiedenen Einsatzgebieten, steckt da auch alles so ein bisschen mit drin. Und ich habe mich dazu entschieden, mal ein Zitat aus dem Tätigkeitsbericht des Datenschutzbeauftragten des Bundes zu zitieren, der dieses Jahr im März erschienen ist. Und dort steht:
"Das Tempo, mit dem innerhalb weniger Monate zahllose KI-basierte Innovationen an den Start gegangen sind, hat große Hoffnungen geweckt, aber auch große Ängste ausgelöst. Dass KI tiefgreifende Auswirkungen auf die Gesellschaft haben kann, steht außer Frage. KI-Systeme können bemerkenswert positive Auswirkungen auf unsere Lebensqualität haben, sie können aber auch Freiheiten und Rechte von Bürgerinnen und Bürgern stark beeinträchtigen, denn die zahlreichen Vorteile basieren in der Regel auf der Auswertung von großen, oft auch personenbezogenen Datenmengen. Je nachdem, wie KI eingesetzt wird, birgt sie damit das Potenzial für Grundrechtseinschränkungen und Diskriminierungen. Ein hohes Maß an Transparenz und Nachvollziehbarkeit der Ergebnisse und der Prozesse maschinengesteuerter Entscheidungen, der Grundsatz der Datenminimierung, die Einhaltung der Zweckbindung, aber auch die Vermeidung von Diskriminierungen und die klare Zurechnung von Verantwortlichkeiten sind daher Grundsätze, die die Technologiegestaltung begleiten müssen."
Janine: Das ist aus dem Tätigkeitsbericht des Jahres 2023, also quasi ein Jahr nach ChatGPT, so ein Zwischenfazit, weil es eben so sehr aus dem Nichts kam und so super anwenderfreundlich war von vornherein, mit einer sehr simplen Eingabemaske und einer Oberfläche, die direkt funktioniert hat, hat es sich auch schon so schnell verbreitet. Und zu dem Zeitpunkt waren aber viele Fragen noch offen, was die rechtlichen Hintergründe und den Datenschutz der eingegebenen Informationen angeht, was zum Beispiel darin gipfelte, dass Italien im März 2023 ChatGPT vorübergehend verboten hat und es im eigenen Land gesperrt hat, wegen unklarer rechtlicher Grundlagen. Das wurde circa einen Monat später wieder aufgehoben, weil OpenAI, der Betreiber von ChatGPT, eben die gestellten Anforderungen nachgeliefert hat. Und seitdem und auch schon vorher, weil ChatGPTs Veröffentlichung ist ja quasi nur so eine Spitze dessen, was da an KI-Entwicklung im Hintergrund schon mehrere Jahre vorher gelaufen ist oder seit sehr, sehr vielen Jahren. Ja, das führte jedenfalls jetzt auch dazu, dass es den Artificial Intelligence Act der Europäischen Union gibt, die KI-Verordnung, wie sie, glaube ich, auf Deutsch übersetzt wunderschön genannt wird, die inzwischen auch unterschrieben ist und verschiedene Dinge regeln soll. Dieser AI-Act ist seit diesem Jahr am 1. August in Kraft getreten, aber die Verpflichtung, ihn auch anzuwenden, tritt erst 2026 teilweise in Kraft und zieht sich dann noch bis zum 2. August 2027. Also bis dahin wird auf die freiwillige Selbstbedingsung, ich kenne das Wort nicht, Selbstverantwortung der Institutionen, Firmen und so weiter gesetzt, die eben künstliche Intelligenz benutzen. Die Frage ist, ob damit denn eigentlich alles gut ist. Sind auch meine eigenen Daten geschützt oder welche Daten können dadurch geschützt werden? Naja, vermutlich ist es nicht ganz so gut, weil zum einen tritt es halt erst viel später in Kraft und das wird bis dahin so der Selbstverwaltung der Firmen überlassen. Aber zum anderen ist es auch so, dass halt bereits jetzt zur Verfügung gestellte Daten sich auch nicht mehr wirklich entfernen lassen. Also was schon drin ist, ist schon drin und kann nicht so einfach gelöscht werden wie ein Foto, das irgendwo auf einem Cloud-Server liegt, weil es halt verarbeitet wurde. Und das steht auch in den Nutzungsbedingungen von ChatGPT mit drin, wo sie beschreiben, wie sie den Inhalt benutzen. Da steht "We can use your content worldwide to provide, maintain, develop and improve our services." Also es wird weltweit angewendet, um diesen Dienst am Laufen zu halten, ihn zu pflegen und weiterzuentwickeln. Es gibt tatsächlich auch eine Opt-out-Klausel, also falls ihr ChatGPT nutzt und einen Account habt, guckt euch die Opt-out-Klausel mal an. Allerdings ist da wiederum die Einschränkung wie bei jedem dieser Services, wir können dann vielleicht leider nicht mehr speziell auf dich zugeschnittene Antworten liefern. Also diese Einschränkung muss man dann wahrscheinlich in Kauf nehmen. Und deswegen gilt eigentlich wie bei den meisten anderen technologischen Anwendungen auch, die man einfach so im Internet benutzen kann, welche Daten wir von uns aus zur Verfügung stellen, sollten wir uns vorher gut überlegen. Also was erzähle ich einem ChatGPT in der Web-Anwendung über mich? Mein Geburtsdatum? Oder suche ich da vielleicht nach irgendwelchen Krankheitssymptomen, wie das ja auf Google oft der Fall ist und so weiter? Das sind halt alles Sachen, die man eingibt und die irgendwann ein Bild von einem Menschen auf der Welt ergeben. Vielleicht weiß niemand, dass man das selber ist, aber es sind am Ende doch die personenbeziehbaren Daten, die da vielleicht drin landen. Was übrigens um den AI-Act, wo der noch kritisiert wird, auch nochmal am Rande mitzunehmen. Nicht alle KI-Systeme werden durch diesen AI-Act gleichermaßen reguliert. Meistens die, die irgendwie in der Wirtschaft eingesetzt werden, aber gerade der Einsatz von militärischen KI-Systemen oder KI-Systemen zur Strafverfolgung, da sind einige Punkte wohl offen geblieben. Das heißt, so was wie jetzt zum Beispiel aus einem Artikel vom Deutschlandfunk oder einem Beitrag "Gesichtserkennung im öffentlichen Raum ist an sich mit künstlicher Intelligenz verboten, kann aber vielleicht dann doch für Strafverfolgung in Sicherheitsbehörden nutzbar gemacht werden." Also, der AI-Act sagt nicht, dass solche Dinge nicht passieren, er sagt nur, wer es machen darf.
Helena: Okay.
Janine: Ja. Und weil wir das Thema in der letzten Folge auch hatten, bei den Gesundheitsdaten, es ist übrigens laut dem AI-Act auch verboten, die Gefühlserkennung mittels KI am Arbeitsplatz einzusetzen. Also, das geht hier schon mal nicht in der EU dann.
Helena: Ja, diese Gefühlszustandserkennung von Menschen war so eines der ersten großen Beispiele vor zehn Jahren oder so, auf Basis von Bilderkennung oder auch von Texten, die man geschrieben hat, dass man dann eben den Gefühls- und Erregungszustand der Person festzustellen, weil man irgendwie, keine Ahnung, spezielle Werbung in Supermärkten an bestimmten automatisierten Bildschirmen zeigen wollte. Also, das war eines der Themen vor zehn Jahren.
Janine: Und eine Randnotiz habe ich noch. Weil ich eben von dem Datenschutzbeauftragten und in der letzten Folge auch gesprochen habe, das waren jeweils Zitate aus der Amtszeit von Professor Ulrich Kelber als Datenschutzbeauftragter des Bundes. Seit dem 3.9. diesen Jahres haben wir eine Datenschutzbeauftragte im Amt, nämlich Professor Dr. Luisa Specht-Riemenschneider. Also, demnächst werde ich dann von die Datenschutzbeauftragte reden, wenn wieder so ein Thema aufkommt. Also, nicht wundern, dass es da einfach mal kurz gesprungen ist.
Welche LLMs lassen sich lokal ausführen? (00:54:26)
Helena: Gut, also wenn wir jetzt wissen, dass Daten weitergeben an Chats GPT je nach Situation nicht so schlau ist, ist ja gleich auch ein Thema, kann man nicht so etwas ähnliches wie ChatGPT auch einfach lokal auf dem eigenen Rechner ausführen? Da kann ich einfach zu sagen, ja, das geht. Und das hat sich so entwickelt, dass, ja, als ChatGPT erst mal veröffentlicht wurde, wurden die anderen großen Firmen im Bereich von IT, sowas wie Facebook und Google und Apple, erst mal sehr überrascht davon, dass es jetzt dieses Produkt gibt, was so stark ja einem Hype unterlegt, dass sie dachten, okay, wir müssen auch alle in diesem Bereich arbeiten. Und Facebook, beziehungsweise die Muttergesellschaft, die sich da mittlerweile gegründet hat, namens Meta, hat dann im März 2023 ein eigenes Modell entwickelt mit dem Namen Llama. Und das wurde für Wissenschaftler*innen zur Verfügung gestellt. Und die Veröffentlichung gab es dann ohne eben diese trainierten Gewichtungen. Die Gewichtsmatrizen waren nicht dabei. Das heißt, man hätte es immer noch selber trainieren müssen. Aber diese Gewichtungen, diese trainierten Daten wurden dann geleakt und über BitTorrent-Netzwerke verteilt, sodass es dann plötzlich frei verfügbar war, weil das Modell selber war ja schon offen. Dann waren jetzt auch noch die Gewichtungen, also die trainierten Daten, standen zur Verfügung, wenn auch nicht unbedingt legal. Aber das hat dann dazu geführt, dass sehr viele Leute eben angefangen haben, sich auf Basis dieses Modells mit diesen Large Language Models zu befassen, also mit den großen Sprachmodellen, das ja oft LLM abgekürzt wird. Deswegen ja auch der Name Llama mit Doppel-L, weil das einfach sehr naheliegend ist. Ja, Meta hat dann festgestellt, ja, das ist ja eigentlich gar nicht so schlecht, wenn so viele Leute auf Basis der eigenen LLMs Dinge lokal laufen lassen. Machen wir das doch weiterhin so und veröffentlichen die Modelle unter einer relativ offenen Lizenz. Und das ist seitdem auch mehrfach passiert. Und was jetzt ist diese Lizenz halt eben ermöglicht, dass man es einfach privat benutzen kann, aber keine kommerzielle Nutzung. Dafür müsste man eben eine kommerzielle Lizenz erwerben. Das werden sicherlich viele Leute auch nicht machen, die das benutzen. Aber gerade für Firmen, die dann eigene LLMs verwenden wollen, ist das natürlich dann interessant. Das heißt, dieses Geschäftsmodell ist für Meta durchaus interessant. Dann gibt es allerdings auch noch andere Firmen, die auf diesen Zug aufgesprungen sind. Unter anderem eine französische Firma namens Mistral AI. Die haben ein Modell veröffentlicht mit dem Namen Mistral. Das ist unter der Apache-Lizenz veröffentlicht. Das heißt, es darf auch kommerziell benutzt werden und einfach weitergegeben werden. Diese Firma hat jetzt wiederum auch dann noch ein Speziell für Programmierer... ein Modell veröffentlicht namens Codestral, das dann wiederum aber keine kommerzielle Nutzung erlaubt, das Lizenzmodell dafür. Gut, ich habe es trotzdem einmal ausprobiert. Ich hatte ja vorhin gesagt, dass ich meinen R-Code aus einem Kurs habe kommentieren lassen von ChatGPT. Ja, das habe ich eben auch mit diesem Codestral ausprobiert. Und dann hatte es sich erstmal beschwert, dass es ja nur Python könne und von R nicht so viel versteht. Und es war auch nicht in der Lage, mir irgendwie Kommentare dazu zu schreiben. Es hat versucht, in einem Fließtext ein bisschen den Code zu erklären. Aber das war überhaupt nicht die Aufgabe, die ich dem gegeben habe. Das war dann ein bisschen enttäuschend. Von daher ist es jetzt auch egal, ob ich das kommerziell nutzen darf oder nicht. Also wenn ich jetzt Dinge in einem Kundenprojekt nutze, dann ist das ja schon automatisch kommerzielle Nutzung, weil ich damit ja Geld verdiene.
Wie verwende ich LLMs lokal? (00:58:23)
Helena: Gut, aber wenn ich das jetzt mache, wie mache ich das dann? Es gibt ein Tool namens "Ollama". Das ist natürlich dann auch so benannt wegen dem Llama-Modell. Und Ollama ist dann wiederum ein Tool, das ist jetzt selber kein Sprachmodell, sondern es ist eine Software, die im Prinzip ermöglicht, verschiedenste Sprachmodelle auszuführen und leicht zugreifbar zu machen. Und damit lassen sich eben diese Sprachmodelle auf dem lokalen Rechner herunterladen und ausführen. Und standardmäßig hat das Ganze ein einfaches Textinterface in einer Kommandozeile. Das heißt, es ist jetzt nicht so ultra benutzerfreundlich. Deswegen habe ich dazu noch ein Tool installiert namens "OpenWebUI", was dann eine Benutzerschnittstelle, die so aussieht wie ChatGPT zur Verfügung stellt. Und das funktioniert eben auch mit verschiedenen Sprachmodellen im Hintergrund. Man könnte sogar ChatGPT da einbinden. Ja, dann lässt sich das Ganze einfach benutzen, quasi. Man kann einfach "Mystril" oder "Llama 3" herunterladen und damit chatten. Dann habe ich noch ein Plugin für den Code-Editor Visual Studio Code oder "VS Code". Das hat den Namen "Continue". Und was dieses Plugin ermöglicht, ist, dass man direkt im Code-Editor eben Vervollständigungsvorschläge hat. Also es gibt ja... gab ja auch vorher schon Autovervollständigungen von bestimmten Befehlen und so weiter in solchen Code-Editoren. Aber das Ganze ist dann eben AI-basiert. Und das Interessante ist jetzt, dass dieser Code-Editor auch in der Lage ist, dann den gesamten Code einzulesen in einem Projekt und dann auch Fragen anhand von dem eigenen Code zu beantworten. Das heißt, man kann dann auch Programmcode generieren lassen, der tatsächlich mit der eigenen Software klarkommt und darauf basiert. Weil wenn das jetzt eine Software ist, die jetzt nicht öffentlich verfügbar ist, dann können die Sprachmodelle ja nicht darauf trainiert worden sein und können einem dazu, wie man das benutzt, keine sinnvollen Antworten geben. Aber dadurch, dass das Ganze eben den Code analysiert und dann eben die richtigen Dateien mit als Kontext liefert, wenn man die Frage dahin schickt, bekommt man durchaus sehr hilfreiche Aussagen zu dem eigenen Code. Oder was man auch machen kann, ist, wenn man jetzt in ein neues Projekt reinkommt, wo man noch nicht eingearbeitet ist, dass man mithilfe von diesen Modellen in der Lage ist, erstmal zu verstehen, was hier eigentlich passiert, ohne dass man den Code selber lesen muss. Ja, was hier noch relevant ist, ist, es gibt, wenn man das selber ausführen will, zwei begrenzende Faktoren. Das eine ist der Arbeitsspeicher und das andere ist die parallele Rechenkapazität. Und da gibt es jetzt zwei verschiedene Systeme, die das jeweils gut können. Also, viele Computer haben ja Grafikkarten, weil sie Dinge anzeigen sollen auf einem Bildschirm. Aber es gibt dann eben spezielle Spiele-Grafikkarten, die besonders schnell sehr viele Dinge parallel rechnen können und das ist etwas, was nötig ist für diese Sprachmodelle. Der Nachteil von diesen Grafikkarten ist allerdings, dass sie relativ wenig Arbeitsspeicher haben, aber diese Sprachmodelle relativ groß sind. Wenn man jetzt zum Beispiel 8 GB Arbeitsspeicher in der Grafikkarte hat, dann kann man aber schon verschiedene Modelle ausführen. Insbesondere Llama 3 hat verschiedene Modelle, die dann ganz einfach laufen. Aber insbesondere die kleineren Llama-Modelle laufen auch mit okayer Geschwindigkeit auf Computern ohne Grafikkarte, wenn diese viele Prozessorkerne haben. Und der Vorteil da wäre theoretisch, dass man in einem normalen Rechner sehr schnell auch sehr viel RAM haben kann, aber die großen Sprachmodelle, die dann auch eigentlich bessere Ergebnisse liefern, also die größeren Sprachmodelle hier, das sind ja alles große Sprachmodelle, die sind dann deutlich langsamer. Die verbrauchen nicht nur mehr RAM, sondern brauchen auch deutlich länger für die Ergebnisse. Da weiß ich jetzt nicht, ob man die überhaupt auf normalen Computern laufen lassen will, außer man möchte es einmal kurz ausprobieren. Ja, ich meinte ja gerade so, die Sprachmodelle sind ja dann in der Regel nicht auf eigener interner Software trainiert worden. Das lässt sich jetzt allerdings natürlich nachholen, weil wenn man eben diese Gewichtungsmatrizen hat, dann ist das ja ein Startpunkt, um dann weiterzulernen. Und eine wichtige Sache, die man mit all diesen Sprachmodellen, insbesondere die, die man halt lokal benutzen kann, machen kann, ist, ja, sie weitertrainieren und spezialisieren. Das hat zum Beispiel den Vorteil, dann kann man es halt auf einem kompletten, großen Softwareprojekt trainieren, statt immer nur einzelne Dateien, die noch in diese Kontextlänge passen, die man mitgeben kann, mitzugeben. Und dieses Weitertrainieren von Sprachmodellen auf bestimmte Anwendungen nennt sich dann "Finetuning". Und damit lassen sich eben für bestimmte Anwendungen Sprachmodelle optimieren. Und außerhalb der Programmierung wäre zum Beispiel ein sehr gutes Beispiel für dieses Finetuning, dass man spezialisierte Anwendungen machen kann, wie zum Beispiel, wenn eine Firma ein Chatbot im Kundensupport einsetzen will, dann kann man ja auf Basis der Antworten, die bisher die menschlichen Personen auf bestimmte Kundenanfragen gegeben haben, eben trainieren, weiter trainieren und dann generiert man sich dann eben einen Chatbot, der hilfreichere Antworten gibt als die Systeme, die vorher schon computergenerierte Textblöcke haben, die oft fertiggeschrieben waren und gar nicht auf die Probleme, die man hatte, wirklich geantwortet haben. Ein Risiko natürlich, wenn man auf Vergangenheitsdaten irgendwie sowas trainiert, ist, wenn jetzt ein Produkt neu auf den Markt kommt, was eine Frage, die häufiger kam, abdeckt und man hatte vorher viele Supportanfragen, die dieses Produkt oder dieses Feature haben wollten und dann war immer die Antwort "Nein", dass natürlich dann auch das Sprachmodell erstmal lernt. Die Antwort ist wahrscheinlich "Nein", aber es gibt jetzt dieses Produkt. Da muss man dann eben aufpassen, wenn man solche Spezialisierungen macht, dass das Ding auch tatsächlich faktenmäßig mit dem aktuellen Zustand übereinstimmt. Aber das lässt sich ja durchaus machen.
Janine: Ich stelle mir das mit der Spezialisierung ein bisschen so vor, du lässt die unnützen Sachen mit der Zeit weg und trainierst nur noch auf das, was du wirklich brauchst und haben willst und am Ende hast du einen wunderbaren Fachidioten.
Helena: Ja, aber ich glaube, das ist auch vernünftig. Also im Moment läuft ChatGPT ja auf dem Level, ja, man hat ein ChatGPT und das kann irgendwie alles so ein bisschen. Aber wenn man eben spezialisierte Netze, also Sprachmodelle hat, dann brauchen die auch weniger Ressourcen, wenn sie laufen und können trotzdem gute Ergebnisse liefern.
Janine: Ja.
Helena: Und eine Frage, die ich mich auch stelle, weil das auch immer wieder ein Thema ist, den man im Bereich KI so bei Bildgenerierung oder Textgenerierung hört, ist, ja, jetzt werden so viele Texte von diesen Sprachmodellen erzeugt. Kommt man irgendwann an den Punkt, wo die wieder dümmer werden, weil sie mit ihren eigenen Texten gefüttert werden? Und da frage ich mich dann, hat man nicht schon fast den Punkt erreicht, wo die gut genug sind, dass man eigentlich nur noch neue Fakten reinbekommen muss, weil sich, keine Ahnung, die Welt halt verändert. Aber braucht man wirklich die Menge an neuen Daten jetzt auch noch für das Training? Also ich bin mir da nicht so sicher.
Janine: Ja, also ich kann mir vorstellen, dass es irgendwann vielleicht jetzt nicht unbedingt dümmer werden, aber ein Bias erhalten bleibt, der weiterhin angewendet wird, weil er in den Trainingsdaten eben vorhanden war, aber die Gesellschaft eigentlich gar nicht mehr betrifft. Also ich denke da an so was wie neuronale Netze, die die Kreditwürdigkeit von Menschen beurteilen, wobei Frauen meistens schlechter abschneiden, weil sie früher schlicht und ergreifend keine Bankkonten hatten und deswegen ihre Kreditwürdigkeit nicht nachgewiesen werden konnte. Und dass es auch in den letzten Jahren noch Fälle gab, wo Frauen, die auch gut verdienen, über einen langen Zeitraum hinweg keine Kredite bekommen, weil der Algorithmus sagt, nee, also die Vergangenheit hat gezeigt, dass Frauen nicht so gut mit Geld sind. Also ich glaube, das ist eher vielleicht so ein Problem, dass ja dadurch, dass auch die OpenAI Menschen selber sagen, wir wissen nicht final, wie Entscheidungen getroffen werden und wie das alles sich gegenseitig beeinflusst. Das ist eine Blackbox in die wir nicht richtig reingucken können. Dass ich mir halt vorstellen kann, dass solche Biases auf verschiedenen Ebenen erhalten bleiben können über eine gewisse Zeit.
Helena: Ja, die sind natürlich in den ganzen Sprachmodellen auch noch drin vorhanden. Wenn man jetzt einfach nur, keine Ahnung, über Programmierung oder sowas nachdenkt, dann spielt das vielleicht nicht so eine große Rolle. Aber je nach Thema, mit dem man sich befasst, ist dann der Bias oder die Vorurteile, die da eintrainiert sind, spielen dann eine größere Rolle. Und muss man dann schon berücksichtigen, dass man die reproduziert.
Janine: Ja.
Helena: Ja, und man kann auch immer nur sagen, alles was irgendwie ChatGPT oder ein anderes Sprachmodell ausgibt, muss man entweder mit eigenem Fachwissen nochmal überprüfen oder irgendwie eine Plausibilitätsprüfung machen, dass das auch stimmt. Dem einfach so zu vertrauen, ist unangemessen. Auch wenn die aktuellen Versionen von ChatGPT schon deutlich besser sind als die erste, die es gab, ist trotzdem immer, ja, eine gesunde Menge Misstrauen anzuwenden. Das ist ein sehr nützliches Tool, aber man sollte sich über die Grenzen im Klaren sein.
Janine: Das klingt schon fast wie ein Fazit.
Fazit (01:08:18)
Helena: Ja, Fazit. Also mein Fazit ist, ChatGPT bzw. andere Sprachmodelle sind aus meinem Alltag jetzt nicht mehr wegzudenken. Dafür benutze ich es inzwischen doch zu oft. Und ja, zusammenfassend kann man auch sagen, ChatGPT generiert immer nur ein Wort bzw. ein Token auf einmal, nimmt dann den gesamten Satz, der da jetzt steht, mit dem neuen Wort als Input. Das Ganze wird dann eben durch diesen Attention-Mechanismus durchgeschleift und über diesen Mechanismus und den neuronalen Netzen, die danach noch kommen, werden eben Fakten und Beziehungen zwischen Wörtern angewendet. Und dann ist es auch in der Lage, eben Beziehungen festzustellen zwischen Begriffen, die nicht in den Eingangsdaten beim Training drin gewesen sein müssen.
Janine: Also mein Fazit ist auf jeden Fall, ich fand das mit dem schnellen Denken und langsamem Denken sehr interessant, diesen Vergleich, dass halt ja ChatGPT im Prinzip relativ in Anführungszeichen intuitiv, also große Anführungszeichen, etwas ausgibt. Also wie, als würden wir als Menschen einfach dahinreden und vorher nicht genau überlegen, wie der Satz endet. Und dass zwar die Kontexte, um diesen Satz zu erzeugen, eine Rolle spielen, aber eben ChatGPT nicht in der Lage ist, tiefer darüber nachzudenken oder im Rückblick nochmal zu verifizieren, was habe ich da eigentlich gesagt. Im Vergleich zu Sherlock Holmes, der nur meistens keinen Bock hat...
Helena: Ja, genau.
Janine: genau das zu tun. Ja, ich finde auch immer noch das mit der spezialisierten Anwendung sehr interessant. Also ich glaube, eine der Antworten, die wir auch auf Mastodon bekommen hatten, hat auf Goblin Tools verwiesen. Goblin Tools ist für mindestens neurodivergente Menschen eine sehr freundliche Seite, wo man zum Beispiel einen Text eingeben kann, auch auf Basis von OpenAI Modellen, die einem das, was einem so durch den Kopf spukt und man gerne sagen würde, zum Beispiel auf eine schöne formale Art und Weise ausdrücken kann. Also du gibst den Eingangstext ein, das sind meine Gedanken, ich muss das aber jemandem schicken, mit dem ich irgendwie höflich reden muss. Also mach das mal eine Spur formeller, so in die Richtung. Oder halt ein Professor hat mir etwas erklärt, das ich nicht verstehe, übersetzt das mal für mich und brich das mal runter ...
Helena: Ja.
Janine: ... so in die Richtung. Das funktioniert wohl auch über OpenAI und fand ich auch einen ganz netten Hinweis.
Helena: Ja.
Janine: Wie sowas auch im Alltag noch anders eingesetzt werden kann, wo es vielleicht auch wirklich eine Verkürzung ist oder Blockaden lösen kann, um irgendwie von A nach B zu kommen, gedanklich oder in Handlung.
Helena: Ja, gerade wenn man irgendwie Texte schreibt in einem Bereich, wo wirklich auch die formalen Kriterien eine Rolle spielen, die halt nicht nur im freundschaftlichen Bereich sind, sondern eben vielleicht ja Bekannte, wo man sich an bestimmte Regeln halten muss.
Janine: Ja.
Helena: Wo man dann auch immer nicht, wenn man es dann doch zu selten macht, immer nicht hundertprozentig weiß, ja, wie mache ich das jetzt?
Janine: Ja, diese fünf Zeilen E-Mail kosten fünf Minuten Lebenszeit. Nein, 15.
Helena: Ja, wenn man vorher schon mit Google nach irgendwelchen Geburtstagssprüchen für Geburtstagskarte gesucht hat, kann man jetzt halt mit ChatGPT erstellen.
Janine: Genau, worüber wir nicht geredet haben, auch sehr bewusst nicht, weil ihr seht, das Thema ist schon jetzt sehr lang und umfangreich, sind natürlich andere Sachen. Also wir haben es ganz kurz in Nebensätzen gehabt. Es ist unglaublich energieaufwendig. Es hat ein paar gesellschaftliche Schwierigkeiten und der Umgang mit der Technologie von künstlicher Intelligenz bringt auch immer so Sachen mit sich. Darüber haben wir jetzt nicht geredet. Wir haben uns konkret auf, wie funktioniert es und wie wird es angewendet und was kann es da leisten?, konzentriert mit Absicht. Aber wir sind uns der anderen Themen im Hintergrund durchaus bewusst.
Nächste Folge: im Dezember (01:12:11)
Helena: Gut, das war das Thema Chats GPT und die nächste Folge kommt nicht im November, denn da werden wir einmal eine Folge aussetzen, sondern sie kommt im Dezember und aktuell wissen wir noch nicht, welches Thema uns wir da vornehmen. Möglicherweise wird es eine Jahresrückblicksfolge, wie wir sie oft hatten, aber vielleicht kommt die auch erst im Januar und uns fällt noch ein anderes gutes Thema vorher ein.
Call to Action (01:12:39)
Janine: Genau, und wenn ihr nicht verpassen wollt, wie es weitergeht oder die vorherigen Folgen nachhören möchtet, dann folgt uns doch gerne unter @datenleben@podcasts.social auf Mastodon oder guckt auf unserer Webseite vorbei www.datenleben.de. Dort könnt ihr uns natürlich auch gerne Feedback hinterlassen oder per E-Mail, falls ihr lieber E-Mails schreibt. Wir freuen uns über beides und natürlich auch über Themenvorschläge. Und falls euch unsere Arbeits- und Denkweise gefällt, könnt ihr uns natürlich auch als Data Scientists für Analysen oder Projekte buchen. Das war's für dieses Mal.
Helena: Ja, dann bleibt mir nur noch für eure Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao!
Janine: Tschüss!