{"id":803,"date":"2023-07-22T12:00:10","date_gmt":"2023-07-22T10:00:10","guid":{"rendered":"podlove-2023-07-21t08:39:04+00:00-40cbe0f23ba2c1d"},"modified":"2023-07-21T21:10:45","modified_gmt":"2023-07-21T19:10:45","slug":"dl040-whisper","status":"publish","type":"podcast","link":"https:\/\/www.datenleben.de\/index.php\/2023\/07\/22\/dl040-whisper\/","title":{"rendered":"dl040: wie nutzen wir whisper f\u00fcr transkripte?"},"content":{"rendered":"\n\t\t\n            <div class=\"podlove-web-player intrinsic-ignore podlove-web-player-loading\" id=\"player-6a36f7690cdc6\"><root data-test=\"player--xl\" style=\"max-width:950px;min-width:260px;\">\n  <div class=\"tablet:px-6 tablet:pt-6 mobile:px-4 mobile:pt-4 flex flex-col\">\n    <div class=\"flex-col items-center mobile:flex tablet:hidden\">\n      <show-title class=\"text-sm\"><\/show-title>\n      <episode-title class=\"text-base mb-2\"><\/episode-title>\n      <subscribe-button class=\"mb-4 mobile:flex tablet:hidden\"><\/subscribe-button>\n      <poster class=\"rounded-sm w-48 shadow overflow-hidden\"><\/poster>\n      <divider class=\"w-full my-6\"><\/divider>\n    <\/div>\n\n    <div class=\"tablet:flex flex-grow\">\n      <div class=\"w-64 mobile:hidden tablet:block tablet:mr-6\">\n        <poster class=\"rounded-sm shadow overflow-hidden\"><\/poster>\n      <\/div>\n      <div class=\"w-full\">\n        <div class=\"hidden tablet:block\">\n          <show-title class=\"text-base\"><\/show-title>\n          <episode-title class=\"text-xl desktop:text-2xl\"><\/episode-title>\n          <divider class=\"w-full my-4\"><\/divider>\n        <\/div>\n        <div class=\"flex items-center justify-between\">\n          <div class=\"block\">\n            <play-state on=\"active\">\n              <speed-control class=\"flex items-center\"><\/speed-control>\n            <\/play-state>\n          <\/div>\n\n          <div class=\"flex\">\n            <play-state on=\"active\">\n              <chapter-previous class=\"mx-2 block\"><\/chapter-previous>\n            <\/play-state>\n            <play-state on=\"active\">\n              <step-backward class=\"mx-2 block\"><\/step-backward>\n            <\/play-state>\n\n            <play-button class=\"mx-2 block\" :label=\"$t('PLAYER.PLAY_EPISODE')\"><\/play-button>\n\n            <play-state on=\"active\">\n              <step-forward class=\"mx-2 block\"><\/step-forward>\n            <\/play-state>\n            <play-state on=\"active\">\n              <chapter-next class=\"mx-2 block\"><\/chapter-next>\n            <\/play-state>\n          <\/div>\n\n          <div class=\"block\">\n            <play-state on=\"active\">\n              <volume-control class=\"flex items-center\"><\/volume-control>\n            <\/play-state>\n          <\/div>\n        <\/div>\n        <div class=\"flex w-full\">\n          <progress-bar><\/progress-bar>\n        <\/div>\n        <div class=\"flex w-full -mt-2\">\n          <div class=\"w-3\/12 text-left\">\n            <timer-current class=\"text-sm\"><\/timer-current>\n          <\/div>\n          <div class=\"w-6\/12 text-center truncate\">\n            <play-state on=\"active\">\n              <current-chapter class=\"text-sm\"><\/current-chapter>\n            <\/play-state>\n          <\/div>\n          <div class=\"w-3\/12 text-right\">\n            <timer-duration class=\"text-sm\"><\/timer-duration>\n          <\/div>\n        <\/div>\n      <\/div>\n    <\/div>\n    <divider class=\"w-full mt-6 mb-3\"><\/divider>\n    <div class=\"flex justify-between\">\n      <div class=\"flex mobile:w-full tablet:w-3\/12 desktop:w-3\/12 justify-between\">\n        <tab-trigger tab=\"chapters\">\n          <icon type=\"chapter\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"transcripts\">\n          <icon type=\"transcripts\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"files\">\n          <icon type=\"download\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"playlist\">\n          <icon type=\"playlist\"><\/icon>\n        <\/tab-trigger>\n        <tab-trigger tab=\"share\">\n          <icon type=\"share\"><\/icon>\n        <\/tab-trigger>\n      <\/div>\n      <subscribe-button class=\"mt-1 mobile:hidden tablet:flex\"><\/subscribe-button>\n    <\/div>\n  <\/div>\n  <div class=\"w-full relative overflow-hidden\">\n    <tab name=\"chapters\">\n      <tab-chapters><\/tab-chapters>\n    <\/tab>\n    <tab name=\"transcripts\">\n      <tab-transcripts><\/tab-transcripts>\n    <\/tab>\n    <tab name=\"files\">\n      <tab-files><\/tab-files>\n    <\/tab>\n    <tab name=\"playlist\">\n      <tab-playlist><\/tab-playlist>\n    <\/tab>\n    <tab name=\"share\">\n      <tab-share><\/tab-share>\n    <\/tab>\n    <tab-overflow><\/tab-overflow>\n  <\/div>\n  <error><\/error>\n<\/root>\n<\/div>\n            <script>\n              document.addEventListener(\"DOMContentLoaded\", function() {\n                var player = document.getElementById(\"player-6a36f7690cdc6\");\n                podlovePlayerCache.add([{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/wp-json\\\/podlove-web-player\\\/shortcode\\\/publisher\\\/803\",\"data\":{\"version\":5,\"show\":{\"title\":\"datenleben\",\"subtitle\":\"der podcast \\u00fcber data science\",\"summary\":\"Was ist Data Science? Was bedeuten die Daten f\\u00fcr unser Leben? Woher kommen sie und wozu werden sie benutzt?\\r\\nDas sind alles Fragen, mit denen wir uns auseinander setzen werden.\\r\\nWer schon immer mehr \\u00fcber Daten und deren Effekt auf unser Leben wissen wollte, ist hier genau richtig.\",\"poster\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/image\\\/687474703a2f2f7777772e646174656e6c6562656e2e64652f77702d636f6e74656e742f75706c6f6164732f323032302f30362f636f7665722e706e67\\\/500\\\/0\\\/0\\\/datenleben\",\"link\":\"https:\\\/\\\/www.datenleben.de\"},\"title\":\"dl040: wie nutzen wir whisper f\\u00fcr transkripte?\",\"subtitle\":\"Einblicke in unsere Erfahrungen mit Whisper\",\"summary\":\"Machine Learning und Neuronale Netze sind mittel, um uns potentiell Arbeit abzunehmen. Whisper ist zum Beispiel ein Machine Learning Modell, das Sprache in Audiodateien erkennen und in Text verarbeiten kann. Damit die Inhalte unserer Folgen f\\u00fcr viele Menschen gut zug\\u00e4nglich sind, haben wir seit Anfang 2023 komplette Transkripte in unseren Shownotes, die wir mit Hilfe von Whisper erstellen. Zeit mal dar\\u00fcber zu reden, wie wir das finden, was f\\u00fcr Erfahrungen wir gemacht haben und -- besonders spannend -- ob Whisper halten kann, was wir uns davon versprochen haben.\",\"publicationDate\":\"2023-07-22T12:00:10+02:00\",\"duration\":\"01:05:16.669\",\"poster\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/image\\\/68747470733a2f2f7777772e646174656e6c6562656e2e64652f77702d636f6e74656e742f75706c6f6164732f323032332f30372f444c3034305f776869737065722e706e67\\\/500\\\/0\\\/0\\\/dl040-wie-nutzen-wir-whisper-fuer-transkripte\",\"link\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/2023\\\/07\\\/22\\\/dl040-whisper\\\/\",\"chapters\":[{\"start\":\"00:00:00.000\",\"title\":\"Intro\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:00:18.315\",\"title\":\"Thema des Podcasts\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:00:36.845\",\"title\":\"Thema der Folge\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:02:10.553\",\"title\":\"Warum ist das Thema interessant?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:03:06.282\",\"title\":\"Einspieler: \\u00dcberall K\\u00fcnstliche Intelligenz \\u2013 Was machen wir daraus?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:07:22.676\",\"title\":\"Wie funktioniert Whisper?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:14:43.961\",\"title\":\"Wie funktioniert das Training f\\u00fcr Whisper?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:22:08.383\",\"title\":\"Wie sieht die Arbeit mit dem fertigen Transkript aus?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:41:00.224\",\"title\":\"Wie sieht der direkte Mensch vs. Maschine Vergleich aus?\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:42:01.447\",\"title\":\"Beispiel 1 - Gendergap\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:44:42.377\",\"title\":\"Beispiel 2 - \\u00dcbereinander reden\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:48:02.679\",\"title\":\"Beispiel 3 - Auslassungspunkte\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:49:57.157\",\"title\":\"Beispiel 4 - Satzzeichen und -l\\u00e4nge\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:52:49.193\",\"title\":\"Beispiel 5 - Daran vs. Darin\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:54:37.472\",\"title\":\"Beispiel 6 - irgendwie ... irgendwie\",\"href\":\"\",\"image\":\"\"},{\"start\":\"00:58:19.996\",\"title\":\"Fazit\",\"href\":\"\",\"image\":\"\"},{\"start\":\"01:03:49.384\",\"title\":\"N\\u00e4chste Folge:  erscheint bestimmt\",\"href\":\"\",\"image\":\"\"},{\"start\":\"01:04:19.835\",\"title\":\"Call to Action\",\"href\":\"\",\"image\":\"\"},{\"start\":\"01:05:04.632\",\"title\":\"Outro\",\"href\":\"\",\"image\":\"\"}],\"audio\":[{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/file\\\/164\\\/s\\\/webplayer\\\/c\\\/website\\\/DL040-whisper.mp3\",\"size\":\"63729433\",\"title\":\"MP3 Audio (mp3)\",\"mimeType\":\"audio\\\/mpeg\"}],\"files\":[{\"url\":\"https:\\\/\\\/www.datenleben.de\\\/podlove\\\/file\\\/164\\\/s\\\/webplayer\\\/DL040-whisper.mp3\",\"size\":\"63729433\",\"title\":\"MP3 Audio\",\"mimeType\":\"audio\\\/mpeg\"}]}}, {\"url\":\"https:\\\/\\\/www.datenleben.de\\\/index.php\\\/wp-json\\\/podlove-web-player\\\/shortcode\\\/config\\\/default\\\/theme\\\/datenleben\",\"data\":{\"activeTab\":\"chapters\",\"subscribe-button\":null,\"share\":{\"channels\":[\"link\",\"facebook\",\"twitter\",\"whats-app\",\"linkedin\",\"pinterest\",\"xing\",\"mail\"],\"outlet\":\"https:\\\/\\\/www.datenleben.de\\\/wp-content\\\/plugins\\\/podlove-web-player\\\/web-player\\\/share.html\",\"sharePlaytime\":true},\"related-episodes\":{\"source\":\"disabled\",\"value\":null},\"version\":5,\"theme\":{\"tokens\":{\"brand\":\"#fff\",\"brandDark\":\"#fff\",\"brandDarkest\":\"#000\",\"brandLightest\":\"#8cc240\",\"shadeDark\":\"#807E7C\",\"shadeBase\":\"#807E7C\",\"contrast\":\"#000\",\"alt\":\"#8cc240\"},\"fonts\":{\"ci\":{\"name\":\"ci\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":800},\"regular\":{\"name\":\"regular\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":300},\"bold\":{\"name\":\"bold\",\"family\":[\"-apple-system\",\"BlinkMacSystemFont\",\"Segoe UI\",\"Roboto\",\"Helvetica\",\"Arial\",\"sans-serif\",\"Apple Color Emoji\",\"Segoe UI Emoji\\\", \\\"Segoe UI Symbol\"],\"src\":[],\"weight\":700}}},\"base\":\"https:\\\/\\\/www.datenleben.de\\\/wp-content\\\/plugins\\\/podlove-web-player\\\/web-player\\\/\"}}]);\n                podlovePlayer(player, \"https:\/\/www.datenleben.de\/index.php\/wp-json\/podlove-web-player\/shortcode\/publisher\/803\", \"https:\/\/www.datenleben.de\/index.php\/wp-json\/podlove-web-player\/shortcode\/config\/default\/theme\/datenleben\").then(function() {\n                  player && player.classList.remove(\"podlove-web-player-loading\");\n                });\n              });\n            <\/script>\n            <style>\n              .podlove-web-player.podlove-web-player-loading {\n                opacity: 0;\n              }\n            <\/style>\n        \n\t\n\t\t\n<p>Machine Learning und Neuronale Netze sind mittel, um uns potentiell Arbeit abzunehmen. Whisper ist zum Beispiel ein Machine Learning Modell, das Sprache in Audiodateien erkennen und in Text verarbeiten kann. Damit die Inhalte unserer Folgen f\u00fcr viele Menschen gut zug\u00e4nglich sind, haben wir seit Anfang 2023 komplette Transkripte in unseren Shownotes, die wir mit Hilfe von Whisper erstellen. Zeit mal dar\u00fcber zu reden, wie wir das finden, was f\u00fcr Erfahrungen wir gemacht haben und -- besonders spannend -- ob Whisper halten kann, was wir uns davon versprochen haben.<\/p>\n<h3>Links und Quellen<\/h3>\n<ul>\n<li>datenleben\n<ul>\n<li><a href=\"https:\/\/www.datenleben.de\/\">www.datenleben.de<\/a><\/li>\n<li>Social Media: Mastodon <a href=\"https:\/\/podcasts.social\/@datenleben\">@datenleben@podcasts.social<\/a> und Twitter <a href=\"https:\/\/twitter.com\/datenleben\">@datenleben<\/a><\/li>\n<li>YouTube: <a href=\"https:\/\/www.youtube.com\/@datenleben\">@datenleben<\/a><\/li>\n<\/ul>\n<\/li>\n<li>Erw\u00e4hnte Folgen\n<ul>\n<li><a href=\"https:\/\/www.datenleben.de\/index.php\/2022\/10\/29\/dl031-koennen-computer-malen\/\">dl031: k\u00f6nnen computer malen?<\/a><\/li>\n<li><a href=\"https:\/\/www.datenleben.de\/index.php\/2021\/12\/04\/dl021-python-lernen\/\">dl021: python lernen!<\/a><\/li>\n<\/ul>\n<\/li>\n<li>Quellen und weiterf\u00fchrende Links:\n<ul>\n<li><a href=\"https:\/\/openai.com\/research\/whisper\">https:\/\/openai.com\/research\/whisper<\/a><\/li>\n<li><a href=\"https:\/\/github.com\/openai\/whisper\">https:\/\/github.com\/openai\/whisper<\/a><\/li>\n<li><a href=\"https:\/\/cdn.openai.com\/papers\/whisper.pdf\">https:\/\/cdn.openai.com\/papers\/whisper.pdf<\/a><\/li>\n<\/ul>\n<\/li>\n<li>Sounds:\n<ul>\n<li><a href=\"https:\/\/freesound.org\/people\/ZyryTSounds\/sounds\/219244\/\">https:\/\/freesound.org\/people\/ZyryTSounds\/sounds\/219244\/<\/a><\/li>\n<li><a href=\"https:\/\/freesound.org\/people\/Bigvegie\/sounds\/580709\/\">https:\/\/freesound.org\/people\/Bigvegie\/sounds\/580709\/<\/a> <\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<h3>Schlagworte zur Folge<\/h3>\n<p>Machine Learning, Neuronale Netze, K\u00fcnstliche Intelligenz, Whisper, Transkript, Erfahrungsbericht<\/p>\n<h3>Intro (00:00:00)<\/h3>\n<h3>Thema des Podcasts (00:00:18)<\/h3>\n<p>Helena: Willkommen zur vierzigsten Folge beim datenleben-Podcast, dem Podcast \u00fcber Data Science. Wir sind Helena ...<\/p>\n<p>Janine: ... und Janine ...<\/p>\n<p>Helena: ... und m\u00f6chten euch die Welt der Daten n\u00e4her bringen. Was f\u00fcr Daten umgeben uns? Was k\u00f6nnen wir mit ihnen machen und was aus ihnen lernen? Wer schon immer mehr dar\u00fcber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.<\/p>\n<h3>Thema der Folge (00:00:37)<\/h3>\n<p>Janine: Und dieses Mal reden wir mal wieder nicht \u00fcber k\u00fcnstliche Intelligenz, sondern nur \u00fcber Machine Learning und neuronale Netze. Allerdings \u00fcber eine ganz bestimmte Anwendung. Es geht n\u00e4mlich um Whisper. Das ist eine Anwendung von OpenAI, die mit einem Machine Learning Modell Sprache in Text umwandelt und dann eben als Text auch ausgibt. Diese Anwendung nutzen wir inzwischen selbst und zwar seit unserer ersten Folge in diesem Jahr, um unsere Folgen komplett zu transkribieren und dieses Transkript dann auch in den Shownotes stehen zu haben und es da anbieten zu k\u00f6nnen, sodass alles, was wir sagen, wirklich auch niedergeschrieben ist. Und wir wollen in dieser Folge mal unsere Erfahrungen mit Whisper angucken, die wir bisher so gesammelt haben, dabei ein paar Vergleiche anstellen vielleicht und ein kleines erstes Fazit ziehen f\u00fcr uns. Dabei gucken wir nach folgenden Fragen: Wie gut funktioniert das f\u00fcr uns wirklich? Wie viel Zeit kostet das im Vergleich zum vorherigen Vorgehen? Also zu relativ ausf\u00fchrlichen Shownotes mit Stichpunkten, aber nicht im kompletten Text. Und wie sieht der Vergleich zwischen Mensch und Maschine hier aus? Daf\u00fcr haben wir ein kleines Experiment gemacht, wo Menschen sich beteiligt haben. Ja, und was gibt es so im Umgang mit Whisper zu beachten, ist dann hoffentlich das, was rechts und links dabei rausf\u00e4llt als mehr oder weniger sinnvolle Info.<\/p>\n<h3>Warum finden wir das Thema interessant? (00:02:11)<\/h3>\n<p>Helena: Warum finden wir das Thema interessant? Also uns geht es auch um den Abbau von Barrieren, also dass unser Text nicht nur als Podcast vorliegt, sondern wenn es m\u00f6glich ist eben, dass es auch den Text zum Nachlesen gibt. Da hatten wir schon l\u00e4nger \u00fcberlegt, wie man das umsetzen k\u00f6nnte und ja, Ende letzten Jahres dann festgestellt, dass sich Whisper daf\u00fcr eignet, dass auch die deutsche Sprache gut kann und recht zuverl\u00e4ssig ist. Wie zuverl\u00e4ssig, darum geht es heute. Und dass es eben nicht darauf basiert, dass man die Daten die ganze Zeit zum Beispiel an Google schickt, und die das f\u00fcr einen machen, sondern man das selber machen kann. Au\u00dferdem ist Whisper auch f\u00fcr uns ganz konkret als Data Science Thema interessant, weil es im Gegensatz zur Bildgenerierung, zu der wir auch eine Folge gemacht haben, jetzt schon unser Tagesgesch\u00e4ft geworden ist, aber eben auch auf neuronalen Netzen basiert.<\/p>\n<h3>Einspieler: \u00dcberall K\u00fcnstliche Intelligenz \u2013 Was machen wir daraus? (00:03:06)<\/h3>\n<p>Janine: Ich komme nach Hause, scrolle durch das Internet. Alle reden schon wieder \u00fcber k\u00fcnstliche Intelligenz. Schlagzeilen auf allen m\u00f6glichen Nachrichten oder Newsseiten. K\u00fcnstliche Intelligenz. Chance oder Jobkiller. Eine neue KI-Ampel regelt den Verkehr an Kreuzung in Hamm. W\u00fcrde k\u00fcnstliche Intelligenz die Welt besser regieren? Das sagt die KI dazu. Stability-AI-Gr\u00fcnder: In f\u00fcnf Jahren gibt es keine Programmierer mehr. Mordversuche in der Queen: KI-Chatbot soll Attentatspl\u00e4ne abgesegnet haben. Meine Gedanken schweifen ab, w\u00e4hrend ich durch diesen Newsfeeds scrolle. Wir reden bereits v\u00f6llig selbstverst\u00e4ndlich von KI. Dabei sind es bisher nur gut trainierte Modelle. Intelligenz impliziert Bewusstsein. Ein Bewusstsein, das mehr ist als ein Modell, das aufgrund zahlreicher, zur Verf\u00fcgung stehender Daten so tun kann, als ob es ein Bewusstsein h\u00e4tte. Aber mehr ist es doch noch nicht. Ein Teil des Problems ist vermutlich, dass wir nicht erkennen werden als Menschen, wann es nicht mehr nur ein gut simuliertes Bewusstsein ist, wenn es zum vermeintlich echten Bewusstsein wird. Vermutlich werden wir keinen wirklichen funktionierenden Turing-Test haben, keine Blade Runner, die den Leuten anhand ihrer Emotionen ablesen k\u00f6nnen, wer oder was sie sind. Wir wollen digital das menschliche Gehirn nachbauen und nennen es k\u00fcnstliche Intelligenz, weil wir an eine Utopie glauben, weil Dinge dadurch vielleicht wirklich besser werden k\u00f6nnen. Und daneben gibt es diese anderen Menschen, die die Umrisse einer Dystopie, einer Katastrophe zeichnen. Wer hat heutzutage nicht den Terminator gesehen? Skynet? Die Menschen entwickeln Technologien f\u00fcr ein Morgen, als ob es selbiges nicht g\u00e4be. Sie machen sich wenig Gedanken, sie sind wie Kinder, die im Sand spielen und Burgen bauen und Welten erschaffen, und sie genie\u00dfen diesen kreativen Moment. Und im Hintergrund r\u00fcckt schon die Flut an, die f\u00fcr all das steht, was sie vorher nicht bedacht haben. Die Flut wird kommen, aber keiner wei\u00df, wie hoch. Ich fange an, mich zu fragen, wie klug wir Menschen wohl sein werden. Fast alle Technologien, die wir im Laufe der Jahrtausende entwickelt haben, haben immer zwei Seiten. Sie k\u00f6nnen konstruktiv sein, sie k\u00f6nnen destruktiv sein. Es liegt an uns, sie richtig einzusetzen, die richtigen Schl\u00fcsse auf den aktuellen Stand des Wissens zu ziehen. Aber wie kann das beim Thema K\u00fcnstliche Intelligenz wirklich funktionieren, wo wir doch davon ausgehen k\u00f6nnen, dass eines Tages die KI selbst Schl\u00fcsse zieht und Entscheidungen trifft? Sind wir gerade Ikarus auf dem Weg an der Sonne vorbei mit Fl\u00fcgeln aus Wachs, oder haben wir alles fest in der Hand? \u00dcber diesen Gedanken schlafe ich ein und beginne zu tr\u00e4umen. Die Bilder meines Traumes werden von MidJourney erstellt. Bizarre Kulissen einer verzerrten Realit\u00e4t, die auf Hochglanz gezogen wurde. Neonlichter. Die Dialoge der vielen Figuren... haben sie manchmal drei Arme?... hat JettGPT geschrieben. Sie reden und reden und alles klingt plausibel, aber nichts hat Hand und Fu\u00df. Und eine dritte KI ohne Namen hat anhand meiner Social Media Accounts meine Bed\u00fcrfnisse analysiert. Die Traumwelt wird immer weiter \u00fcberarbeitet, verfeinert, bis sie zu einem glatten, widerspruchsfreien Spiegel meiner W\u00fcnsche wird. Ich werde nicht mehr aufwachen. Ich bleibe hier im idealen Traum in meiner neuen idealen Welt. Nur noch f\u00fcnf Minuten murmel ich dem Wecker entgegen, als er am Morgen klingelt. Der Traum war ja schreckend sch\u00f6n. In welcher Welt werden wir wohl eines Tages wach werden, wenn wir erkennen, was wir geschaffen haben?<\/p>\n<h3>Wie funktioniert Whisper? (00:07:23)<\/h3>\n<p>Helena: Ja, wie funktioniert Whisper? Whisper ist ein neuronales Netz, das zur Spracherkennung genutzt werden kann. Dabei kann es auch mehrere weitere Funktionen erf\u00fcllen. Also es kann Sprache erkennen und in Text umwandeln. Es kann gesprochene Texte \u00fcbersetzen, aber das nur nach Englisch. Es kann dann in den Text auch noch Zeitstempel einf\u00fcgen, also zu welchem Zeitpunkt in dieser Audiodatei wurde das gesagt. Und es kann erkennen, welche Sprache verwendet wurde, also ob Englisch, Deutsch oder was anderes. Und es kann erkennen, ob \u00fcberhaupt gesprochen wurde oder ob es vielleicht Musik ist oder was anderes. Und wenn man eine l\u00e4ngere Audiodatei hat, wie zum Beispiel dieser Podcast, und das transkribiert werden soll, dann wird diese Datei zuerst in 30 Sekunden lange Snippets aufgespalten und das Modell arbeitet dann nur auf diesen 30 Sekunden. Um trotzdem Kontextinformation zu haben, wird der transkribierte Text vom Snippet vorher mit \u00fcbergeben. Dabei kann das Modell dynamisch anpassen, wo die 30 Sekunden anfangen. Also es wird nicht am Anfang alles in 30 Sekunden Snippets aufgeteilt, sondern es wird dann durchaus auch mal ein paar Sekunden verschoben. Ja, im ersten Schritt wird aus einem Snippet dann ein sogenanntes Spektrogramm berechnet. Das ist eine mathematische Methode, um aus einem Audiosignal f\u00fcr jeden Zeitpunkt die Frequenz zu berechnen. Und ein Spektrogramm ist dabei auch eine zweidimensionale Darstellungsform. Also es ist auch ein Graphentyp, der dann, ja, f\u00fcr bestimmte Zeitpunkte mehrere Frequenzen gleichzeitig darstellt und die dann werden in der Regel als Farben dargestellt. Aber es wird nicht nur die Frequenz in Hertz berechnet, sondern schon umgewandelt auf eine Tonwertskala, der sogenannten MEL-Skala, die dann ja besser darstellt, welche T\u00f6ne wie gut f\u00fcr Menschen unterscheidbar sind. Das reduziert eben dann auch die Anzahl an Ton- oder Frequenzdaten, die man braucht. Und f\u00fcr jeden Zeitpunkt gibt es dann 80 Frequenzwerte, die berechnet werden. Und jeder dieser Zeitpunkte besteht aus 25 Millisekunden, wobei immer zwei hintereinander liegende 25 Millisekunden Zeitbl\u00f6cke 10 Millisekunden wiederum \u00dcberlapp haben. Ich finde diese 25 Millisekunden Wahl durchaus interessant, weil wir als Menschen ab 30 Millisekunden Zeitunterschied zwei akustische Ereignisse als unterschiedliche Ereignisse wahrnehmen k\u00f6nnen. So ein klassisches Experiment daf\u00fcr ist, wenn man jetzt zwei Kugeln fallen l\u00e4sst irgendwie gleichzeitig und dann immer den Abstand um ein paar Millisekunden erh\u00f6ht, in denen die fallen und man sich das anh\u00f6rt, dann ist bei 30 Millisekunden ungef\u00e4hr der Punkt, wo man h\u00f6rt, ja es sind wirklich zwei Kugeln und vorher kann man die nicht unterscheiden. Und diese 25 Millisekunden liegen eben darunter und durch den \u00dcberlapp kann man dann schon annehmen, ja das sind dann Snippets, die der Mensch auch wirklich ungef\u00e4hr auf der Zeitskala h\u00f6ren und wahrnehmen kann. Ja, das sind dann aber immer noch sehr viele Daten und um das nochmal weiter zu reduzieren, wird, bevor dann das neuronale Netz anf\u00e4ngt, nochmal ein bisschen Signalprozessierung gemacht. Also es wird gefaltet, um die Anzahl der Punkte zu reduzieren. Dabei ist eine Faltung auch ein bestimmtes mathematisches Verfahren, wo dann einfach weniger Punkte rauskommen, aber es immer ungef\u00e4hr gleich ist. So, dann kommt das neuronale Netz und das neuronale Netz besteht aus mehreren verschiedenen Stufen. Die erste Stufe ist dabei der Transformer Encoder und dieser Transformer Encoder kann auch aus mehreren Schichten bestehen und die haben auch f\u00fcr verschiedene Modelle verschiedene Anzahlen an Schichten benutzt und das Signal, was hier rauskommen soll, stellt quasi eine abstrakte Darstellung der W\u00f6rter dar, die Menschen sagen oder sprechen k\u00f6nnen. <\/p>\n<p>Janine: Was genau meinst du mit abstrakt?<\/p>\n<p>Helena: Naja, das ist halt keine Darstellung, die irgendwie menschlich verst\u00e4ndlich ist, sondern es ist eine, die nur f\u00fcr dieses neuronale Netz einen Sinn hat. Man hat einfach eine Matrix aus ganz vielen Zahlen.<\/p>\n<p>Janine: Wenn es noch nicht das exakte Wort ist, ist es dann vielleicht sowas wie der Klang oder die Laute, die erstmal grob erkannt werden, ehe das dann in Silben \u00fcbersetzt wird?<\/p>\n<p>Helena: Ja, genau.<\/p>\n<p>Janine: Ah, Okay.<\/p>\n<p>Helena: Das wird sp\u00e4ter, wenn es ums Training geht, auch nochmal relevant, warum diese Unterscheidung sinnvoll ist. Dann kommt das Ergebnis davon in den Decoder. Der Decoder ist dann der Teil, der darauf trainiert ist, tats\u00e4chlich aus dem, was aus diesem Encoder rausf\u00e4llt, tats\u00e4chlich W\u00f6rter als geschriebene Sprache, ja, ausspuckt, also wo das dann rauskommt. Das hei\u00dft, f\u00fcr jedes Ergebnis vom Decoder ist dann immer ein Wort und dann immer ein Wort nacheinander und dann wird der ein Zeitschritt weiter ausgef\u00fchrt und gibt dann das n\u00e4chste Wort an. Dieser Decoder, der dann tats\u00e4chlich W\u00f6rter schreibt, der bekommt dann auch noch, ja, die Position mit eingegeben, aber auch zum Beispiel den Satz, der vorher herausgekommen ist als Input. Und in diesem Schritt kann man dann eben auch noch diese anderen Funktionen machen, wie die eigentliche Sprache, die gesprochen ist, erkennen und \u00fcbersetzen und so weiter. Hier werden auch eben die Timestamps dann reingegeben. Whisper wurde eben auf verschiedene Varianten trainiert, mit verschieden gro\u00dfen Modellen. Also die Gr\u00f6\u00dfe des Modells h\u00e4ngt dann davon ab, wie viele Ebenen vom Encoder man hat und wie viele Ebenen vom Decoder man hat. Und mehr Ebenen hei\u00dft dann tendenziell, dass das Modell auch bessere Ergebnisse liefert, aber dass es eben auch gr\u00f6\u00dfer ist. Also dass es selber gr\u00f6\u00dfer ist und komplizierter zu speichern ist und auch l\u00e4nger braucht, um ein Ergebnis zu liefern. Die kleineren Modelle haben dabei eben den Vorteil, dass sie Echtzeit-Transkripte erm\u00f6glichen. Da kann man zum Beispiel an Sprachsteuerung denken. Wenn man jetzt zu Hause irgendwie sprachgesteuert Dinge steuern m\u00f6chte, aber nicht will, dass die Daten an Google, Apple oder Amazon gehen, k\u00f6nnte man jetzt auf irgendeinem kleinen Computer eben Whisper laufen lassen. Und eben mit einem kleineren Modell, dass es auch auf wenig stromverbrauchender Hardware immer noch sinnvolle Ergebnisse liefert. Das wird sicherlich irgendwann auch kommen. Ich habe jetzt noch nichts gesehen, was das gut genug macht, aber ich denke, das wird eine Anwendung von Whisper sein, weil vorher war das eben auch nicht wirklich m\u00f6glich. Gut, aber jetzt hat man mehrere Modelle, die unterschiedlich gut sind oder gut sein sollen, weil sie unterschiedlich intensiv trainiert wurden.<\/p>\n<h3>Wie funktioniert das Training f\u00fcr Whisper? (00:14:44)<\/h3>\n<p>Helena: Dann ist die Frage, wie macht man denn \u00fcberhaupt das Training? Das ist n\u00e4mlich auch ein sehr wichtiger Punkt bei Whisper. Also generell gibt es verschiedene Trainingsmethoden. Das eine ist das sogenannte supervised learning, ein Trainingsverfahren, bei dem man quasi das Audio hat und aber auch ein komplettes Transkript hat, wo man auch die Qualit\u00e4t gepr\u00fcft hat. Das hei\u00dft, das Transkript ist sehr gut, das Audio ist sehr gut und man hat alle Infos, die man am Ende haben m\u00f6chte, auch da. Und das Problem hier ist, dass es f\u00fcr dieses Level an Trainingsdaten nur einige tausend Stunden an Datenmaterial gibt, wo man wirklich die M\u00fche reingesteckt hat, die Transkripte auch entsprechend zu \u00fcberpr\u00fcfen. Demgegen\u00fcber steht dann das sogenannte unsupervised learning, bei dem zum Beispiel \u00fcber Clustering, also Clustererkennung, \u00c4hnlichkeiten in verschiedenen Texten erkannt werden k\u00f6nnen. Und diese \u00c4hnlichkeiten k\u00f6nnen dann durchaus, wenn verschiedene Leute \u00e4hnliche Textstellen oder \u00e4hnliche W\u00f6rter benutzen, auch erkennen, dass das die gleichen W\u00f6rter sein sollen. Aber die Schw\u00e4che ist hier, dass der Decoder nicht so richtig wei\u00df, welches Wort er dann aufschreiben soll. Das ist n\u00e4mlich genau das, was du gerade angesprochen hattest, dass n\u00e4mlich der Encoder an dieser Stelle schon ziemlich gut trainiert sein kann, dass er erkennt, ja, die Leute benutzen das gleiche Wort, einfach durch unsupervised learning, durch Vergleiche, aber der nicht wei\u00df, wie man das schreibt. Also im Prinzip kann man sagen, ja, das ist dann vielleicht ein Kind, das schon sprechen gelernt hat, aber noch nicht in der Schule war, um auch schreiben zu lernen. Das ist nochmal eine ganz eigene F\u00e4higkeit. Whisper hat dann etwas gemacht, was eben auch bei der Bildgenerierung, wie StableDiffusion gemacht wurde, und das ist das sogenannte Weak Supervision. Das hei\u00dft, man hat nicht irgendwie Texte, die man alle manuell \u00fcberpr\u00fcft hat, genommen, sondern man hat auch ein bisschen darauf vertraut, dass man Sachen \u00fcbers Internet finden kann, Texte und Audiodateien, wo ein Transkript vorliegen soll, das man eben nicht \u00fcberpr\u00fcft hat, aber mit denen man dann weitergearbeitet hat. Bei der Bildgenerierung war das dann so, dass Leute dann irgendwie Kommentare, Texte unter die Bilder geschrieben hat oder manchmal auch Bildbeschreibungen da waren. Da hat man nur durchaus die Qualit\u00e4tskontrolle auch automatisiert durchgef\u00fchrt, dass Sachen, die nicht zusammenpassen, vielleicht noch rausgefiltert werden, aber dass man eben so die Menge an Trainingsdaten deutlich erh\u00f6ht hat im Vergleich zu, wenn man das alles aufwendigst \u00fcberpr\u00fcfen w\u00fcrde. Und im Falle von Whisper hei\u00dft das dann, dass man auf 700.000 Stunden Audio gekommen ist, die man jetzt verwenden konnte f\u00fcr das Weak Supervised Training. Also es ist dann im Grunde ein Supervised Training, aber weil man von den Texten, gegen die man trainiert, nicht von allen genau wei\u00df, wie gut die sind, ist es quasi nur eine schwache \u00dcberpr\u00fcfung oder schwaches... Ja, f\u00e4llt mir jetzt das richtige Wort nicht ein. Ich meine, aber der Vorteil hiervon ist, zum Beispiel bei der Bildgenerierung, dass man nat\u00fcrlich dann auch f\u00fcr Beschreibungen von Bildern deutlich mehr verschiedene Menschen hat, die beschreiben, was man sieht und dann auch mehrere Arten etwas zu beschreiben hat, als wenn man nur Menschen unter Texte nimmt, die sehr ausf\u00fchrlich sind zum Beispiel, weil man dann ja auch wenige ausf\u00fchrliche hat, die trotzdem eindeutige Sachen sagen. Inwiefern das jetzt bei Transkripten eine Rolle spielt, wei\u00df ich nicht. Was aber noch so ein Punkt bei Weak Supervision ist, ist, dass man denkt, ja irgendwo ist dann halt die Grenze, weil die durchschnittliche Qualit\u00e4t von Transkripten, die man im Internet findet, hat nur ein bestimmtes Level und besser k\u00f6nnte es dann nicht mehr werden, wenn man nicht deutlich mehr richtig gut kontrollierte Texte hat. Das ist so eine Sorge. Das h\u00e4ngt unter anderem auch damit zusammen, wenn jetzt alle Leute Whisper benutzen, um Transkripte zu benutzen, dann kann es ja sein, dass die n\u00e4chste Vision von Whisper vielleicht zehn Millionen Stunden findet, aber davon sind neun Millionen Stunden mit Whisper erzeugt. Da kann es halt nicht mehr besser werden.<\/p>\n<p>Janine: Das ist ja auch ein Problem, was schon bei der Bildgenerierung besprochen wurde, dass irgendwann die Trainingsdaten vielleicht selbst schon aus generierten Bildern bestehen.<\/p>\n<p>Helena: Ja, und ja, von den 700.000 Stunden, die jetzt im Training verwendet wurden, waren 120.000 andere Sprachen als Englisch. Etwa 125.000 waren andere Sprachen Audio, aber der Text auf Englisch \u00fcbersetzt. Deswegen kann es eben auch Dinge auf Englisch \u00fcbersetzen, aber nicht auf andere Sprachen. Aber 120 Stunden Audio auf anderen Sprachen, wie viel jetzt Deutsch davon waren, wei\u00df ich nicht, aber schon ein paar Zehntausend. Aber das ist dann ja immer noch nicht so unendlich viel im Vergleich zu Englisch. Das hei\u00dft, wahrscheinlich ist es deutlich besser auf Englisch. Den Vergleich haben wir jetzt nicht gemacht. Gut, wenn man jetzt Whisper benutzen m\u00f6chte, dann ist das Ganze ein Python-Script. Zu Python haben wir ja auch schon eine Folge gemacht. Das ist eine der Standard-Programmiersprachen im Machine Learning. Und dieses Python-Script kann dann eben auf dem Computer, auf einem normalen Prozessor rechnen. Aber man kann auch Grafikkarten verwenden. Wie wir das jetzt f\u00fcr unseren Podcast anwenden, ist, dass das Skript einfach auf dem Server l\u00e4uft, wo auch der Podcast ausgespielt wird. Und da wird dann einfach nur die CPU zum Rechnen benutzt. Das dauert dann mehrere Stunden f\u00fcr eine Podcast-Folge, weil so eine CPU ja nicht so viel parallel rechnen kann wie eine Grafikkarte. Aber es l\u00e4uft einfach nebenbei. Und wenn man das \u00fcber Nacht laufen l\u00e4sst, ist es dann halt auch einfach fertig. Und w\u00fcrde ich jetzt meinen Machine Learning-Rechner f\u00fcr jedes Mal, wenn wir das in der Folge aufgenommen haben, immer zum richtigen Zeitpunkt hochfahren, um die Grafikkarte benutzen zu k\u00f6nnen, w\u00e4re das doch irgendwie ein bisschen umst\u00e4ndlich.<\/p>\n<p>Janine: Ich habe gerade auch nochmal reingeschaut gehabt in die Zeiten, die ich miterfasst habe, wenn ich Fu\u00dfball gestartet habe. Und die Realzeit ist auf Helenas Server jetzt bei so circa 400 Minuten Bearbeitung f\u00fcr eine Stunde Podcast circa.<\/p>\n<p>Helena: Ja, das ist schon sehr rechneraufwendig. Ja, wenn man das Ganze dann laufen l\u00e4sst, kann man eben auch einstellen, dass man Timestamps, also die Zeitpunkte f\u00fcr die einzelnen W\u00f6rter haben m\u00f6chte. Die werden dann auch in verschiedenen Formaten erzeugt. Das ist insofern n\u00fctzlich, weil z.B. YouTube ein eigenes Untertitelformat hat als andere Programme. Und laut den Entwicklern von Whisper sind die Schw\u00e4chen, ja, dass wenn es die 30 Sekunden Snippets anpasst, dass es dann sich auch schon mal schafft, die so weit anzupassen, dass es sich dann auff\u00e4ngt und man die gleichen 30 Sekunden machen will.<\/p>\n<p>Janine: Okay.<\/p>\n<p>Helena: Und dass es eben f\u00fcr andere Sprachen als Englisch immer noch zu wenig Daten im Training hatte. Und dass es manchmal Textphrasen komplett halluziniert.<\/p>\n<h3>Wie sieht die Arbeit mit dem fertigen Transkript aus? (00:22:08)<\/h3>\n<p>Helena: Gut, das waren jetzt die technischen Details zu Whisper. Wie sieht denn die Arbeit mit einem fertigen Transkript dann aus?<\/p>\n<p>Janine: Ja, also was Helena ja gerade schon gesagt hatte, war, dass man verschiedene Formate ausgeben lassen kann. Wenn ich Whisper benutze, fallen am Ende f\u00fcnf Dateien heraus. Und zwar eine reine Textdatei, wo eben nur das Transkribierte drin steht, mit relativ vielen Zeilenumbr\u00fcchen. Und ja, das ist die Datei, mit der ich auch am haupts\u00e4chlichsten arbeite. Was ebenfalls rausfallen kann, ist eine Datei mit der Endung VTT. Das ist eine Datei, die hat Abs\u00e4tze. Und die Abs\u00e4tze bestehen jeweils aus zwei Zeilen. Die erste Zeile hat immer einen Zeitstempel mit von bis. Und die zweite Zeile ist der Text, der in diesem Zeitraum gesprochen wird. Dann gibt es noch eine SRT, die sieht fast genauso aus wie die VTT. Allerdings steht vor jedem Absatz noch eine Nummer. Also die Abs\u00e4tze sind dann fortlaufend nummeriert, was zum Beispiel bei Folge 35 dazu gef\u00fchrt hat, dass 865 Abs\u00e4tze erfasst wurden.<\/p>\n<p>Helena: Okay, ja, SRT kenne ich noch von Videodateien und Untertiteln.<\/p>\n<p>Janine: Genau, das ist auch die Datei, die ich dann f\u00fcr YouTube benutze, zum Beispiel f\u00fcr unsere kurzen Videos. Da mache ich auch einmal Whisper \u00fcber das, was gesprochen wurde, damit ich eben die Untertitel relativ schnell einpflegen kann. Das funktioniert an sich auch ganz gut, aber hat auch ein paar Probleme, dass man hier und da noch manuell nachkorrigieren muss. Im Wesentlichen erleichtert es die Arbeit aber enorm. Dann gibt es eine Datei, die die Endung TSV hat. Das ist eine tabellarische Erfassung gewisserma\u00dfen. Also da gibt es durch Tabs getrennte Spalten und zwar drei St\u00fcck, n\u00e4mlich Start, End und Text. Und entsprechend sieht dann jede Zeile so aus, dass es eine Startzeit gibt, dann kommt ein Tab, da steht die Endzeit, dann kommt ein Tab und dann der Text, der in diesem Zeitraum erfasst wurde. Wer schon andere Folgen von uns geh\u00f6rt hat, kann da vielleicht eine Parallele zu CSV-Dateien erkennen. Also zumindest f\u00fcr mich sah das dann so ein bisschen aus. Also es ist halt nicht in einem Excel-Dokument in einer Tabelle drin, aber durch die Tabs wird halt diese Tabellensortierung simuliert.<\/p>\n<p>Helena: Ja, also ich meine, TSV steht ja auch f\u00fcr Tab-Separated Values. Das ist wie eine CSV-Datei.<\/p>\n<p>Janine: Und f\u00fcr was steht das C nochmal dann?<\/p>\n<p>Helena: Komma. Au\u00dfer f\u00fcr deutsche Excel-Version, da ist es Semikolon.<\/p>\n<p>Janine: Okay, ja, fantastisch. Ja, ihr seht die Parallelen. Wie gesagt, ich benutze davon eigentlich meistens nur die Textdatei, wo das Transkript in Textform drin erscheint und hin und wieder halt auch die SRT f\u00fcr die YouTube-Sachen. Achso, ein Dateiformat habe ich gerade vergessen. Das habe ich mir n\u00e4mlich zum Schluss aufgehoben. Das will ich jetzt nat\u00fcrlich nicht unterschlagen. Es gibt auch noch eine Datei mit der JSON-Endung, also J-S-O-N. Da steht zun\u00e4chst einfach auch der komplette Text drin, wobei dieser keine Sonderzeichen direkt geschrieben enth\u00e4lt, sondern diese durch Zeichenkombinationen ersetzt wurden, die wahrscheinlich in einer JSON-Datei dann entsprechend interpretiert werden, als die Sonderzeichen, Umlaute zum Beispiel, f\u00fcr die, die dann stehen. Und nachdem der ganze Text da ist, kommt nochmal der Text. Aber hier hat dann jeder Abschnitt, der wahrscheinlich w\u00e4hrend des Transkribierens bearbeitet wurde, so wie Helena das eben beschrieben hat, und diese Textabschnitte sind unter sich abgetrennt und haben jeweils Attribute zugewiesen bekommen. Und zwar Beginn, Ende, die Textzeile und noch Tokens, die dort aufgelistet werden. Da drin stehen auch Dinge wie die Kompressionsrate und anderes. Das ist also eine extrem ausf\u00fchrliche Datei. Ich wei\u00df nicht, an welcher Stelle sie sinnvoll ist. Dann meine Beobachtung. Wir haben am Anfang ein bisschen mit der Gr\u00f6\u00dfe des Modells herum experimentiert und tats\u00e4chlich auch mal ein eher niedrigeres Modell ausgew\u00e4hlt, das sehr viel schneller transkribiert. Und da ist auch aufgefallen, was Helena eben schon gesagt hat, es ist relativ ungenau. Meistens passt der Klang, aber die Buchstaben \u00fcberhaupt nicht. Und die Kommasetzung ist da auch sehr kreativ. Also am wenigsten Arbeit entsteht tats\u00e4chlich, wenn das gr\u00f6\u00dfte Modell benutzt wird. Und deswegen ist da auch die Bearbeitungszeit dann daf\u00fcr, dass man das Transkript vielleicht ver\u00f6ffentlichen m\u00f6chte, am geringsten.<\/p>\n<p>Helena: Ja, das w\u00e4re irgendwie v\u00f6llig unsinnig an der Stelle dann zu sparen, wenn der Rechner einfach \u00fcber Nacht gelaufen lassen werden kann.<\/p>\n<p>Janine: Genau. Eines der lustigsten Dinge, das mir gleich am Anfang aufgefallen ist, war, dass da S\u00e4tze vorkamen, die \u00fcberhaupt gar nicht gesprochen wurden.<\/p>\n<p>Helena: Halluziniert wahrscheinlich.<\/p>\n<p>Janine: Genau. Und was hat Whisper da hin halluziniert ans Ende des Transkripts, wo dann dieser sch\u00f6ne Satz auftauchte? Untertitel im Auftrag des ZDF f\u00fcr funk 2017.<\/p>\n<p>Helena: Joa, wo k\u00f6nnten wohl die Trainingsdaten hergekommen sein? Ich meine, es ist irgendwie naheliegend, dass man Fernsehsendungen nimmt, weil es oft Untertitel gibt.<\/p>\n<p>Janine: Ja, das sind so, ich nenne es mal Trainingsartefakte.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Sie tauchen nicht immer auf. Ich glaube, es war zwei oder drei Mal, wenn ich sowas gemacht habe. Spannend ist es allemal. Was an den Transkripten auch direkt auff\u00e4llt, ist die Frage, haben einige vielleicht schon im Kopf gehabt, wird denn danach Sprecher*innen unterschieden? Nein, die Sprechenden werden nicht differenziert. Es wird einfach nur die Sprache identifiziert, erfasst und ausgegeben, ohne dass sie in irgendeiner Form mit extra Informationen ausgezeichnet wird, wie Speaker1, Speaker2 oder so. Das passiert nicht.<\/p>\n<p>Helena: Hast du dir die JSON-Datei mal genauer angeguckt, ob das da vielleicht doch drin ist wieder? Weil eigentlich ist das technisch schon wirklich das einfachste, w\u00fcrde ich behaupten. Aber wenn...<\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: ... wenn Whisper nicht darauf ausgelegt ist, ich habe es jetzt auch nicht gesehen in dem Paper, was sie ver\u00f6ffentlicht haben dazu, dass sie das tun w\u00fcrden. Aber ich kann mir auch vorstellen, dass es zumindest bei typischen Untertitelformaten ja meistens nicht mit drinsteht, wer spricht. Ja, und vielleicht deswegen haben sie es auch nicht darauf trainiert. Aber das w\u00e4re etwas, wo dann unsupervised learning wahrscheinlich n\u00fctzlich w\u00e4re, das im ersten Schritt den gleichen Sprecher wiederzufinden oder so.<\/p>\n<p>Janine: Also ich gucke mal, was hier drin ist. Da ist der Text, dann kommen Tokens, die unterschiedliche Zahlen haben. Temperature, AVG Lockprop, Compression Ratio, No Speech Prop, ID, Seek, Start and Text. Ne, falls nichts von dem irgendwas \u00fcber Speaker aussagt, dann ist es da tats\u00e4chlich nicht drin. Aber ich wei\u00df auch nicht, was Temperature und AVG Lockprop und No Speech Prop so ausmachen. <\/p>\n<p>Helena: Ja, No Speech ist wahrscheinlich die Wahrscheinlichkeit, dass das keine Sprache ist.<\/p>\n<p>Janine: Stimmt, das muss ja auch irgendwo getestet werden.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Ja, das passiert jedenfalls hier nicht, dass nach Sprechenden irgendwie differenziert wird, weswegen ich das dann schlie\u00dflich manuell mache. Was auch interessant ist und vielleicht mit dem zusammenh\u00e4ngt, wo festgestellt wird, ob etwas Sprache ist oder nicht, in der Regel werden die allermeisten \u00c4hms und \u00c4hs komplett ignoriert. So viele \u00c4hms und \u00c4hs, wie wir doch noch in der Folge drin haben, die ich nicht rausgeschnitten habe, so viele landen definitiv nicht im Transkript. Ich finde das an der Stelle auch nicht schlimm, weil es den Lesefluss durchaus ja auch st\u00f6ren kann, wenn da st\u00e4ndig \u00c4hms und \u00c4hs drin sind. Manchmal kann es aber vorkommen, dass die doch mit transkribiert werden. Helena hat zum Beispiel einmal ein \u00c4h bekommen von Whisper, wo Helena sagte, \u00e4h, nicht ganz. Das war offensichtlich ein f\u00fcr sich stehender, vollst\u00e4ndig genugger Satz, wo das \u00c4h eine Aussage hatte. Ich wei\u00df es nicht.<\/p>\n<p>Helena: Ja, aber klingt auch so. Also klingt f\u00fcr mich so, als w\u00e4re das schon Teil des Satzes, das man darstellen muss, dass ich gerade nachgedacht habe...<\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: ...und dass das Ergebnis ist, dass ich sage, nicht ganz, w\u00e4hrend man beim normalen Sprechen ja \u00f6fter mal nachdenkt und dann \u00c4h sagt und das ist dann wirklich v\u00f6llig irrelevant f\u00fcr den Text am Ende.<\/p>\n<p>Janine: Ich bin mir nicht sicher, ob das wirklich tats\u00e4chlich so differenziert entschieden wird bei Whisper. Eine andere Interpretation w\u00e4re, dass das \u00c4h vielleicht nachdr\u00fccklich deutlich und lang genug war, um nicht als Hintergrundger\u00e4usch abgetan zu werden.<\/p>\n<p>Helena: Ja. <\/p>\n<p>Janine: Auch eine Option. Was dann jedenfalls auch auff\u00e4llt ist, was Helena ja auch schon gesagt hatte, manche Stellen werden eben einfach nicht als Sprache identifiziert. Zum Beispiel auch, wenn Musik l\u00e4uft, also in unserem Intro etwa oder am Ende. Und an den Stellen macht Whisper einfach nichts. Also es stehen dann auch keine Kommentare wie Musik. Das ist zum Beispiel etwas, was ich dann bei den YouTube-Untertiteln manuell erg\u00e4nze. Whisper zeichnet nicht auf, dass da etwas passiert akustisch, sondern da gebe ich dann manuell noch einmal im Untertitel Klemmer auf Musik Klemmer zu an, damit eben auch ersichtlich ist, da passiert gerade akustisch trotzdem was. Das macht Whisper einfach nicht. Was Whisper auch nicht erfasst und in irgendeiner Form mit Informationen hinterlegt ist, wenn eine von uns lacht. Hin und wieder kommt das ja vor, wenn wir podcasten.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Das wird auch nicht erfasst. Wenn parallel etwas gesagt wird, W\u00e4hrend eine zum Beispiel lacht oder irgendwie auch gerade redet, kann es durchaus sein, dass nicht genau genug Sprache erfasst werden konnte vielleicht oder so. Und dann steht da auch einfach mal nichts. Auch hier macht Whisper keine Auslassungszeichen oder keine Informationen, da fehlt etwas, das konnte nicht validiert werden als Sprache. Dann steht es da einfach nur nicht da. Das betrifft zum Beispiel auch so kurze Zwischenrufe, Sachen wie ja oder mhm wird auch nicht so richtig erfasst. Das ist das. Lustig wird es im n\u00e4chsten. Eine interessante Beobachtung fand ich auch, ist, dass manche Worte einfach komplett neu interpretiert und verstanden und auch erfunden werden. Das f\u00e4llt vielleicht wieder in den Bereich der Halluzinationen. Es gab eine Folge, wo das Wort Kaffeesatz drin vorkam, was dann zu Kaffeesalz interpretiert wurde und im Skript so ausgegeben wurde.<\/p>\n<p>Helena: Was mich schon sehr \u00fcberrascht, weil der Trend, dass man in Kaffee Salz reintut, ist noch gar nicht so alt.<\/p>\n<p>Janine: Das machen wirklich Menschen? Ja?<\/p>\n<p>Helena: Ja, wenn der Kaffee ein bisschen zu sauer ist, kann man ein bisschen Salz reinmachen.<\/p>\n<p>Janine: Okay, also es ist tats\u00e4chlich nicht ein komplett erfundenes Wort und wahrscheinlich gibt es schon eine Industrie, die sich drauf st\u00fcrzt und nur noch Kaffeesalz produziert. Ich wei\u00df es nicht...<\/p>\n<p>Helena: Ich habe dieses Wort noch nie vorher geh\u00f6rt.<\/p>\n<p>Janine: Ich halt auch nicht. Welches Wort ich auch nicht geh\u00f6rt habe, war Schokoladenkurve. Ich fand das sehr niedlich. Also Helena sagte so einen Satz in einer Folge, der da lautete: dass man die Daten ganz gut nutzen kann, um jetzt sowas wie eine Gaussche Glockenkurve reinzumalen. Was Whisper verstanden hat, war, dass man die Daten ganz gut nutzen kann, um jetzt sowas wie eine Gauss-Schokoladenkurve reinzumalen. Im direkten Vergleich nebeneinander kann sich ja durchaus vorgestellt werden, wo das herkommt. Also das Gaussche produziert ein sehr deutliches Sch und Glockenkurve ist jetzt vielleicht nicht so das sinnvolle Wort, dann halt Schokoladenkurve.<\/p>\n<p>Helena: Ich bin sehr gespannt, was Whisper an dieser Stelle vom Podcast macht.<\/p>\n<p>Janien: Ja, und das werden wir dann bei der n\u00e4chsten Folge wissen. Und das Interessante war jetzt aber, und auch daf\u00fcr hat uns Helena eben eigentlich schon den Grund erkl\u00e4rt, dass Whisper in der Folge konsequent dabei geblieben ist, Schokoladenkurve zu schreiben, auch wenn danach das Gaussche nicht mehr erw\u00e4hnt wurde, sondern nur noch ... Glockenkurve ... gesagt wurde. Dann stand da halt die ganze Zeit wieder Schokoladenkurve drin. Jetzt erinnern wir uns kurz, was Helena eben ausgef\u00fchrt hat: Das Transkript des Satzes davor wird in den n\u00e4chsten Satz mit r\u00fcbergezogen.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Wahrscheinlich wurde dann das Wort an das Verst\u00e4ndnis des ersten Satzes direkt angeglichen. Da wurde dann zwar ganz eindeutig Glockenkurve gesagt, ohne einen Zusatz, aber weil ja vorher Schokoladenkurve rausgekommen ist, wurde Schokoladenkurve wahrscheinlich weiter benutzt.<\/p>\n<p>Helena: Ja, sehr konsequent. Ich mache das ja auch f\u00fcr die Nachbearbeitung leichter, das zu korrigieren.<\/p>\n<p>Janine: Das stimmt. Suchen und Ersetzen ist hier absolut sch\u00f6n und sinnvoll. Was aber daran noch lustiger ist, ist, dass vielleicht zwei, drei Minuten davor Whisper das tats\u00e4chlich richtig erkannt hatte und Gaussche Glockenkurve schrub.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Da merkt man dann auch wieder, okay, der Abstand zu der ersten Erfassung dieses Begriffs war halt schon zu gro\u00df. Das wurde sinnf\u00e4llig nicht mehr weitergetragen in den n\u00e4chsten Satz hinein, weil das Wort da nicht auftauchte. Und als dann das n\u00e4chste Mal Gaussche Glockenkurve aufkam, wurde es halt neu erfasst, neu transkribiert und dann kam halt Gauss-Schokoladenkurve raus.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Die Nichtkonsequenz von Whisper, was die Gleichm\u00e4\u00dfigkeit oder Homogenit\u00e4t von Ausdr\u00fccken angeht, sieht man dann auch in Abk\u00fcrzungen. In Folge 35 hat Whisper viermal z.b. benutzt und zw\u00f6lfmal zum Beispiel ausgeschrieben. Und das Gleiche passiert dann auch mit dem Wort Prozent. Mal steht es ausgeschrieben dort und mal das Prozentzeichen im Transkript. Also das ist da nicht konsequent in der Durchf\u00fchrung durch das ganze Skript hindurch, das variiert einfach. Und die letzte Beobachtung ist, dass Whisper manchmal auch in die Satzstruktur eingreift und einfach Worte \u00e4ndert, die \u00e4hnlich sind oder auch den Satz ganz umstellt. Leider habe ich gerade kein Beispiel mehr f\u00fcr so eine komplette l\u00e4ngere Umstellung parat. Was ich aber jetzt gerade noch gefunden hatte, war, dass Helena an einer Stelle sagte, genau, Violinenplots sind eben eine moderne Variante. Und Whisper dann im Transkript geschrieben hatte, ja, Violinenplots sind eben eine moderne Variante. Ich wei\u00df nicht, ob Whisper festgestellt hat, dass wir st\u00e4ndig genau sagen und \u00f6fter mal ja benutzen k\u00f6nnten und das quasi eine stilistische Entscheidung war. Ich verstehe nicht, wie aus genau ja werden kann. Aber das Gleiche passiert manchmal auch eben mit Satzstrukturen. Die Verben werden weiter nach vorne gestellt oder weiter nach hinten. Hier und da passieren manchmal so leichte Verschiebungen, dass es nicht wortw\u00f6rtlich ist.<\/p>\n<p>Helena: Ja. Witzig.<\/p>\n<p>Janine: Ja. Zusammengefasst, was muss also nachtr\u00e4glich noch im Transkript gemacht werden? Die offensichtlichsten Dinge sind eben die Abs\u00e4tze nach Sprecherinnen verteilen. F\u00fcr den Podcast f\u00fcge ich meistens auch noch die \u00dcberschriften ein, damit das Transkript beim Durchscrollen besser zug\u00e4nglich ist und auch zu den einzelnen Kapiteln passt und zu sehen ist, wann die anfangen. Dann h\u00f6re ich die Folge, w\u00e4hrend ich das Transkript durchgehe und dabei korrigiere, denn da fallen eben noch manche Dinge besser auf, wie das mit diesen Satzumstellungen. Und ja, alles was unter Beobachtung oben erw\u00e4hnt wurde, versuche ich auch irgendwie zu ber\u00fccksichtigen. Also das Kaffeesalz statt Kaffeesatz zum Beispiel. Da muss man schon sehr genau hingucken, um diesen Fehler \u00fcberhaupt zu finden.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Und den Satz vielleicht wieder richtig hinstellen, wenn ich eher dazu geneigt bin, die Sachen so dastehen zu haben, wie sie tats\u00e4chlich gesagt haben und nicht einfach irgendwie. Eine der Fragen, die wir ja dann am Anfang hatten, wie viel Zeit beansprucht das \u00dcberarbeiten des Transkripts durch Whisper im Vergleich zu dem, was wir vorher n\u00e4mlich gemacht haben, den ausf\u00fchrlichen Stichworten in den Shownotes, die ich selbst zusammengetippt habe aus unseren Notizen f\u00fcr das Skript. Also f\u00fcr die Shownotes in Stichpunkten habe ich in den Folgen 1 bis 33 im Schnitt 432 Minuten gebraucht. So, Zeit f\u00fcr die Shownotes mit Transkript. Um das zu korrigieren, also ab Folge 34 bis 39 habe ich jetzt auf die Daten geguckt. Es waren nur sechs Folgen, aber da waren das durchschnittlich 263 Minuten.<\/p>\n<p>Helena: Also mehr als zwei Stunden schneller. Ja, das ist jetzt ausf\u00fchrlicher und schneller.<\/p>\n<p>Janine: Genau. Die Frage ist, warum trotzdem noch 260 Minuten? Ich meine, es sind auch immer noch fast vier Stunden an Arbeitszeit, die ich da wirklich investiere. Dabei passieren allerdings auch so Sachen, auch in den Minuten f\u00fcr die Shownotes in Stichpunkten war das enthalten, wie Links raussuchen, Quellen nachpflegen, alles vern\u00fcnftig formatieren und all solche Dinge. Das passiert dann in diesen 263 Minuten auch. Das ist nicht nur das reine den Text bearbeiten und vern\u00fcnftig aufbereiten. Und die \u00dcbersetzungszeit oder die Transkriptionszeit, die Whisper braucht, k\u00f6nnen wir unter den Tisch fallen lassen, weil das passiert in der Nacht.<\/p>\n<p>Helean: Ja, das ist keine menschliche Arbeitszeit.<\/p>\n<p>Janine: Ja, das waren so die Beobachtungen. Dann kommen wir doch mal zu den Vergleichen. <\/p>\n<h3>Wie sieht der direkte Mensch vs. Maschine Vergleich aus? (00:41:00)<\/h3>\n<p>Helena: Ja, Vergleiche hei\u00dft jetzt, gut, wir haben jetzt Whisper, also eine k\u00fcnstliche Intelligenz, beziehungsweise ein Neuronales Netz, was sonst Texte produziert aus unserem Podcast. Und jetzt nat\u00fcrlich die Frage, wie gut ist es eigentlich? Man muss einiges dran nacharbeiten, aber wie gut ist es im Vergleich zu einem Menschen? Das haben wir uns gefragt und deswegen nach Leuten gesucht. Und offenbar haben insgesamt vier Menschen teilgenommen. Und daf\u00fcr hattest du, Janine, sechs Beispiele rausgesucht, also kurze Tonschnipsel aus unseren transkribierten Folgen. Und \u00fcber die k\u00f6nnen wir dann mal reden.<\/p>\n<p>Janined Ja, vier Personen haben sich freiwillig gemeldet, f\u00fcr uns diese Transkripte dann anzufertigen. Und wir haben das auch Whisper nochmal gegeben. Also es gab so eine wenige Minuten lange Datei. Ich habe an diese vier Personen anonyme Namen verteilt. Wir haben hier Ahorn, Flieder, Holunder und Feige. Und dann gucken wir doch mal, was da passiert ist bei Beispiel 1.<\/p>\n<h3>Beispiel 1 - Gendergap (00:42:01)<\/h3>\n<p>Janine: Beispiel 1.<\/p>\n<p>Helena: Und daf\u00fcr gibt es die BIK Kennzahl. Das ist eine Kennzahl nach der Orte, nach Bev\u00f6lkerungsdichte und Ballungsraumstruktur bewertet werden. Und Orte, die kleiner als irgendwie tausend EinwohnerInnen sind, wurden f\u00fcr diese Studie auch zusammengelegt.<\/p>\n<p>Janine: Ja, was ist hier passiert? Beziehungsweise worauf haben wir das Augenmerk gelegt? Ich habe jedes Beispiel nach einem bestimmten Thema ausgesucht. Und wie vielleicht zu h\u00f6ren war, war in diesem Beispiel ein Gender Gap vorhanden, den Helena gesprochen hat, n\u00e4mlich tausend Einwohner*innen.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Wie sind Whisper und unsere vier Personen damit umgegangen?<\/p>\n<p>Helena: Ja, also Whisper hat das durchaus geh\u00f6rt tats\u00e4chlich und das Ganze dann mit Binnen-I gegendert, das EinwohnerInnen. Also eigentlich auf eine Weise gegendert, wo man diese Sprachl\u00fccke nicht so wirklich drin hat, weil zu der Zeit, als ich das Binnen-I gelernt hatte, hat das noch niemand so gesprochen. Das ist erst sp\u00e4ter gekommen, als man so was wie das Sternchen hatte. Manchmal sieht man auch den Unterstrich. Manchmal wird ja auch noch der Doppelpunkt benutzt. Das hat Ahorn auch so gemacht. Ahorn hat den Doppelpunkt benutzt, w\u00e4hrend Flieder und Holunder jeweils das Sternchen benutzt haben. Und Feige hat das gar nicht benutzt und nicht gegendert. Was auch noch auff\u00e4llt, also ich hatte extra dazu geschrieben in die Aufgabenstellung, wir machen Whisper keine Vorgabe, wie es transkribieren soll. Also bekommen die Teilnehmer*innen dieser auch keine Vorgaben. Feige hat hier als einzige Person dann zum Beispiel noch A und B f\u00fcr die Sprechenden hinzugef\u00fcgt, n\u00e4mlich mein Beispiel 1 als A markiert mit Doppelpunkt und B Doppelpunkt dann das, was Helena gesagt hat. Das ist sozusagen eine Zusatzinformation, die hier mit reingekommen ist. Genauso wie bei Holunder zum Beispiel ersichtlich ist, dass am Ende steht, Sternchen lach Sternchen. Da ist also auch eine zus\u00e4tzliche Information noch mit reingekommen, die Whisper zum Beispiel nicht abbildet.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Aber Whisper erkennt einen Gender Gap sprachlich und markiert das auch irgendwie, was ist mir, weil wir das mit Sternchen in unseren Transkripten machen m\u00f6chten. Es dann aber trotzdem auch leicht macht, das mit Suchen und Ersetzen schnell zu \u00e4ndern \u00fcber das ganze Transkript hinweg.<\/p>\n<p>Helena: Das stimmt.<\/p>\n<p>Janine: Dann kommen wir mal zum n\u00e4chsten Beispiel. Helena und Janine reden \u00fcbereinander.<\/p>\n<h3>Beispiel 2 - \u00dcbereinander reden (00:44:42)<\/h3>\n<p>Beispiel 2. Die Linie h\u00e4tte man auch einfach nur l\u00e4nger zeichnen k\u00f6nnen. Vielleicht als Beispiel oder so.<\/p>\n<p>Janine: Sag du doch mal als erstes, was f\u00e4llt dir auf, wenn du auf die vier Personen und Whisper guckst?<\/p>\n<p>Helena: Ja, also wenn ich auf Whisper gucke, dann ist das einfach eine lange Zeile, wo das hatten wir generell schon als Thema \u00fcberhaupt nicht zwischen den Sprechenden unterschieden wird. Das ist jetzt erstmal der erste auff\u00e4llige Teil, w\u00e4hrend zwei Personen, n\u00e4mlich Flieder und Feige, jeweils das sehr deutlich unterscheiden. Ahorn macht es nicht und Holunder macht es einfach nur durch neue Zeile im Gegensatz zu denen, die dann noch Person 1 und 2 oder A oder B davor geschrieben haben, meine ich jetzt. Und hier f\u00e4llt auch wieder auf, dass das Lachen mit transkribiert wurde bei Ahorn und Flieder. Und ja, Feige hat genau das Problem auch gehabt und es angemerkt, dass die Reihenfolge nicht ganz eindeutig sei zwischen den beiden S\u00e4tzen, die da aufgeschrieben wurden. Ich meine, das war ja der Sinn von diesem Beispiel, genau das zu testen.<\/p>\n<p>Janine: Genau, ich habe gerade nebenbei versucht herauszufinden, was ich denn daraus gemacht habe, weil was ich auff\u00e4llig finde, es hat wirklich keine Person identisch aufgeteilt.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Bei Ahorn ist ja keine Unterscheidung zwischen den entsprechenden Flieder hat. Die Linie h\u00e4tte man auch einfach nur l\u00e4nger zeichnen k\u00f6nnen. Person 2 ja, vielleicht als Beispiel oder so. Person 1 ja. Das ist im Prinzip, was ich auch in unserem Transkript dann geschrieben habe, in dem das ver\u00f6ffentlicht wurde. Bei Holunder sieht es sehr \u00e4hnlich aus, allerdings ist da das H\u00e4tte man irgendwie zweimal reingerutscht.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Da ist sozusagen ein Wort da, das gar nicht gesprochen wurde. Bei Feige sind viel mehr Wechsel vorhanden.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Und das ist auch was, was ich so aus der Erfahrung von den Transkripten, die wir auch beim haecksenwerk angefertigt haben bisher, aufgefallen ist, dass manchmal Menschen, die beim Transkribieren helfen, wenn sie nicht mit den Stimmen vertraut sind, tats\u00e4chlich Probleme haben, diese auseinander zu halten. Was einfach daran liegt, dass man sich unglaublich stark darauf konzentrieren muss, sobald \u00fcbereinander geredet wird, auch f\u00fcr Menschen.<\/p>\n<p>Helena: Und das passiert ja relativ schnell.<\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: Man k\u00f6nnte nat\u00fcrlich, weil wir unterschiedliche Tonspuren aufnehmen, das theoretisch ja trennen, aber das w\u00e4re auch Aufwand, weil es ja inhaltlich manchmal auch keinen Sinn ergibt, das zu trennen.<\/p>\n<p>Janine: Also das ist tats\u00e4chlich schon auch was, was ich mache im Schnitt manchmal, dass ich gucke, wenn die Option besteht, Worte, die gleichzeitig gesprochen werden, vielleicht in kleinen Sprechpausen leicht zu verschieben. Aber ab einer gewissen Spannbreite ergibt es einfach gar keinen Sinn mehr, das zu verschieben. Und dann hei\u00dft es nur, entweder bleibt es drin oder es wird komplett rausgel\u00f6scht. Ja, das sind so die Produktionsentscheidungen dann. Genau, kommen wir mal zu Beispiel drei. Hier war der Fokus auf den Auslassungspunkten, was ich nat\u00fcrlich vorher niemandem gesagt habe, worauf die letzte Fokus lag.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Weil sonst h\u00e4tte es ja weniger Spa\u00df gemacht. H\u00f6ren wir mal kurz rein.<\/p>\n<h3>Beispiel 3 - Auslassungspunkte (00:48:03)<\/h3>\n<p>Janine: Beispiel drei. Ich hatte noch eine vierte Sache genannt, die kumulierte H\u00e4ufigkeit. Was zum... ist das?<\/p>\n<p>Janine: So, das hatte mich n\u00e4mlich tats\u00e4chlich interessiert, weil Whisper wirklich Auslassungspunkte geschrieben hat.<\/p>\n<p>Helena: Ja, Whisper hat Auslassungspunkte benutzt, aber auch drei der vier Transkribierenden. Und die Personen, die nicht die Punkte benutzt haben, hat es mit Pause markiert.<\/p>\n<p>Janine: Was daran ersichtlich ist, dass sowohl Menschen die Konvention erkannt haben, hier wird etwas bewusst nicht gesagt, als auch, dass Whisper diese Sprechpause tats\u00e4chlich markiert hat. Also, obwohl ja sonst eigentlich extra Informationen von Whisper nicht geliefert werden, sowas wie Lachen oder andere Dinge, Sprecherwechsel und dergleichen.<\/p>\n<p>Helena: Was sich auch immer unterscheidet, sowohl bei Whisper als auch zwischen den Transkribierenden, ist die Interpunktion.<\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: Hier hatten jetzt zum Beispiel auch zwei Leute Doppelpunkte gesetzt, was ich auch sehr gut nachvollziehbar finde. Und Whisper einmal einen Punkt gesetzt hatte und wir haben es zweimal laufen lassen auf diese Beispiele und einmal ein Komma.<\/p>\n<p>Janine: Das ist mir tats\u00e4chlich auch aufgefallen, dass die Interpunktion, die Whisper zur Verf\u00fcgung stellt, eine reduzierte Palette ist. Also es gibt Punkt und Komma bei Whisper, aber Doppelpunkte oder gar ein Semikolon werden in dem Sinne nicht gesetzt, um S\u00e4tze strukturieren zu k\u00f6nnen.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Aber von Menschen. Und hier auch wieder, Menschen k\u00f6nnen da wahrscheinlich auch anders drauf h\u00f6ren, wie Sprechpausen zu interpretieren sind. Wobei Whisper ja die Auslassungspunkte erkannt hat.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Dann kommen wir doch mal zu Beispiel vier, das ich v\u00f6llig versaut habe, weil eigentlich wollte ich den Abschnitt nehmen, wo die Schokoladenkurve als erstes drin vorkam. Aber naja, h\u00f6ren wir mal in das Beispiel rein.<\/p>\n<h3>Beispiel 4 - Satzzeichen und -l\u00e4nge (00:49:57)<\/h3>\n<p>Beispiel vier. Manche Leute sind gr\u00f6\u00dfer, manche kleiner, aber wenn man alle zusammenz\u00e4hlt, hat man halt nur so eine bestimmte Kurvenform. Das ist ja dann die Gaussche Glockenkurve. Beziehungsweise ist das eines der Modelle, die man da gut ranlegen kann. Und das kommt auch in der Physik sehr oft vor, deswegen bin ich da auch sehr mit vertraut. Und wenn man dann zwei solche Glockenkurven hat, die verschiedene Ursachen haben und in eine Grafik zeichnet, dann hat ja verschiedene Ursachen. Und deswegen, wenn ich dann zwei so glockenartige Dinge oder zwei H\u00fcgel sehe in so einem Histogramm, dann denke ich, da das sind doch wahrscheinlich zwei verschiedene Dinge zusammengemischt, zum Beispiel zwei Arten Pinguine. <\/p>\n<p>Janine: Das war jetzt etwas l\u00e4nger und wie gesagt, das war leider nicht der Abschnitt jetzt wie gesagt nicht der Abschnitt wo Whisper beim ersten Mal die Schokoladenkurve erkannt hat, sondern der Abschnitt aus der Folge, wo auch gleich die Gaussche Glockenkurve richtig erkannt wurde. Warum dieser Abschnitt aber trotzdem relativ interessant war, ist, was Helena eben schon gesagt hat: die Interpunktion. Weil es jetzt ein relativ langer Abschnitt war, wie das jetzt verteilt wird. Mein Eindruck ist, Whisper kann durchaus dazu neigen, sehr lange S\u00e4tze zu benutzen. <\/p>\n<p>Helena: Ja, das sind schon beeindruckend lange S\u00e4tze, also der letzte Satz ist bei der einen Whispervariante sehr lang.<\/p>\n<p>Janine: Wobei ich \u00fcberraschend find, dass beispielsweise Feige, gar keine Interpunktion so richtig benutzt, nein, tats\u00e4chlich gar keine.<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: Da ist nur der reine Text da, aber mit Gro\u00df-Klein-Schreibung und bei den anderen Personen gibt es auch wiederum Kommata, die alles strukturieren. Und tats\u00e4chlich neigt zum Beispiel Holunder zu einem wesentlich l\u00e4ngeren Satz als Whisper. Das ist ja dann die Gau\u00dfsche Glockenkurve, bzw. ist das eines der Modelle die man da gut ranlegen kann und das kommt auch in der Physik sehr oft vor, deswegen bin ich da auch sehr vertraut und wenn man dann zwei solche Glockenkurven hat, die als verschiedene Ursachen haben und in eine Graphik zeichnet, dann hat ja verschiedene Ursachen und deswegen wenn ich dann zwei so glockenartige Dinge oder zwei H\u00fcgel sehe so in einem Histogramm, ja dann denke ich das sind doch wahrscheinlich zwei verschiedene Dinge zusammengemischt, zum Beispiel zwei verschiedene Arten Pinguine... . Da war kein Punkt zwischen.<\/p>\n<p>Helena: Aber Kommas. <\/p>\n<p>Janine: Genau, aber Kommata. Und Whisper hat mehr Punkte verteilt. Ich glaube ich neige auch eher dazu weniger Punkte zu verteilen, wenn ich selber transkribiere w\u00fcrde. Einfach weil m\u00fcndliche Sprache nicht extrem so dazu gedacht ist, in vollst\u00e4ndigen S\u00e4tzen zu reden. Also die ist durchaus viel flexibler als schriftliche Sprache und hier wird halt einfach m\u00fcndliche Sprache verschriftlicht. Und ich denke mal aufgrund der 30 Sekunden, die Whisper sich rausnimmt, kann es vielleicht doch dazu kommen, dass mehr Punkte gesetzt werden, als wenn Menschen trankribieren. <\/p>\n<p>Helena: K\u00f6nnte sein.<\/p>\n<h3>Beispiel 5 - Daran vs. Darin (00:52:49)<\/h3>\n<p>Janine: Gut, dann Beispiel 5. Daran vs. Darin. Habe ich es genannt, das Problem hier. <\/p>\n<p>Helena: Ja, gut. Das war jetzt diese Folge. Und ja, die n\u00e4chste Folge erscheint am 17. Juni. Und daran geht es um nat\u00fcrliche Experimente.<\/p>\n<p>Helena: Ah ok, hier war das Ding, dass alle darin schreiben, aber Whisper daran.<\/p>\n<p>Janine: Genau.<\/p>\n<p>Helena: Und was haben wir gesagt?<\/p>\n<p>Janine: \u00c4hm, daran. Also beziehungsweise es war ein Daran, dass vielleicht kurz vor Ende des Wortes noch zu einem darin geworden w\u00e4re sein k\u00f6nnte. Aber es klingt tats\u00e4chlich wie ein daran. Aber ich habe mich dann tats\u00e4chlich auch dazu entschieden ein darin daraus zu machen. Also manchmal erkennt Whisper Sachen korrekt...<\/p>\n<p>Helena: Ja.<\/p>\n<p>Janine: ... aber vielleicht entscheidet sich dann der Mensch, der f\u00fcr ein Transkript verantwortlich ist, trotzdem daf\u00fcr es nicht zu \u00fcbernehmen, sondern das richtige Wort zu schreiben, damit es einfach beim Lesen angenehmer ist.<\/p>\n<p>Helena: Ja, weil daran ist ja eindeutig ein Versprecher. <\/p>\n<p>Janine: Ja.<\/p>\n<p>Helena: Das ergibt ja keinen Sinn das Wort an dieser Stelle, das ist schon richtig, wenn man sagt darin. Gut, das haben die Menschen auch alle hingekriegt. Und Whisper hat halt das Wort, was gesagt wurde, genommen. <\/p>\n<p>Janine: Ein bisschen spannend war, dass Flieder tats\u00e4chlich am 3. Juni geschrieben hat, schlicht und ergreifend verh\u00f6rt vielleicht oder kurz was anderes gemacht und dann einfach eine 3 ran gesetzt statt des 17. Juni. Aber ja, Fehler k\u00f6nnen halt auch Menschen passieren. Gut, dann kommen wir noch zum letzten Beispiel. Das ist auch noch mal ein langes, weil ich da eigentlich das mit der Interpunktion noch mal mit erfassen wollte, aber es geht an sich um ein doppelt vorkommendes Wort, das wir jetzt mal kurz h\u00f6ren werden. <\/p>\n<h3>Beispiel 6 - irgendwie ... irgendwie (00:54:37)<\/h3>\n<p>Janine: Beispiel 6.<\/p>\n<p>Helena: Bezogen auf das US-Milit\u00e4r. Ich habe jetzt keine Informationen \u00fcber irgendwie den Stand irgendwie in Deutschland oder so, wo das Konzept ja ein bisschen anders funktioniert, wie die Leute ausgew\u00e4hlt werden. Aber die These ist jetzt einfach, dass Leute, die weniger Optionen in ihrem Leben haben, zu gestalten, was sie eigentlich in ihrem beruflichen Leben machen wollen, eher dann auch zum Milit\u00e4r gehen. Und Leute, die eher weniger Optionen haben, potenziell auch die Leute sind, die eher weniger verdienen.<\/p>\n<p>Janine: Ja, was habe ich hier gemacht? Ich habe einfach nur geguckt, wie Menschen mit dieser doppelten Erw\u00e4hnung des Irgendwies, was ja dann auch eigentlich \u00fcberfl\u00fcssig ist, umgehen. Helena sprach, ich habe jetzt keine Informationen \u00fcber irgendwie den Stand irgendwie in Deutschland. Und das hat jede Person auch so erfasst. Und Whisper hat es, als die Folge transkribiert wurde, einfach ausgelassen. Da hat Helena schlicht und ergreifend gesagt, ich habe jetzt keine Informationen \u00fcber den Stand in Deutschland.<\/p>\n<p>Helena: Also keines von den beiden Irgendwies transkribiert.<\/p>\n<p>Janine: Was aber lustig ist, ist, ich habe die Beispiele Whisper auch noch mal transkribieren lassen, die kurze Datei mit allen Beispielen zusammen. Da sind beide Irgendwies mit drin.<\/p>\n<p>Helena: Ja, macht schon nicht immer dasselbe.<\/p>\n<p>Janine: Und was Whisper beim zweiten Mal auch gemacht hat, ist mein Vielen Dank f\u00fcrs Mitmachen, dass ich am Ende dieser Audiodatei eingesprochen habe, hat es nat\u00fcrlich auch transkribiert. Und das haben auch zwei Personen gemacht, die uns geholfen haben, dieses Experiment durchzuf\u00fchren. Ach so, ja, und was hier auch noch mal zu sehen ist, sind wieder die Sachen mit den Doppelpunkten. Flieder schrieb zum Beispiel bezogen auf das US-Milit\u00e4r-Doppelpunkt, ich habe jetzt keine Informationen, bla bla bla. Das macht Whisper hier auch wieder nicht und erkennt sozusagen diese Marker nicht, wann Menschen in Doppelpunkten sprechen und wann nicht. Oder es ist schlecht untergreifend egal, weil es ja eigentlich mit einem Komma vielleicht genauso gut, aber eben nicht so exakt abgebildet wird.<\/p>\n<p>Helena: Ja, ich meine, bei gesprochener Sprache ist das vielleicht meistens noch okay, aber w\u00fcrde man jetzt wirklich eine Auflistung aufz\u00e4hlen oder so, wo man das ja immer \u00fcber Doppelpunkte und dann halt eine Stichprojektliste oder so macht, ja, dann ergibt es irgendwie keinen Sinn, dass da kein Doppelpunkt landet. Aber Whisper w\u00fcrde ja nicht mal Aufz\u00e4hlungspunkte hinkriegen.<\/p>\n<p>Janine: Das denke ich auch, ja. Ich sehe gerade noch, Feige hat zum Beispiel eine Sache gemacht, die ich, wenn ich Texte schreibe, auch super gerne mache und zwar transkribiert, was sie eigentlich in ihrem beruflichen Leben machen wollen und hat hier beruflichen gro\u00dfgeschrieben. Und das mache ich auch super gerne, solche Adjektive, die ich selbst als irgendwie wichtig empfinde, schreibe ich meistens automatisch gro\u00df und muss es dann sp\u00e4ter noch mal korrigieren, wenn ich einen Text zum zweiten Mal lese.<\/p>\n<p>Helena: Ja, ich schreibe meist die Adjektive gro\u00df und dann die Nomen dahinter klein.<\/p>\n<p>Janine: Ja, das passiert mir auch \u00f6fter dann, dass ich das einfach komplett umdrehe. Manchmal wird beides gro\u00df und ja.<\/p>\n<p>Helena: In dem Moment, wo ich das Adjektiv schreibe, ist das f\u00fcr mich ein Ganzes irgendwie, das geh\u00f6rt ja zu den Nomen, denke ich halt an das Nomen schon und schreibe es dann halt gro\u00df.<\/p>\n<p>Janine: Also, ich fand, ich hoffe, beim Zuh\u00f6ren ging euch das \u00e4hnlich, diesen Vergleich tats\u00e4chlich teilweise ziemlich spannend und ich hoffe, ich habe da auch f\u00fcr euch spannende Beispiele rausgesucht. Was mir dabei auf jeden Fall aufgefallen ist, ist so richtig diese Bedeutung von Zusatzinformationen in Transkripten. Und deswegen w\u00fcrde ich einfach sagen, kommen wir jetzt in ein sch\u00f6nes knackiges Fazit. <\/p>\n<h3>Fazit (00:58:20)<\/h3>\n<p>Helena: Ja, also mein Fazit ist, Whisper ist sehr n\u00fctzlich und spart auch sehr viel Zeit. Aber man muss auch bedenken, wo dann die Grenzen sind, weil sowas wie, dass man lacht und so, das hilft ja durchaus, wenn man einen Text liest, auch dabei zu erkennen, was eigentlich so eine emotionale Bedeutung eines Satzes ist. Das kriegt Whisper nat\u00fcrlich nicht hin. Und das ist ein generelles Problem von Transkripten, dass man das irgendwie auch transportieren muss.<\/p>\n<p>Janine: Genau. Und mich hat das halt auch dazu gebracht, gerade wo ich jetzt auch gesehen habe, wie unsere menschlichen Teilnehmer*innen da agiert haben, dass ja irgendwie Menschen doch sehr wichtig ist, was da passiert. Wir hatten, wie gesagt, keine Vorgaben gemacht, aber mehrere hatten an unterschiedlichen Stellen eben sowas wie Emotionen, Lachen oder so mit erw\u00e4hnt und so Zusatzinformationen reingegeben, die jetzt ein Mensch, der nur das Transkript liest und nicht die Podcast-Folge h\u00f6rt oder nicht h\u00f6ren kann, dass diesem Menschen halt auch die Informationen fehlen und damit auch die grunds\u00e4tzliche Stimmung, die wir beim Podcasten so haben. Und dass das f\u00fcr Menschen doch sehr wichtig zu sein scheint, Whisper hingegen ja v\u00f6llig egal ist, weil es geht eben um den Text, daf\u00fcr wurde es gemacht.<\/p>\n<p>Helena: Ja, au\u00dferdem, wenn man sich nur den Text anguckt, dann schneidet Whisper schon im Mensch-Maschine-Vergleich ziemlich gut ab. Menschen machen halt auch ab und zu Fehler, genauso wie Whisper. Also man muss, glaube ich, in beiden F\u00e4llen, wenn man komplette Transkripte von einem Menschen machen w\u00fcrde, auch da nochmal einen Schritt haben, dass dann jemand anders das sich nochmal anh\u00f6rt, parallel zum Lesen wahrscheinlich, wenn man Qualit\u00e4tskontrolle machen w\u00fcrde, so wie bei Whisper ja auch.<\/p>\n<p>Janine: Mir ist jetzt noch eingefallen, ich habe eine Frage bekommen gehabt, das passt jetzt vielleicht ins Fazit noch ganz schnell, weil wir haben ja sowas erw\u00e4hnt, wie sprechende Personen werden nicht unterschieden. K\u00f6nnte jetzt eigentlich f\u00fcr uns das noch besser gemacht werden? K\u00f6nnten wir selber unsere korrigierten Transkripte, so wie wir es gerne h\u00e4tten beispielsweise, zur\u00fcckf\u00fcttern zu Whisper und dadurch dann f\u00fcr unsere individuelle Anwendung das besser machen?<\/p>\n<p>Helena: Also ich meine, wenn Whisper eben nicht in der Lage ist, Menschen auseinanderzuhalten und die Information zu geben, bringt es auch nichts, das Whisper selber zur\u00fcckzuf\u00fcttern. Da w\u00e4re es eher naheliegend, dass man eben diese Zeitstempel in dem Text mit nutzt und dann nochmal ein anderes neuronales Netz, was einfach nur auf unsere Stimmen zur Klassifizierung trainiert ist, dass es das dann nochmal auseinander dividiert. Das sagt, zu welchen Zeitpunkten hat wer geredet. Da k\u00f6nnte man den Text hinterher dann mit nachbearbeiten mit dieser Information.<\/p>\n<p>Janine: Ja und jetzt aber so inhaltliche Korrekturen beziehungsweise so andere Sachen, die korrigiert werden, jetzt nicht nur Sprecher*innen. K\u00f6nnte man das auch zur\u00fcckgeben und Whisper damit f\u00fcr sich selbst besser machen oder m\u00fcsste das auch \u00fcber die individuelle eigene Stimmtraining dann sozusagen laufen?<\/p>\n<p>Helena: Also ich kann das jetzt gerade nicht einsch\u00e4tzen, wie viel jetzt irgendwie ein paar Stunden Audio helfen, aber man hat ja das Modell und beim maschinellen Lernen ist es \u00fcblich, dass man ein Modell hat und auf Basis dessen halt weiter trainiert. Das hei\u00dft, das Modell, was wir uns runterladen k\u00f6nnen, k\u00f6nnen wir auch genauso benutzen, um das weiter fortzutrainieren mit unseren eigenen Daten.<\/p>\n<p>Janine: Ahja, okay. <\/p>\n<p>Helena: Das haben wir jetzt nicht gemacht. Das w\u00e4re sicherlich auch einiges an Aufwand irgendwie herauszufinden, wie man eigentlich Whisper trainieren kann weiter, wie das technisch, weil man technisch daf\u00fcr alles irgendwie umsetzen m\u00fcsste. Aber im Prinzip w\u00e4re das m\u00f6glich, dass man, gerade wenn man jetzt irgendwie noch mehr als wir haben an Texten, dass man da nochmal 100 Stunden oder so drauf trainiert. Ich wei\u00df halt nicht, wie stark die Verbesserungen werden, aber ich kann mir schon vorstellen, dass das was bringt. Ich meine, das sind ja irgendwie hunderttausend Stunden. Wie viele Stunden haben wir jetzt schon trainiert? Auch schon irgendwie sechs oder so.<\/p>\n<p>Janine: Ja, circa, ja.<\/p>\n<p>Helena: Wenn man sich jetzt irgendwie, keine Ahnung, ein gr\u00f6\u00dferes Podcast-Label anguckt, f\u00fcr die w\u00fcrde das schon Sinn machen, wenn die auch selber in einem Jahr einige hundert Stunden produzieren, bis tausend Stunden. Das ist dann schon mindestens ein Prozent mehr Daten mit tendenziell einer h\u00f6heren Qualit\u00e4t, wenn sie selber verbesserte Transkripte nutzen. K\u00f6nnte sich lohnen.<\/p>\n<p>Janine: Ja, spannend. Gut, und damit sind wir dann tats\u00e4chlich durch. Wir haben festgestellt, Whisper funktioniert f\u00fcr uns ziemlich gut, f\u00fcr unsere Zwecke, weil wir das so anbieten m\u00f6chten, dass unsere gesprochenen Worte auch tats\u00e4chlich im Volltext zug\u00e4nglich sind f\u00fcr Menschen. Aus verschiedenen Gr\u00fcnden kann das ja helfen. Und genau, ist eine sinnvolle Sache. Wer es wirklich fehlerfrei haben will, muss dennoch manuell ein bisschen nachbearbeiten, beziehungsweise in die eigene angenehme Struktur bringen, sodass das dann auch leserlich ist und gut mit Abschnitten unterteilt ist. Und wir k\u00f6nnen mal \u00fcberlegen, ob wir k\u00fcnftig in Transkripten vielleicht auch ein bisschen Emotionen mit einbauen. Ich wei\u00df es noch nicht. Es scheint auf jeden Fall f\u00fcr Menschen relevant zu sein.<\/p>\n<h3>N\u00e4chste Folge: erscheint bestimmt (01:03:49)<\/h3>\n<p>Helena: Ja, ja, und unsere n\u00e4chste Folge erscheint bestimmt. Und ich hoffe, heute nach der Aufnahme entscheidet sich dann auch das Thema.<\/p>\n<p>Janine: Ja, aber wir versprechen jetzt an dieser Stelle erst mal noch nichts. Es ist ja auch ein bisschen Sommer, deswegen erscheint diese Folge hier auch etwas au\u00dferhalb des Rhythmus, wie ihr vielleicht festgestellt habt, aber der Sommer ist eben der Sommer. Und wenn wir nicht gleichzeitig Urlaub machen, dann verteilt sich das ganz gut. <\/p>\n<p>Helena: Ja.<\/p>\n<h3>Call to Action (01:04:20)<\/h3>\n<p>Janine: Wenn ihr die n\u00e4chste Folge nicht verpassen m\u00f6chtet, folgt uns doch auf mastodon unter at datenleben at podcasts.social oder auf Twitter unter at datenleben. Besucht gerne unsere Webseite www.datenleben.de und hinterlasst uns da auch gerne Feedback. Dar\u00fcber freuen wir uns, auch wenn es nur ein Chat-GPT-Spam-Feedback ist, das sehr lustig war. Ja, ihr k\u00f6nnt uns als Data Scientist auch buchen f\u00fcr Analysen oder Projekte. Und falls ihr irgendwelche Fragen habt oder Themen, die euch interessieren und ihr uns die vorschlagen m\u00f6chtet, dann schreibt uns.<\/p>\n<p>Helena: Dann bleibt mir nur noch, f\u00fcr eure Aufmerksamkeit zu danken und bis zum n\u00e4chsten Mal.<\/p>\n<h3>Outro (01:05:05)<\/h3>\n","protected":false},"author":2,"featured_media":800,"comment_status":"open","ping_status":"open","template":"","meta":{"footnotes":""},"tags":[],"class_list":["post-803","podcast","type-podcast","status-publish","has-post-thumbnail","hentry","post"],"_links":{"self":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/803","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes"}],"about":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/types\/podcast"}],"author":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/comments?post=803"}],"version-history":[{"count":5,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/803\/revisions"}],"predecessor-version":[{"id":808,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/episodes\/803\/revisions\/808"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/media\/800"}],"wp:attachment":[{"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/media?parent=803"}],"wp:term":[{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.datenleben.de\/index.php\/wp-json\/wp\/v2\/tags?post=803"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}