
1️⃣ Mein Gespräch mit der Podcast-KI
Die besten Podcast-Momente sind für mich immer die, wenn die Hosts sich in einem Thema verlieren, für das sie gerade brennen. Ich kenne das auch als Podcast-Host: Wenn mich das Gespräch gerade fasziniert, entstehen Momente, auf die Hörer*innen einen oft ansprechen. Meine schlechtesten Podcast-Momente sind die, bei denen ich aus der Rolle des Fragestellers in die des Interviewten wechseln muss. Wenn ich den Fragesteller kenne, bin ich normalerweise entspannter. Was meint ihr, wie ich mich gefühlt habe, als ich mich auf ein Interview eingelassen habe, das von einer KI geführt wurde.
Dieser Text hatte Premiere in meinem wöchentlichen Newsletter
Hol dir zum Wochenwechsel Inspiration für deine neue Internet-Woche in deine Inbox
Mein Start-Prompt hat der KI kaum Vorgaben gemacht: Ich habe ChatGPT aufgefordert, ein Podcast-Rollenspiel zu spielen. Die KI spielt Podcast-Host KI-la Kolumna, die einführt, mich als Gast vorstellt und Fragen zu meinen Blogtexten im Anhang (PDF) stellt. Sie hört meinen Antworten zu und kann entscheiden, ob sie noch einmal mit einer Frage nachhakt oder die nächste Frage zu den Blogtexten stellt.
Das ist KI-la Kolumna: Wenn ihr in den letzten Jahren ab und zu in meinen Was mit Medien-Podcast reingehört habt, kennt ihr KI-la bereits. Schon lange bevor ChatGPT öffentlich startete, hatten wir unsere eigene Podcast-KI. Die hat Herrn Pähler und mich zum Beispiel beim Köpfe-Quiz begleitet. Allerdings hat KI-la noch nicht gesprochen, sondern durch Piep-Geräusche, wie wir sie vom Star-Wars-Droid R2-D2 kennen, mit uns kommuniziert. Für Herrn Pähler und mich hat sich die Stimme immer genauso angehört. Jetzt könnt ihr sie auch hören.
Schnell verflog mein gewohntes Unwohlsein als Interview-Gast, als die KI die Gesprächsführung für meinen Podcast übernahm. Es war zwar ein komisches Gefühl, als Gast im eigenen Podcast zu sein, befragt von Algorithmen. Womit ich nicht gerechnet hätte: dass wir uns während des Gesprächs in den Themen verloren haben – KI-la hat weitergedacht und bewertet. Schon während des Gesprächs dachte ich: Oh, dieser Podcast würde sogar auch von den Hörer*innen gerne gehört werden.
Deswegen habe ich noch etwas an dem Experiment weitergepfeilt. Entstanden ist ein Podcast-Studio, damit ich mir das ganze Geprompte sparen kann (das stelle ich euch weiter unten vor). Und KI-la hat eine eigene Stimme bekommen — so, wie wir sie uns immer vorgestellt haben.
Und wie klingt es nun, wenn eine KI-Stimme eine Podcast-Moderation nicht nur spricht, sondern auch inhaltlich gestaltet? Mit KI-la habe ich eine Audio-Fassung meines letzten Newsletters („Scrollen ohne schlechtes Gewissen“) erstellt und, um es noch um eine Meta-Ebene zu erhöhen: Ihr hört auch die Gesprächs-Zusammenfassung dieses Newsletters, die durch die KI von Google NotebookLM (warum das wichtig ist, dazu später mehr) erstellt wurde. Hier könnt ihr die Folge hören:
Oder hier auch als Direktlink zum Teilen oder Hören via Podcast-App: WordPress-Image, Ghost-Strategiewechsel & die Zukunft des Audio-Bloggens
In dieser Folge der Audio-Ausgabe von Daniel Fienes Weblog geht es um ein für mich noch nie ausprobiertes Experiment: Eine Künstliche Intelligenz moderiert einen Podcast – und ich bin diesmal der Gast. Interviewt werde ich von der KI „K.I. La Kolumna“.
Inspiration für deine Internet-Woche: Wie kann die Audio-Begleitung für unsere Texte aussehen? Lasst uns diese Frage künftig immer stellen, wenn wir Texte im Internet veröffentlichen. Damit machen wir unsere Gedanken auch für die zugänglich, die lieber hören als lesen. Die jüngsten Medienwandel-Entwicklungen zeigen: Diese Zielgruppe ist nicht zu unterschätzen.
Aber was steckt hinter dem wachsenden Audio-Bedürfnis?
2️⃣ “Audio ist der Text der mobilen Generation”
Das hat mein ehemaliger Chefredakteur Michael Bröcker vor einigen Jahren zu unseren Rheinische-Post-Zeiten gesagt. Verbunden mit dem Auftrag an mich, Podcast-Konzepte für die Rheinische Post zu entwickeln. Wenig später hatte jede Zeitung, die etwas auf sich hielt, einen Podcast gestartet. Er hatte also recht.
Doch auch im Jahr 2025 entdecken wir neue Mediennutzungs-Trends, die Bröckers Audio-Weisheit bestätigen. Auf Youtube entsteht gerade eine neue Generation an Podcasts-Hörer*innen, die es nur gewohnt sind ihre Podcasts auf der Video-Plattform zu konsumieren. Youtube ist in den USA bereits die meistgenutzte Podcast-Plattform – und außerdem sogar die meisgenutzte Anwendung auf TV-Bildschirmen, neben Netflix oder linearem Fernsehprogramm.
Was ich in den letzten Jahren über die neue Rolle von Audio im Netz gelernt habe, stelle ich euch jetzt zusammen.
Meine Learnings:
- „Die Leute lesen nicht mehr – sie hören“ Das klingt dramatisch, trifft aber einen Nerv. Für immer mehr Menschen ist Audio die komfortablere Alternative zum Lesen geworden. Da viele Journalist*innen oder Blogger*innen aber lieber Texte lesen, um sich Inhalte zu erschließen, verpassen sie aber die Bedeutung dieser Veränderung in der Mediennutzung,
- Meine Beobachtung zur tatsächlien Audio-Mediennutzung:
- Viele Nutzer*innen klicken lieber auf „Play“, als sich durch einen langen Text zu arbeiten. Und: 📱 Spotify, YouTube & Co. machen es unglaublich einfach, Audio-Inhalte zu konsumieren – und das nicht nur nebenbei beim Kochen oder Joggen, sondern auch gezielt zur Wissensaufnahme.
- Besonders spannend: Viele Menschen konsumieren Inhalte außerdem, weil sie sich im Moment nicht mit ihren eigenen Gedanken beschäftigen wollen. YouTube läuft im Hintergrund, oft mit gesprochenem Wort statt Musik.
- Der dritte Grund warum sich User immer mehr für Audio entscheiden: 🎧 Audio ist zugänglicher als Text für das Gehirn. Es verbraucht weniger Energie um sich Inhalte aus gesprochenem Wort zu erschließen, als beim Lesen eines Textes.
Wechseln wir jetzt die Perspektive: Was gibt es für Medienschaffende zu lernen?
- User erwarten, dass Inhalte dort verfügbar sind, wo sie sich sowieso aufhalten – nicht nur auf Webseiten oder Apps von Medien, sondern auch auf Spotify, YouTube oder direkt in ihrem Messenger. Das klingt banal, aber ich sehe bei vielen Distributions-Strategien von Medienhäusern oder Medienschaffenden oft noch Nachbesserungsbedarf.
- Viele hören auch, wo früher gelesen wurde – das zeigt sich auch bei Medien wie Zeit, Krautreporter oder Table.Media, die Audio als essenziellen Zugangskanal nutzen. Das habe ich zum Beispiel in unseren Interviews für Was mit Medien gelernt: Als die Zeit die App für die Zeitung relaunchte, war Audio eins der meistgewünschten Features der User — was sich auch mit der intensiven Nutzung der bis dahin rudimentären Audio-Angeote deckte. Oder die Krautreporter, die als meistgenannten Grund für Fans der Marke, die aber zögern ein Abo abuschließen, folgendes nannten: Die Interessierten interessieren sich für die Inhalte, sind aber von den Texten abgeschreckt. Eine Audio-Fassung könnte sie überzeugen. Dann haben wir in den letzten Monaten beobachten können, wie Table.Media mit seinem Podcast das umkämpfte Feld der Morgenpodcasts für sich gewann. Plätze weit vorne in den Charts und im vergangenen Monat gab es eine Million Abrufe. Alle drei erreichen mit Audio also die Teile ihrer Zielgruppen, die sie sonst nicht erreichen würden.
- Medienschaffende lernen, dass sie mit Audio im Internet Geld verdienen können. Direkt bei den Usern – in Form von digitalen Abos. Die Leute sind eher bereit Geld für was mit Audio zu bezahlen, als bei herkömmlichen Bezahlschranken.
Aber wie ist das jetzt mit den KI-Stimmen? Anfang des Jahres habe ich ja noch abgewunken. Niemand will KI-Podcasts hören. Ja, die Stimmen sind besser geworden – aber am Ende fehlt das Menschliche. Einer von drei Erfolgsfaktoren eines Podcasts ist Companionship — das kann keine KI. Kein Wunder: Lokalnachrichten von der KI gelesen — für solche Podcasts gab es nur wenige Abrufe. Artikel von einer simplen Sprach-KI vorgelesen? Überschaubare Nutzung. Meine Ablehnung habe ich jetzt aber revidiert. Das waren die Auslöser:
- Kürzlich hatte ich euch schon eine Funktion von Googles Notebook LLM. Aus einem beliebigen Text erstellt eine KI ein zusammenfassendes Gespräch zwischen zwei Personen. Die Gespräche sind so gut, da versteht man jeden Text. Ich habe mir ganz viele Gespräche angehört und habe mich dabei ertappt, dass ich gar nicht mehr über die KI-Stimmen nachdachte – geschweige denn sie mich störten. Zum ersten Mal dachte ich bei KI-Audio: Okay, das wollen Leute wirklich hören.
- Dann mein Experiment mit KI-la Kolumna als Podcast-Host: Hier habe ich das zweite Mal gedacht, dass sich das Leute auch anhören würden.
- Und in der Zwischenzeit ist mit aufgefallen, dass ich Artikel der New York Times oft höre und die aktuelle Version schon so gut vorliest, dass ich meine überzeugte KI-kritische Haltung vergesse und mich auf die Inhalte konzentriere. Oft folgt im Anschluss ein Audio von echten Stimmen und die Mischung stimmt für mich. Soviel wie ich schon gehört habe, hätte ich in der gleichen Zeit nicht gelesen.
📌 Am Ende haben mich Konzepte überzeugt, bei denen die Audio-KI nicht einfach sauber spricht und gut klingt, sondern etwas mehr leistet: Komplexe Inhalte in einer Viertelstunde verlässlich runterbrechen, erklären und einordnen. Oder das unberechenbare Zusammenspiel zwischen KI und Mensch. Oder eine extrem fortgeschrittene Qualität des Sprechens.
Aber wie könnte ein Audio-Konzept zum Beispiel für ein Weblog aussehen?
3️⃣ Wie sieht die perfekte Audio-Begleitung für Blogs aus?
Nur ein Audio-Player? Oder das Audio auch im Blog-RSS-Feed eingebunden? Oder gleich ein eigener Podcast? Und vor allem: Was ist zu hören? Rund um Thomas Riedels Einladung zu Blogtastisch habe ich mir über die Rückkehr der Audio-Blogs im Jahr 2025 Gedanken gemacht. Hier ist das Ergebnis:
- 🧪 Schritt 1: Text-to-Speech? Nein danke.
KI-Stimmen sind besser geworden, keine Frage. Aber irgendwie fühlte es sich falsch an, meinen eigenen Blog von einer synthetischen Stimme vorlesen zu lassen – gerade wenn man selbst Podcaster ist. Ich wollte, dass es persönlich bleibt. - 🎙 Schritt 2: Selbst einsprechen.
Also habe ich meine Blogtexte selbst eingesprochen. Das klang gut, fühlte sich gut an – aber irgendwie auch wie ein Hörbuch. Zu glatt. Zu fertig. Zu wenig Blog. - 🌀 Schritt 3: Der „Second Stream“-Ansatz.
Am besten funktioniert hat am Ende ein lockeres Begleitformat: Ich spreche über das Thema meines Blogartikels, aber nicht 1:1 den Text. So entsteht eine Art Audioblog – nahbar, spontan, wie früher bei Twitter-Threads. Und das Beste: Es ist so unkompliziert, dass ich es regelmäßig machen kann. - 🤖 Bonus: KI als Co-Host
Ein weiteres Experiment: Ich habe ChatGPT meinen Blogtext gegeben und darum gebeten, mir dazu Fragen zu stellen – wie in einem Podcast-Interview. Das Ergebnis: verblüffend gut. Es war wie eine Radiomoderation im Dialog mit mir selbst – nur eben automatisiert. Und total spannend.
📌 Mein Learning:
Audioblogging muss nicht aufwendig sein. Es kann sogar Spaß machen – wenn man das richtige Format für sich findet. Theoretisch könnte man auch einfach neue Texte von der KI sprechen lassen, später dann durch die eigene Stimme oder eine eigene Audio-Blog-Episode updaten. Die Kombination aus Blog, Audio und vielleicht sogar einem KI-Gesprächspartner eröffnet ganz neue Möglichkeiten.
Schreibe einen Kommentar