Podcasts sind aus der Medienlandschaft nicht mehr wegzudenken. Ein neues KI-Tool kann nun auf Basis einzelner Dokumente oder Texte Gespräche wie in Podcasts generieren.
Neu ist die Idee nicht, aber Notebook-LM von Google bietet mittlerweile eine fast nicht mehr von echten Menschen unterscheidbare Qualität. Es kann beispielsweise wissenschaftliche Studien in ein Gespräch zwischen zwei Personen umwandeln und komplexe Inhalte verständlich und einem breiten Publikum zugänglich machen.
Aber wie unterscheidet sich der KI-generierte Podcast von einem von echten Menschen erstellten Podcast? Welche Grenzen haben die Podcasts? Und welche Auswirkungen könnten solche KI-generierten Inhalte auf die Medienlandschaft haben? Hier ein Überblick über die wichtigsten Fragen.
Wie funktioniert Notebook-LM?
Um ein Gespräch zu generieren, müssen Nutzerinnen und Nutzer lediglich ein Dokument in das Programm hochladen und den Button zum Generieren klicken. Das Programm benötigt dann etwa eine Minute, um den Text in ein Gespräch zu verwandeln.
Momentan unterliegt die Notebook-LM KI aber noch einigen Einschränkungen. Beispielsweise lassen sich nur Gespräche in englischer Sprache generieren und darüber hinaus kann auch weder die Anzahl der Sprechenden noch deren Stimme variiert werden.
Außer der Gesprächsfunktion bietet Notebook-LM auch eine Zusammenfassung des eingegebenen Texts, sowie Hilfe beim Erstellen weiterer Dokumente an. So lässt sich etwa ein Inhaltsverzeichnis, oder ein Briefing-Dokument generieren.
Wie realistisch klingen die generierten Gespräche?
Die KI erzeugt sehr realistische Stimmen, inklusive Füllwörtern, Lachen und natürlich klingenden "Atempausen". Daraus ergibt sich eine authentische Gesprächsqualität, die vergleichbar ist mit der von menschlichen Podcastern.
Es gibt jedoch auch gelegentlich kleine Fehler oder "Artefakte", an denen zu erkennen ist, dass es sich um künstliche Stimmen handelt. Beispielsweise werden Abkürzungen oft nicht korrekt ausgesprochen oder es gibt mechanisch klingende Verzerrungen. Artefakte sind dabei etwa einzelne Töne oder Geräusche, bei denen klar ist, dass sie nicht von einem Menschen stammen.
Es gibt aber auch deutliche Unterschiede in der Rollenverteilung der Sprechenden. Oft wirkt es so, als hätten beide Stimmen Expertenwissen und es fehlt die klare Struktur, die bei menschlichen Gesprächen zwischen Moderatoren und Experten üblich ist. Ebenso wechseln die generierten Personen häufig auch innerhalb des Gesprächs zwischen der Rolle des Moderators und des Experten hin und her.
Wie sieht es mit der inhaltlichen Qualität der KI-Podcasts aus?
Notebook-LM fasst Inhalte nicht nur zusammen, sondern fügt auch zusätzliche Informationen aus dem KI-Sprachmodell hinzu, um den Kontext verständlicher zu machen. So können beispielsweise komplexe wissenschaftliche Inhalte aufbereitet und verständlich gemacht werden.
Allerdings können auch Ungenauigkeiten oder sogenannte "Halluzinationen" auftreten, wie auch bei Chat-GPT oder anderen Chatbots. Halluzinationen nennt man es, wenn die KI unwahre Fakten hinzufügt und sich diese sozusagen ausdenkt. Google weist hierbei jedoch auch darauf hin, dass es sich bei der KI vorerst noch um ein Experiment handelt, bei dem solche Fehler vorkommen können.
Warum ist die Idee nicht neu?
Ähnliche KI-Modelle sind bereits seit längerer Zeit auf dem Markt und oftmals frei im Internet verfügbar. Besonders nah am Modell von Google ist beispielsweise die Hey-Gen KI, welche ebenfalls Texte in realistische Gespräche umwandeln kann. Aber es gibt auch andere Programme, welche ähnlich zum Google-Modell Fragen zu komplexen Themen beantworten können.
Die KI Perplexity-AI kann beispielsweise einfache Fragen zu alltäglichen Themen, aber auch spezifische Fragen zu zuvor hochgeladenen Dokumenten beantworten. In geringem Umfang ist dazu auch das neuste Modell der KI Chat-GPT in der Lage. Hier gibt es allerdings ein Limit für kostenlose Fragen.
Kann künstliche Intelligenz sicher genutzt werden?
Das Bundesministerium für Verbraucherschutz warnt davor, dass KI-Systeme für Verbraucherinnen und Verbraucher oft undurchsichtig und nicht nachvollziehbar sind. Fehler entstehen gerade dann, wenn die Systeme mit Daten trainiert wurden, die nicht hinreichend aktuell, repräsentativ und qualitätsgesichert sind. Außerdem können durch künstliche Intelligenz Falschinformationen, täuschend echt wirkende Inhalte - sogenannte "Deepfakes" - und strafbare Inhalte verbreitet werden.
Aus diesem Grund wurden durch die am 1. August 2024 in Kraft getretene Europäische "KI-Verordnung" gesetzliche Rahmenbedingungen geschaffen. Für KI-Systeme gelten durch dieses Gesetz Transparenzanforderungen und Kennzeichnungspflichten. Das heißt in Europa müssen KI-generierte Inhalte als solche kenntlich gemacht werden und für besonders riskante Systeme gelten strenge Qualitäts- und Verfahrensanforderungen.
Dennoch sollte man stets aufmerksam bleiben und auf Ungereimtheiten und kleine Fehler im Inhalt achten, um zwischen menschengemachten und künstlichen Inhalten unterscheiden können.
Mehr zum Thema KI
Gefahr durch manipulierte Inhalte Welchen Einfluss hat KI auf Wahlen?
Experten befürchten, dass im Zuge von Wahlen vermehrt KI zum Einsatz kommt, um Desinformationen zu verbreiten und die Menschen zu beeinflussen.