Künstliche Intelligenz in der Musikindustrie

KI Musik nur Schema F?

Stand: 7.3.2024, 16:11 Uhr

Autor/in: Felix Zink

Künstliche Intelligenz ist das bestimmende Thema in der Tech-Branche. Seit OpenAI 2022 seinen Chatbot "ChatGPT" veröffentlicht hat, erscheinen beinahe täglich neue Anwendungen mit künstlicher Intelligenz.

Auch in der Musikindustrie wird KI verwendet und hat das Potential, die Branche auf den Kopf zu stellen. Brauchen wir bald keine Menschen mehr, um Musik zu machen? SWR Wissen hat mit einem Musiker, der mit KI experimentiert und einer Professorin für KI in audiovisuellen Medien gesprochen.

Die KI als Filter

Nico Höfele produziert unter dem Künstlernamen „Saltywax“ samplebasierte Housemusik. Er nimmt einzelne Ausschnitte von Songs, sogenannte Samples, aus bereits bestehenden Musikstücken und isoliert daraus zum Beispiel einzelne Instrumente, wie den Bass, das Schlagzeug oder den Gesang. Bisher machte er das händisch mit einer Software. Mittlerweile experimentiert er dafür mit einer künstlichen Intelligenz.

SWR Wissen: Wo liegt der Vorteil, diese Samples mit einer KI herauszufiltern?

Nico Höfele: „Es geht einfach darum, dass es sehr schnell geht. Die Sachen kann man genauso gut händisch machen. Leute, die sich in diesem sample-basierten Musikbereich aufhalten, machen das auch schon ewig. Dass AI das jetzt auch kann ist ein praktisches Tool, wenn man nicht viel Zeit aufwenden will.“

Musiker Nico Höfele an seinem Schreibtisch — Nico Höfele an seinem Schreibtisch zu Hause. SWR

KI ermöglicht letzten Song der Beatles

Ein bekanntes Beispiel für den Einsatz dieser Technik ist der neue Song der Beatles, der im November 2023 veröffentlicht wurde. Obwohl die Beatles sich vor über 50 Jahren getrennt haben und John Lennon lange tot ist, wurde der Song „Now and Then“ veröffentlicht. Grundlage für den Song war eine Aufnahme von John Lennon. Den Song schrieb er Ende der 70er Jahre und nahm ihn zu Hause selbst auf. Das Problem: Ein lautes Störgeräusch – vermutlich von seinem Kühlschrank. Eine KI konnte die Stimme von John Lennon isolieren.

The Beatles - Now And Then

Prof. Heike Adel-Vu ist Professorin und lehrt und forscht an künstlicher Intelligenz für audiovisuelle Medien an der Hochschule der Medien in Stuttgart. Sie kennt das neue Beatles Stück.

SWR Wissen: Wie funktioniert die Technik, die John Lennons Stimme aus seiner Aufnahme isolieren kann?

Prof Adel-Vu: Also die Modelle, die da dahinterstehen, die nennen sich demixing oder Audio Source Separation Modelle. Ziel dieser Modelle ist es, in einer komplexen Aufnahme einzelne Stimmen oder Instrumente zu isolieren. Das heißt, die KI-Systeme werden so trainiert, dass sie bestimmte Stimmen oder bestimmte Instrumente erkennen lernen, also erkennen, in welchen Frequenzbereichen die unterwegs sind. Und dann kann man in einer gegebenen Aufnahme diese Systeme verwenden, um diese Stimmen wie zum Beispiel die Stimme von John Lennon zu erkennen und dann zu isolieren.

Demixing wird in der Industrie schon aktiv verwendet. Es ist aber nur eine Anwendungsmöglichkeit von künstlicher Intelligenz in der Musik.

Eine Collage von Prof. Heike Adel-Vu vor der HdM Stuttgart — Prof. Heike Adel-Vu forscht und lehrt im Bereich der audiovisuellen Medien an der Hochschule der Medien in Stuttgart. IMAGO SWR imago

Musik auf Wunsch

SWR Wissen: Welche anderen Anwendungsgebiete gibt es für künstliche Intelligenz im Bereich der Musikproduktion?

Prof. Adel-Vu: „Das geht vom Auffinden ähnlicher Musikstücke oder Samples über das Extrahieren von Spuren in komplexen Musik-Signalen bis hin dann eben zu Adaptionen von Musikstücken auf bestimmte Stilrichtungen vielleicht oder auch bis hin zur Generierung von Musik, Melodien, Rhythmen.“

Mit der sogenannten prompt-based Generierung können mittlerweile ganze Musikstücke erstellt werden. Der Anwender beschreibt dabei, was generiert werden soll. Etwa welche Instrumente verwendet werden sollen oder welches Gefühl die Musik vermitteln soll.

SWR Wissen: Worauf kommt es bei einem Prompt an, damit auch das Ergebnis rauskommt, das man erwartet?

Prof Adel-Vu: Ja, das ist im Prinzip eine sehr große Herausforderung, diesen Prompt, also diese Textbeschreibung, so gut zu formulieren, dass man dann eben auch das bekommt, was man erwartet, weil diese Modelle auch sehr stark abhängig sind von diesen Prompts. Das bedeutet, wenn man nur ein kleines Detail ändert, kann man eine komplett andere Ausgabe bekommen. Und da im Prinzip das Richtige zu finden, das ist inzwischen eine eigenständige Engineering- und Forschungsrichtung geworden.

Die KI ist (noch) nicht perfekt

Die KI kann Nico Höfele derzeit nicht die gesamte Arbeit abnehmen. Für ihn ist das Arbeiten mit ihr derzeit eher ein Experiment.

Nico Höfele: Man hört das schon raus teilweise, dass da noch Fragmente dabei sind. Dass man ein bisschen noch die Drums im Hintergrund hört, als würden die im Raum gegenüber spielen. Das ist wie eine Rohform. Dann kann ich daran weiterarbeiten. Es beschleunigt den Prozess, ersetzt ihn aber nicht.

Weil die KI bisher keine besseren Ergebnisse für Nico Höfele liefert, ist sie bei ihm noch kein fester Bestandteil in seiner Arbeit. Ausschließen möchte er das aber nicht, vorausgesetzt, die KI entwickelt sich weiter.

Nico Höfele: „Wenn ich der KI jetzt sagen könnte, mach mir mal ne Conga-Line in einem Loop, die klingt, als hätte sie Donald Byrd gespielt und dann kommt genau sowas raus. Dann könnte ich mir schon vorstellen das zu benutzten. Aber weil das noch nicht so ist, besinne ich mich darauf zurück den echten Donald Byrd zu samplen und irgendwelche Platten rauszuziehen.“

Kann KI kreativ sein?

Die KI greife laut Prof Adel-Vu auf eine große Datenbank zurück, vergleiche die Anfrage mit schon bestehender Musik und generiere damit ein Ergebnis.

SWR Wissen: Wie neu ist das generierte Ergebnis dann überhaupt?

Prof Adel-Vu: Wie komplett neu das ist, darüber kann man vermutlich streiten, weil diese Modelle sind schon sehr datenabhängig. Das heißt, jetzt etwas zu generieren, was echt über die Trainingsdaten hinausgeht, ist Stand heute sehr schwierig.

SWR Wissen: Kann man jetzt überspitzt sagen, dass die KI eigentlich nur ein Schüler ist, der abschreibt?

Prof Adel-Vu: Könnte man sagen. Also natürlich steckt eine gewisse Generalisierung und auch ein gewisses Zufallsprinzip dahinter. Aber im Prinzip lernt die KI die Trainingsdaten auswendig und generiert dann etwas, was so ähnlich ist.

SWR Wissen: Also ist eine KI eigentlich völlig unkreativ?

Prof Adel-Vu: Darüber kann man sich streiten vermutlich. Aber da sie sehr datenabhängig sind, die KI-Systeme, ist die Kreativität sehr beschränkt. Es ist nicht vergleichbar mit menschlicher Kreativität.

SWR Wissen: Wird es das vielleicht mal sein? Werden wir in Zukunft eine KI haben, die uns kreativ über den Kopf wächst?

Prof Adel-Vu: Ich sage mal so, die KI-Systeme entwickeln sich aktuell ja sehr schnell. Also man kann schwer voraussehen, was in fünf Jahren sein wird. Man kann im Moment vermutlich nicht mal gut voraussehen, was in ein oder zwei Jahren sein wird. Aber so wie die Modelle aktuell trainiert werden, so wie der aktuelle Stand der Technik ist, denke ich nicht, dass wir da in eine Situation kommen, wo jetzt die KI tatsächlich den Menschen übernimmt.

Das vollständige Gespräch mit Prof. Adel-Vu gibt es in unserem Podcast „K.I. Oder K.O.“

Zurück zur Hauptseite

Themenschwerpunkt Was kann KI wirklich?

Was ist KI? Wie funktioniert sie? Kann KI Kunst generieren oder Musik komponieren? Wie umweltfreundlich ist KI? Welchen Sinn macht KI in der Schule oder an der Uni?

Mehr zu KI und Musik

Beats und Bytes Künstliche Intelligenz: Hören wir bald nur noch KI-Songs?

In wenigen Sekunden schafft KI neue Musik. Menschen, die vom Komponieren leben, machen sich Sorgen. Aber zurecht? Ein neues Experiment aus Hannover liefert Antworten.