Das Kaninchen und die Schlange

Das Kaninchen und die Schlange

Werbung

 

Es liegt in der Natur von technischen Entwicklungen, dass ihre Auswirkungen entweder überschätzt oder unterschätzt werden. Im Moment scheint bei der Beurteilung von Musik kreierenden KIs vielleicht letzteres der Fall zu sein. Aber das könnte sich jetzt ändern.

In den letzten Wochen wurden zahllose Videos mit Liedern und Stücken gepostet, die mit Hilfe der KI „Suno“ generiert wurden. Was bei dieser KI besser als bei anderen KI-Modellen funktioniert, ist die Text zu Melodie-Umwandlung, bei der man der KI nicht nur eine musikalische Stilistik, sondern auch einen zu singenden Text vorgeben kann. Dies verleitet natürlich zu humoristischen Experimenten, wie Arno Lückers „Winterreise“-Neuvertonung, oder Alexander Strauchs Versuche, ohnehin schon unfreiwillig komische Wagner-Texte in verschiedenen Stilrichtungen wie Schlager oder Death Metal zu verballhornen.

Wie Kaninchen vor der Schlange sind wir fasziniert davon, wie schnell Musik generierbar ist, die erstaunlich „echt“ klingt und die meisten Menschen vermutlich gar nicht als KI-generiert erkennen würde, so „echt“ klingen die Stimm- und Instrumentalimitationen. Der Kenner kann dennoch immer noch kleine Artefakte im Audio erkennen und es gibt einen leichten „uncanny valley“ -Effekt, wenn die Stimme plötzlich mitten in einer Linie zum Chor wird, einfach, weil hier anscheinend verschiedene Audiosamples amalgamiert werden.

Gegenseitig versichern wir uns, dass die Ergebnisse recht langweilig oder durchschaubar sind, sich irgendwie um sich selbst drehen, in der Begleitung zu sparsam oder harmonisch uninteressant sind. Es entstehen immer wieder neue beruhigende Theorien, warum das alles noch viel zu primitiv sei, um uns Menschen vom Sockel zu stoßen.

Doch die Entwicklung geht unerbittlich voran. Im Grunde ist alles, was in den letzten Wochen gepostet wurde, schon wieder vollkommen obsolet und veraltet, denn gerade eben ging eine neue KI online, die alle bisherigen Modelle um Längen schlägt.

Sie heißt udio, und verleitete selbst meinen Kollegen und KI-Experten Ali Nikrang den Ausdruck „game changer“ zu verwenden. „Game changer“ in dem Sinne, weil hier nun eindeutig der Entwicklungsschritt in der Musik getan wurde, den ChatGPT und openAI in Sachen Grafik und Text schon gegangen sind.

Warum ist udio anders? Vordergründig kann die KI das, was auch SUNO kann, Texte in Musik umwandeln und dabei bestimmte Stile anwenden. Der Prompt bei udio ist allerdings wesentlich flexibler und versteht es, auch vage Beschreibungen in Musik umzusetzen und Texte selbst zu erfinden. Aber auch das allein ist noch nicht das Neue – was bei udio frappiert ist, dass die Audioqualität sich deutlich verbessert hat und alle noch „echter“ klingt als bisher. Aber damit nicht genug: udio klingt viel weniger „reproduzierend“ als die bisherigen Programme, sondern hat zum ersten Mal Anflüge von Originalität. Die mit udio erstellten Stücke kreisen nicht um sich selbst, sondern haben tatsächlich dramaturgische Verläufe und überraschende Wendungen. Auch die Harmonik ist wesentlich interessanter geworden und bringt Modulationen zustande, die man als wirklich interessant bezeichnen kann, natürlich nur dann, wenn man auch Parameter und Beschreibungen verwendet, die dies auch fordern.

Man könnte sich jetzt natürlich weiterhin einreden, dass das alles immer noch nicht so gut wie menschliche Kreativität ist. Aber leider haben die entstehenden udio-Songs sehr oft schon richtige „hooks“, die genau das erfüllen, was man von einem guten Song erwartet, nämlich eine gewisse Originalität. Dass diese Originalität von uns Menschen geliehen ist, ist klar. Irgendwoher müssen die ganzen Daten ja kommen.  Aber auch die Originalität eines menschlichen Kreativschaffenden baut auf dem auf, was man sich aus einem bestimmten kulturellen Umfeld aneignet.

Dies kann auch ein akademisches Umfeld sein. Viele ambitionierte Komponierende sind der Meinung, sie würden sich vom Mainstream absetzen, weil sie ausschließlich mit Topoi der Neuen Musik und dem Klischee von „unerhörten Klängen“ arbeiten. Dabei arbeiten sie sich meistens an existierenden Konzepten wie z.B. Spektralismus, Serialismus, New Complexity oder Konzeptmusik ab (die es alle schon seit langer Zeit gibt) und erweitern sie nur um kleine Details. Damit sind sie einer Beyoncé gar nicht so fern wie sie meinen, denn diese tut exakt dasselbe, indem sie zum Beispiel versucht, einem Genre wie Country noch ein paar neue Aspekte abzugewinnen: durch Variation und Extrapolation.

Um udio zu testen, habe ich ganz bewusst einen der berühmtesten und abgelutschtesten Texte der Popgeschichte eingegeben: „Yesterday“ von den Beatles. Ich habe auch in den Prompt „should sound like the Beatles” eingegeben, was sofort die Antwort ergab, dass dies leider „ohne die Erlaubnis dieser Künstler“ nicht möglich sei.

Dennoch liefert udio eine mehr als passable Beatles-Kopie ab, die an die lange für die Beatles gehaltene Band „Klaatu“ erinnert. Das ist „Yesterday“ aus einer Parallelwelt – so hätte der Song klingen können, wenn die Beatles ein paar andere Entscheidungen getroffen hätten.

Man beachte beim Hören die interessanten harmonischen Wendungen, die man eben auch von den Beatles erwarten würde, und die dennoch nicht konkret an einen bestimmten Song der Beatles erinnern (was ich erwartet hätte). Das ist der „game changer“ – Aspekt – udio kopiert nicht nur, sondern „erfindet“ selbst. Wie genau das funktioniert, wissen eventuell noch nicht einmal die Programmierer.

Mit udio kann man seinen sehr schnell kreierten Song beliebig erweitern – hierzu steht eine simple „extend“-Funktion zur Verfügung. Man kann neuen Text eingeben, ein instrumentales Zwischenspiel verlangen oder den Song in eine ganz neue Richtung bringen. Da udio standardmäßig immer schon zwei verschiedene Versionen eines „prompts“ erstellt, kann man sich hier fast wie in einem Abenteuerspielbuch entscheiden, welcher Weg einem besser gefällt. Udio bietet hier auch von sich selbst etwas an – so ist zum Beispiel der plötzliche Schlagzeugeinsatz im Alternativwelt-„Yesterday“ keine Idee von mir gewesen, sondern ein Angebot der KI. Einziger Nachteil: die Sektionen eines Songs sind immer um die 30 Sekunden lang. Aber auch das wird man wahrscheinlich in fortgeschritteneren Versionen ändern können. Rein theoretisch kann man sich endlose Progressive-Rock-Songs basteln, so wie sie früher Gruppen wie „Yes“ oder „Genesis“ auf Vinyl pressten.

Klar, das hat alles noch kleine Macken hier und da. Die an „Eleanor Rigby“ gemahnende Begleitung mit Pseudo-Cello holpert am Anfang ein bisschen vor sich hin, hat ein unisono wo es nicht wirklich passt, und schließt nicht richtig ab. Gleichzeitig ist sie aber harmonisch wesentlich interessanter als alles von SUNO. Der Song hat definitiv die Art von Originalität, die für die Beatles typisch war, ist sogar komplizierter als das Original. An einer Stelle „halluziniert“ die KI – ich hatte für die instrumentale Bridge keinen Text vorgegeben, dennoch wird irgendwie weitergesungen auf eine Art, die irgendwie richtig klingt, es aber nicht ist. Daraus entsteht auch der Schluss-Refrain, der in sich vollkommen überzeugend ist und den die KI eigenständig wiederholt, ohne dass ich sie dazu auffordere. Kleine Details überraschen – zum Beispiel sind die Schlagzeug-Fills gegen Ende keineswegs banal, sondern variieren ständig, vielleicht sogar mehr, als es Ringo Starr getan hätte. Auch die Bass-Begleitung ist keineswegs „Standard“ – ein Paul McCartney hätte es nicht viel besser gemacht. Die KI weiß irgendwie, dass die Band mehrstimmig singen sollte in diesem Stil. Es gibt auch harmonische Steigerungen, eine Dramaturgie und einen Spannungsverlauf, nicht nur ein bloßes Repetieren von Mustern. Damit ist der Song tatsächlich eines nicht: langweilig. Wenn KI aber nicht mehr langweilig ist, fällt eines der Hauptargumente gegen sie weg, das gegen sie geführt wird. Dieser Beatles-Song aus einer Parallelwelt ist eigensinnig, hat überraschende Wendungen und hätte einem „Sergeant Pepper“-Album (dem er stilistisch am nächsten kommt) alle Ehre gemacht, mit ein paar Verfeinerungen hier und da natürlich.

Die KI bietet mir zwei verschiedene Enden des Songs an, in einem gibt es eine überraschende lange Pause, nach der der Refrain wieder einsetzt (ein Mittel, das die Beatles zum Beispiel in dem Song „Helter Skelter“ einsetzten) und zu einem Höhepunkt gesteigert wird. Das andere Ende wiederholt den Refrain auch, aber diesmal als Fade-Out und es kommen Streicher mit einer neuen Begleitung hinzu, eine Entscheidung, die vermutlich auch ein menschlicher Komponist getroffen hätte. Kurzum: ein Komponist von Funktionsmusik, der zum Beispiel die Beatles imitieren soll, könnte mit diesem KI-Track sofort etwas anfangen und ihn zur Perfektion bringen, ohne auch nur einen einzigen Ton selbst erfinden zu müssen. Einfach „Outro“ drücken, und das Ganze wird abgeschlossen.

Genau wie bei Chat-GPT sind weltweit vermutlich schon bald Millionen „Beta-Tester“ am Kreieren von Milliarden von Songs. Und mit jedem dieser Songs wird udio besser werden. Zumindest so lange, bis die nächste, NOCH perfektere KI daherkommt. Was passieren wird.

Wir dürfen uns nichts vormachen. Diese Art von KI wird von Menschen gemachte Funktionsmusik nicht nur verdrängen, sondern pulverisieren. Udio ist in jeder Beziehung schneller (und billiger) als es ein Mensch je sein kann. Überall dort, wo Musik nur im Hintergrund nudelt oder nicht wirklich neu sein muss, wo das Bekannte in einer bestimmten Stilistik gefordert wird, laufen KIs wie udio Menschen locker den Rang ab.

Wäre ich Komponist von Neoklassik, würde ich mich erschießen. KIs können schon jetzt problemlos Musik im Stil von Ludovico Einaudi und Konsorten in Endlosschleife erzeugen, nur effizienter und tatsächlich sogar interessanter. Und da kein normaler Mensch diese Musik tatsächlich konzentriert und innig lauschend konsumiert, sondern sie in Yoga-Studios oder Wohnungen von Besserverdienenden im Hintergrund nudelt, wird es irgendwann gar nicht mehr auffallen, wenn sie von udio und nicht mehr von Ludovico kommt, so viel ist klar.

Ein Großteil gestreamter Musik wird nicht zum konzentrierten Hören konsumiert, sondern läuft als Playlist im Hintergrund. Wenn nicht gerade Boomer zu einer Nostalgie-Party zusammenkommen und „ihre“ 80er-Jahre-Hits hören wollen, die sie wiedererkennen, kann statt zum Beispiel Bob Marley auch ein udio-Parallelwelt-Marley laufen, ohne dass jemand es für ein Fake halten würde. Hauptsache es klingt wie „Reggae“.

KI-Musik wird quasi alle Jingles und Hintergrundmusiken ersetzen, weil man keine Tantiemen mehr zahlen muss, wenn man die KI verwendet. Die KI-Musik-Konzerne werden sich daran eine goldene Nase verdienen, und zwar mit KI-Ideen, die eigentlich – und das muss man immer wieder betonen – von Menschen stammen. Die KI ist eine unendliche Juke-Box, die die musikalische menschliche Erfindung immer wieder neu und überraschend remixen kann. Bis in alle Ewigkeit?

Das ist die entscheidende Frage. Musikstile entstehen nicht nur aus der Amalgamierung von Vorhandenem, sondern auch aus menschlichem Erleben. Jazz war kein simpler „Remix“, sondern eine Neuinterpretation abendländischer Musik durch leidvolle Geschichte der Sklaverei und des Widerstands. Punk war kein Remix, sondern ein Stinkefinger gegenüber dem Establishment, erhoben durch eine rebellische Jugend in einer bestimmten sozialen Situation in einer bestimmten Zeit.

Die KI kann also zwar ständig neues finden, aber Neues erzählen könnte sie nur, wenn sie ein Bewusstsein hätte und in unserer Welt lebte, litt und lachte. Solange das nicht möglich ist, kann sie nur repetieren und variieren.

Die Musik der Zukunft wird also weiterhin Menschen brauchen. Der neue Punk wird die Anti-KI-Musik sein – Musik, die sich bewusst der Klischees enthält, die die KI beständig reproduziert. Oder das Ganze wird zu einem natürlichen Kreislauf, in dem alles seinen Platz hat – Menschen erfinden, während die KI reproduziert, vielleicht in immer kürzeren Zyklen, als wir es bisher gewohnt sind.

Wie auch immer – die Schlange der KI-Musik ist keine normale Schlange, sondern ein Wurm Ouroboros, der sich selbst in den Schwanz beißt.

Wir mögen nur Kaninchen sein, aber darin liegt eine Chance für uns.

Moritz Eggert

Liste(n) auswählen:
Unsere Newsletter informieren Sie über Neuigkeiten im Badblog Of Musick. Informationen zum Anmeldeverfahren, Versanddienstleister, statistischer Auswertung und Widerruf finden Sie in unserer Datenschutzbestimmungen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert