SUNO AI – eine kritische Betrachtung der Benutzung und des Schöpferischen
Vielfach beschäftigt aktuell das Künstliche-Intelligenz-Musik-System „SUNO AI“ Urheber:innen, Musik- und Kulturschaffende und Musikkonsument:innen. Mit wenigen verbalen Angaben zu Text, Stil und Epoche entstehen insbesondere im Bereich der Popularmusik interessante Songs, die verblüffend an echte Audio-Produktionen erinnern: Je mehr dem Mainstream verhaftet und umso einfacher das Genre, um so mehr wirkt es lebensnah. Fordert man das System zur Erstellung von „Klassik“ oder „Romantik“ auf, hat das System gerade mit Textverteilung noch so seine Probleme und wirkt manchmal gleichsam „fratzenhaft“. Ohne Text bekommt es hier derzeit manchmal nette Orchester-Intros im frühromantischen, (früh-)klassischen und barocken Duktus hin, wie es manchmal auch in der heute wieder aufgewärmten Massenware von damals klingen kann. Pathetische synthetische Filmmusik-Orchester-Klischees wie zu einfach gestrickten Doku-Reihen gelingt dem System manchmal besser, je länger man es fordert.
Im Bereich von kurzen Song-Snippets, Jingles oder als Library-Ersatz für vorgefertigte Werbe- und einfache filmische Produktionen scheint daher ein System wie SUNO AI oder ähnliche Systeme Jobs und Aufträge für Menschen, die komponieren bzw. Musik für diese Bereiche machen, in Bedrängnis bringen zu können. SUNO AI selbst scheint allerdings zu behaupten, dass es mit dem sehr niederschwelligen „Prompten“, wie man die Eingabe der nötigen verbalen Anweisungen nennt, mehr Menschen für kreative Prozesse begeistern möchte, so Brian Hiatt im angelsächsischen RollingStone vom 17.3.24 über den SUNO-Mitgründer Mikey Shulman.
Hiatt bemerkt allerdings auch, dass einer der ersten Investoren von SUNO AI, Antonio Rodriguez sagte, dass er das Unternehmen nicht gefördert hätte, hätte es im Anfang Deals mit Labels gehabt. Rodriguez führt auch dazu an, dass man quasi Klagen von Labels eingepreist habe, denn wie der Input von Audio-Produktionen für das Lernen der generativen KI des SUNO-Systems aussah, das weiß bisher keiner. Hätte es im Umkehrschluss am Anfang schon Vereinbarungen mit Labels gegeben, was SUNO viel Geld gekostet hätte, würde man davon wissen oder hätte man gute Vermutungen anstellen können. Nichts dergleichen ist aber öffentlich zugänglich oder bekannt.
Hört man wie der Autor dieses Textes bei den Ergebnissen des eigenen SUNO-Promptens aufmerksam hin, wird einem manchmal auffallen, dass Stile aus der Zeit der 1910er bis 1950er Jahre nicht wie Aufnahmen aus dem 21. Jahrhundert klingen, sondern bei Dixieland und Swing oder Big Band Jazz nach 1945 wird das Rauschen von Schellack- oder frühen Vinyl-Platten mit erzeugt, das Gequake von frühen Trichteraufnahmegeräten, der Wechsel von Mono zu Stereo. Das weist akustisch darauf hin, dass nicht aufwändige computersprachliche Stilbeschreibungen oder zumindest nicht nur eingegeben worden sind, sondern dass ganze Aufnahmen seit dem Grammophonzeitalter bis heute mutmaßlich benutzt wurden.
Für das englischsprachige Music Business Worldwide ist Ed Newton-Rex dieser Vermutung nachgegangen. SUNO AI behauptet, dass seine In- und Outputs sich nur Stilen, aber nicht Personen zuordnen lassen. Newton-Rex gab nun nicht Eminem sondern Beminem oder statt Dancing Queen samt ABBAs-Originaltext Prancing Queen und so weiter und so ähnlich in SUNO AI ein. In seiner Analyse zeigt er dann SUNO-Outputs, die in Melodie, Harmonik und Bass wie Text sehr, sehr nah an den nur leicht getarnten Originalen sind. Das ist kein Beweis, aber doch eine sehr aufrüttelnde Mutmassung. Music Business Worldwide konfrontierte SUNO AI mit dem Text von Newton-Rex vom 2.4.24, doch hat man bisher keine Antwort erhalten.
Der Autor dieses Textes traktierte bei seinen Versuchen SUNO AI auch mit stilistischen Angaben wie „experimental contemporary music, dodecaphonic, chromatic, chaotic, metrum changes, cery fast“, etc., um das System in Richtung zeitgenössische Musik auszutesten. Bis zu einem gewissen Grad klappte dies, wobei das System schnell von Harfe und Flöte immer wieder zurück zu Klavier und Orchester und Chor wollte. Wenn 30 Sekunden relative Anarchie erzeugt wurden, schloss es dann doch immer wieder hinten eher tonale Klänge, regelmäßiges Metrum an, als wolle es zu seinen wohl mehrheitlich in Harmonik, Melos und Metrum wie Rhythmus konventionellen Mustern zurückkehren. Das weist darauf hin, dass mutmaßlich Boulez, Saariaho, Ustvolskaja und Lachenmann bzw. Musik in diesen Stilen eher nicht zum Input gehörten. Eine womöglich gute Nachricht.
So sehr die Outputs der Mainstream-Stilistiken erstaunlich lebensecht wirken, so kann man nur hoffen, dass nicht reihenweise Urheberrechte und Leistungsschutzrechte über viele Jahrzehnte hinweg beim Input den Mutmaßungen nach von Newton-Rex verletzt worden sind. Aber wie dem RollingStone der Investor Rodriguez erzählte, scheint es eher keine Vereinbarungen mit Labels und Musikschaffenden gegeben zu haben. Abgesehen vom Fall SUNO AI wäre insgesamt gesetzlich darauf hinzuarbeiten, das eine pauschale Vergütung oder eben doch eine konkrete und in Zukunft Anfragen an die genutzten Werke und ihre Rechteinhaber:innen und eine Dokumentation der verwendeten Werke erfolgt.
Daher stellt sich die Frage: wie halten es die Produzenten von Musik-KI-Systemen mit den Urheberrechten, zumal wenn sie nicht reinen Notentext, sondern den Strom von Aufnahme-Produktionen für generative KI zum Input-Verfahren nutzen? Selbst reine begeisterte Nerds zeitgenössischer Musik oder ähnlicher Kollektive werden kaum die Leistungsschutzrechte an den bisher genutzten Aufnahmen wie z.B. einer Bruckner-Sinfonie innehaben.
Für professionell Komponierende müssten daher KI-Systeme zur Verfügung stehen, in die man seine eigenen Aufnahmen einspeisen könnte oder man eher mit Midi/Notentext-Eingabe hantieren kann wie z.B. im Falle von Ali Nikrangs Programm Ricercar.
Ob man deshalb SUNO AI gleich zu pädagogischen Zwecken empfehlen kann jenseits der eigenen Eingabemöglichkeiten im Songtext-Feld? Musikalisch zielführender ist da vielleicht eher das System AIVA. Hier kann man Stilvorgaben wählen, aber sonst Tonart, Instrumente, Takt, Emotionsbreite, Dauer etc. vorgeben und dann Teil für Teil, Spur für Spur erstellen lassen. Am Ende kann man sich das Ergebnis als Midi Downloaden und dann mit z.B. Notationssoftware auf dem eigenen Rechner noch weiter oder komplett verändern, es auch höhere auktoriale Ebenen hieven, es sich als weiterbearbeitungsfähige Möglichkeit förmlich selbst inkorporieren. Das Auswählen von Stil-Parametern, egal ob bei SUNO oder AIVA mag bereits zu einem kreativen Prozess eines Menschen oder auch einer Maschine gehören, wenn man dieses randomartig oder verbal offen überlässt. Allerdings erst der Zugriff auf Notentext und/oder Midi-Dateien ermöglicht weitere Bearbeitung durch den Menschen und führt dann vielleicht im Pingpong mit dem KI-Musik-System zu einer schöpferischen Erweiterung. Oder eben auch aufgrund des vor-auktorialen Materials.
AIVA bietet niemals den Glitter von Sound, Instrumentation, Stil und Epochenpatina wie es momentan SUNO AI vermag. Daher ist eine Arbeit mit Ersterem mühsam und irgendwie ab einem gewissen Grad von eigener, menschlich investierter Arbeit „echt“. Wer diese Arbeit nicht kennt, ist schnell von SUNO AI geblendet, wie es vielen im ersten Moment ergangen sein mag. Apropos: Der Autor dieses Textes versuchte das System mit den Texten aus Wagneropern wie dem Liebestod aus Tristan und Isolde und der Gralserzählung aus Lohengrin zu füttern. Am überzeugendsten gerieten seiner Meinung nach Liebestod-Tango und 1940-Musical sowie Grals-Mambo.
Komponist*in
Danke für den informativen Text. Finde ich sehr hilfreich. Herzlich: Theo