Seit heute hat Googles eigenes KI-Modell Gemini eine neue Funktion: Du kannst selbst Songs generieren. Zur Auswahl stehen dabei 16 verschiedene Genres, unter anderem KPop, 90s-Rap oder Latin Pop. Mit «Schlechte Musik» und «Birthday-Roast» hat es auch zwei eher humorvolle Kategorien.
Generiert wird die Musik ganz einfach, indem man einen neuen Chat startet und dort den Button «Musik erstellen» anwählt. Optional geht das natürlich auch mit einem Klick auf das Plus-Symbol im Chatfenster.

Anschliessend kommt die Übersicht zur Auswahl des Genres:

Hast du dich für eine Kategorie entschieden, kannst du ganz normal prompten. Eigene Songtexte musst du dir nicht ausdenken, du kannst Gemini via Prompt einfach das Thema vorgeben. In unserem Fall zum Beispiel:
Danach generiert Gemini selbstständig einen Track mit Lyrics. Dabei gibt es aber auch ein, zwei Dinge zu beachten: Wählst du etwa Kinoeffekt, generiert es einen Song ohne Lyrics.
Auch kann es passieren, dass der Songtext je nach Genre gar nicht auf Deutsch generiert wird, wenn du es Gemini nicht explizit sagst, so wie in unserem Beispiel. So war bei meinen ersten Versuchen ein Song im 90s-Rap-Stil automatisch auf Englisch und bei Latin Pop hat Gemini den Song in Spanisch generiert.
Kreative Kontrolle ist limitiert
Darüber wie genau der Song generiert wird, hast du eine gewisse Kontrolle. Du kannst zum Beispiel Stil, Rhythmus oder die Stimme beeinflussen. Ebenfalls kannst du Gemini sagen, es soll sich von einem bestimmten Stil oder einem Song inspirieren lassen. Am Ende entscheidet aber Gemini selbst, was genau dabei herauskommt. Das führt dann auch dazu, dass kein einziges Resultat wie das andere klingt – selbst mit dem gleichen Prompt.
Praktisch ist auch die Funktion, ein Foto oder ein Video hochzuladen, aus dem Gemini dann ein Musikstück generiert, das zur Stimmung passt. Hier dürften sicher alle YouTuber:innen aufhorchen – und alle Anbieter von kostenpflichtigen Musikkatalogen für Videos leer schlucken.
Wenig überraschend hat Google Lyria 3, das Modell hinter diesem neuen Feature, auch in YouTubes Dream Track integriert. Creator können so direkt auf YouTube auf die generativen Fähigkeiten von Lyria 3 zugreifen.
KI-generierte Musik ist identifizierbar
Aktuell kann man mit der kostenlosen Version allerdings maximal 30 Sekunden generieren. Damit ist es momentan noch nicht möglich, ganze Songs mit Gemini zu erstellen. Dass dies aber eines Tages der Fall sein dürfte, ist wohl nur eine Frage der Zeit. Zumindest in den kostenpflichtigen KI-Abos (AI Plus, Pro oder Ultra) sollen bereits längere Limits zur Verfügung haben.
Google möchte es daher bereits von Anfang an leicht machen, KI-generierte Musik zu erkennen. Zumindest solche, die von Gemini erstellt wurde. Dafür wird jeder Song mit einem unsichtbaren Wasserzeichen namens SynthID versehen. Um einen Song zu überprüfen, muss man ihn einfach nur in der aktuellsten Version von Gemini hochladen und die KI bitten, den Song zu überprüfen. (Das geht übrigens auch mit KI-generierten Bildern und Videos von Gemini).
Lyria ist ab sofort in den Sprachen Deutsch, Englisch, Spanisch, Französisch, Hindi, Japanisch, Koreanisch und Portugiesisch verfügbar. Weitere Sprachen sollen folgen.
Und falls du dich jetzt fragst, was bei meinem Prompt entstanden ist: Hier ist das Ergebnis (Genre 90s-Rap):