Πριν λίγες μέρες, κυκλοφόρησε το Riffusion, ένα μοντέλο τεχνητής νοημοσύνης που παράγει μουσική από προτροπές κειμένου δημιουργώντας μια οπτική αναπαράσταση του ήχου και την αναπαράγει. Χρησιμοποιεί μια λεπτομερώς ρυθμισμένη έκδοση του Stable Diffusion 1.5 [μοντέλο σύνθεσης εικόνας], εφαρμόζοντας την οπτική λανθάνουσα διάχυση – απαραίτητο εργαλείο της Τεχνητής Νοημοσύνης – στην επεξεργασία ήχου με έναν καινοτόμο τρόπο.

Το Riffusion δημιουργήθηκε από τους Seth Forsgren και Hayk Martiros, και λειτουργεί με τη δημιουργία ηχογραφημάτων (sonograms), τα οποία αποθηκεύουν τον ήχο σε μια δισδιάστατη εικόνα. Σε ένα ηχογράφημα, ο άξονας Χ αναπαριστά τον χρόνο (η σειρά με την οποία αναπαράγονται οι συχνότητες, από αριστερά προς τα δεξιά) και ο άξονας Υ αναπαριστά τη συχνότητα των ήχων. Εν τω μεταξύ, το χρώμα κάθε εικονοστοιχείου στην εικόνα αντιπροσωπεύει το πλάτος του ήχου τη συγκεκριμένη χρονική στιγμή.

Πηγή: Riffusion

Δεδομένου ότι ένα ηχογράφημα είναι ένας τύπος εικόνας, το Stable Diffusion μπορεί να το επεξεργαστεί. Οι Forsgren και Martiros εκπαίδευσαν ένα προσαρμοσμένο δικό τους μοντέλο στο Stable Diffusion με παραδείγματα ηχογραφημάτων που συνδέονταν με περιγραφές των ήχων ή των μουσικών ειδών που αναπαριστούσαν. Με αυτή τη «γνώση», το Riffusion μπορεί να παράγει νέα μουσική εν κινήσει με βάση τις προτροπές κειμένου που περιγράφουν το είδος της μουσικής ή του ήχου που θέλετε να ακούσετε, όπως “jazz”, “rock” ή ακόμη και πληκτρολόγηση σε ένα πληκτρολόγιο (keyboard typing).

«Αυτό είναι το μοντέλο Stable Diffusion v1.5 χωρίς τροποποιήσεις, απλά ρυθμισμένο σε εικόνες φασματογραφημάτων σε συνδυασμό με κείμενο», γράφουν οι δημιουργοί του Riffusion στο info της σελίδας τους. «Μπορεί να δημιουργήσει άπειρες παραλλαγές μιας προτροπής».

Οι χρήστες του Riffusion μπορούν να πειραματιστούν με το μοντέλο τεχνητής νοημοσύνης χάρη σε μια διαδραστική εφαρμογή που παράγει παρεμβαλλόμενα ηχογραφήματα (ομαλά συρραμμένα μεταξύ τους για αδιάλειπτη αναπαραγωγή) σε πραγματικό χρόνο, ενώ απεικονίζει συνεχώς το φασματογράφημα στην αριστερή πλευρά της σελίδας.

Μπορεί επίσης να συγχωνεύσει στυλ. Για παράδειγμα, πληκτρολογώντας “smooth tropical dance jazz”, το Riffusion αναμειγνύει στοιχεία από διαφορετικά είδη μουσικής για ένα νέο αποτέλεσμα, ενθαρρύνοντας έτσι τον πειραματισμό. Θα προτείναμε, επίσης, να δοκιμάσετε το “Greek bouzouki bossa nova”, το “new wave indie” ή το “blues psychedelic rock”.

Πηγή: Riffusion / Olafaq

Φυσικά, το Riffusion δεν είναι η πρώτη «γεννήτρια μουσικής» με τεχνητή νοημοσύνη. Νωρίτερα φέτος, η Harmonai κυκλοφόρησε το Dance Diffusion, ένα μοντέλο δημιουργικής μουσικής με τεχνητή νοημοσύνη. Το Jukebox της OpenAI, που ανακοινώθηκε το 2020, παράγει επίσης νέα μουσική.

Σε σύγκριση με αυτές τις πιο απλοποιημένες μουσικές προσπάθειες AI (Artificial Intelligence), το Riffusion έχει περισσότερο ενδιαφέρον και η μουσική που παράγει κυμαίνεται από «περίεργη» έως τα όρια του ακατανόητου, αλλά παραμένει μια αξιοσημείωτη εφαρμογή της τεχνητής νοημοσύνης που χειρίζεται τον ήχο σε έναν οπτικό χώρο.