Αν σας εξέπληξαν οι δυνατότητες του Sora της OpenAI, τον AI δημιουργό βίντεο, τότε μάλλον θα μείνετε άφωνοι με το νέο σύστημα τεχνητής νοημοσύνης το οποίο επικεντρώνεται στη βιομηχανία με τα υψηλότερα έσοδα στον κόσμο. Η Google αυτή τη φορά παρουσίασε πρόσφατα ένα μοντέλο «με δυνατότητα δράσης και ελέγχου» το οποίο θα έχει τη δυνατότητα να δημιουργεί εικονικούς κόσμους που μοιάζουν με βιντεοπαιχνίδια από εικόνες και κειμενικές εντολές και αυτού όνομα αυτού είναι “Genie”.
Τι είναι το Genie
Στην ιστοσελίδα του Genie της DeepMind θα βρείτε πολλά δείγματα GIFs παιχνιδιών πλατφόρμας, τα οποία έχουν δημιουργηθεί από φωτογραφίες από τον πραγματικό κόσμο, κάποιο παιδικό σκίτσο, ένα σχέδιο σε χαρτοπετσέτα και όπως είπαμε ήδη και από κειμενικές εντολές που δίνονται στο ImageGen2.
Όποια κι αν είναι η πηγή, η εικόνα γίνεται το αρχικό πλαίσιο του παιχνιδιού. Ο παίκτης μπορεί να ενεργήσει κάνοντας μία κίνηση δεξιά ή άλμα προς τα πάνω – και το μοντέλο προβλέπει και παράγει το επόμενο καρέ στην ακολουθία. Αυτός ο κύκλος συνεχίζεται για όλη τη διάρκεια, με τα προηγούμενα καρέ να γίνονται δεδομένα για την πρόβλεψη του επόμενου καρέ με βάση την είσοδο του παίκτη. Έτσι, σε αντίθεση με τα παραδοσιακά βιντεοπαιχνίδια, όπου οι προγραμματιστές πρέπει να δημιουργήσουν κινούμενα σχέδια με βάση τις πιθανές εισόδους του παίκτη, το Genie τα δημιουργεί στην πορεία με βάση τις τρέχουσες εισόδους του παίκτη.
Για τη δημιουργία αυτού του μοντέλου, το Genie παρακολούθησε 6,8 εκατομμύρια βίντεο από παιχνίδια που είναι διαθέσιμα σε όλο το διαδίκτυο και μετά εστίασε μόνο στα 2D βιντεοπαιχνίδια όπως τα Super Mario Bros. και το Sonic the Hedgehog, που σημαίνει ότι συνολικά είδε περιεχόμενο συνολικής διάρκειας 200.000 ωρών. Το βασικό μοντέλο μπορεί να καθορίσει ποιος είναι ο κύριος χαρακτήρας και να επιτρέψει στον χρήστη να τον ελέγξει στον παραγόμενο κόσμο. Επίσης, δίνει τη δυνατότητα στους χρήστες να ενεργούν στα παραγόμενα περιβάλλοντα καρέ-καρέ, παρά την εκπαίδευση, χωρίς ετικέτες ενεργειών ή απαιτήσεις. Αυτό είναι το πλησιέστερο μοντέλο τεχνητής νοημοσύνης που έχουν φτάσει στην τεχνητή γενική νοημοσύνη (AGI), με την ικανότητα να μαθαίνει, να σκέφτεται και να ενεργεί όπως οι άνθρωποι.
Όχι μόνο ένα απλό παιχνίδι
Κατά την ανάπτυξή του, το Genie εμφάνισε κάποιες εκπληκτικές ιδιότητες όπως τη μίμηση μια τεχνικής animation γνωστή ως “κύλιση παράλλαξης”. Αυτή είναι μία διαδικασία που πραγματοποιείται συνήθως από τους προγραμματιστές παιχνιδιών όταν μετακινούν το φόντο με πιο αργό ρυθμό από τα στοιχεία του προσκηνίου για να δώσουν την ψευδαίσθηση του βάθους. Όμως στη περίπτωση του μοντέλου της Google, ο σχεδιασμός έγινε αντιληπτός χωρίς να υπάρξουν προηγουμένως ρητές γραπτές οδηγίες.
Μετά από αυτό, οι ερευνητές ήθελαν να διαπιστώσουν αν το Genie μπορούσε να μάθει και εκτός παιχνιδιών. Στήνοντας ένα παράλληλο πείραμα, εκπαίδευσαν την τεχνητή νοημοσύνη σε βίντεο με ρομποτικούς βραχίονες που κινούνται και χειρίζονται αντικείμενα. Χωρίς καμία πρόσθετη γνώση για το πώς θα έπρεπε να λειτουργούν αυτά τα ρομπότ, το νέο μοντέλο μπόρεσε να αναπτύξει ένα διαδραστικό περιβάλλον όπου ο χρήστης μπορούσε να χειριστεί έναν εικονικό ρομποτικό βραχίονα ακριβώς όπως έναν αναπαραγόμενο χαρακτήρα σε ένα βιντεοπαιχνίδι.
Ως μπόνους, οι ερευνητές βρήκαν μια άλλη αναδυόμενη ιδιότητα: το μοντέλο τεχνητής νοημοσύνης προσομοίωσε την παραμόρφωση αντικειμένων, όπως μια σακούλα με πατατάκια που συνθλίβεται από τη λαβή του ρομποτικού βραχίονα.
«Πιστεύουμε ότι το Genie ανοίγει τεράστιες δυνατότητες για μελλοντική έρευνα. Δεδομένης της γενικότητάς του, το μοντέλο θα μπορούσε να εκπαιδευτεί από ένα ακόμη μεγαλύτερο ποσοστό βίντεο στο Διαδίκτυο για να προσομοιώσει ποικίλα, ρεαλιστικά και φανταστικά περιβάλλοντα», γράφουν οι ερευνητές στην τεχνική τους έκθεση. Εικάζουν μάλιστα ότι έχει τη δυνατότητα να δημιουργήσει τεράστιο αριθμό διαδραστικών περιβαλλόντων, που θα μπορούν να μάθουν και άλλα μοντέλα τεχνητής νοημοσύνης. Για παράδειγμα, αντί να εκπαιδεύονται τα AI μοντέλα των αυτοοδηγούμενων αυτοκινήτων μέσω δοκιμής και λάθους σε πραγματικούς αστικούς δρόμους, ένα μοντέλο όπως το Genie θα μπορούσε να δημιουργήσει ένα ευρύ και ποικίλο φάσμα εικονικών και διαδραστικών περιβαλλόντων για να μάθουν αυτά τα μοντέλα τεχνητής νοημοσύνης.
Μην περιμένετε ακόμα πολλά
Πριν ενθουσιαστείτε πολύ με το γεγονός ότι μπορείτε να δημιουργήσετε πλατφόρμες μόνο από ένα πρόχειρο σκίτσο ή από ένα έργο τέχνης του παιδιού σας, πρέπει να σας προειδοποιήσουμε για κάποια πράγματα. Το πιο σημαντικό είναι ότι το σύστημα τρέχει προς το παρόν μόνο με ένα καρέ ανά δευτερόλεπτο, το οποίο είναι τουλάχιστον 20 έως 30 φορές πιο αργό από αυτό που θα χρειαζόταν για κάτι που θα μπορούσε να θεωρηθεί ότι μπορεί να παιχτεί σε πραγματικό χρόνο. Τα δείγματα GIF που δείχνουν πολύ πιο ομαλή κίνηση σε μερικά καρέ είναι απλώς η συρραφή μιας σειράς καρέ που θα χρειαζόταν σημαντικά κομμάτια ενός λεπτού για να δημιουργηθεί σε πραγματικό χρόνο. Με αυτούς τους περιορισμούς, μπορεί να χρειαστεί αρκετός χρόνος ανάπτυξης μέχρι το Genie να μπορέσει να αποκτήσει μία ομαλή και γρήγορη ροή.
Don’t forget: This is the worst it will ever get. Soon it will work perfectly. 🚀📈🚀📈 pic.twitter.com/03sVXq1jvE
— Jeff Clune (@jeffclune) February 26, 2024
Δυστυχώς, το περιεχόμενο που παράγει το Genie δεν μπορούμε να πούμε ότι αντικατοπτρίζει την πραγματικότητα και αυτό μπορείτε να το διαπιστώσετε και μόνοι σας τα δείγματα GIF που μοιράστηκε η Google. Χαρακτηριστικό παράδειγμα αποτελεί το ακόλουθο στο οποίο δύο ιπτάμενα πουλιά ξαφνικά ενώνονται και γίνονται ένα, ενώ σε ένα άλλο ένας χαρακτήρας φαίνεται να αρχίζει να αιωρείται αντί να πέφτει στο έδαφος μετά από ένα απλό άλμα. Επίσης, τα δημοσιευμένα καρέ είναι εμφανώς θολά και χαμηλής ανάλυσης.
Παρά τους περιορισμούς του Genie, οι ερευνητές της DeepMind ήδη διερευνούν για το τι θα μπορούσε να σημαίνει αυτό το ισχυρό είδος μοντέλου για την τεχνητή νοημοσύνη στο σύνολό της. Ο Jack Parker-Holder της DeepMind δήλωσε στα μέσα κοινωνικής δικτύωσης ότι το Genie δεν αντιπροσωπεύει τίποτα λιγότερο από «ένα βιώσιμο μονοπάτι για τη δημιουργία της πλούσιας ποικιλίας περιβαλλόντων που χρειαζόμαστε για [την τεχνητή γενική νοημοσύνη]». Η τρέχουσα κατάσταση του Genie «είναι το χειρότερο μοντέλο βίντεο που πρόκειται ποτέ να υπάρξει», συνέχισε. «Σούπερ συναρπαστικό να δούμε τον αντίκτυπο που θα έχουν αυτά τα μοντέλα όταν χρησιμοποιηθούν ως προσομοιωτές κόσμου με ανοικτή μάθηση».
Το Genie ήδη έχει αρχίσει να προκαλεί ενδιαφέρον και σε άλλες εταιρείες. Ο ερευνητής AI της Nvidia, Jim Fan, σημείωσε ότι το Genie βελτιώνει κατά κάποιο τρόπο το μοντέλο βίντεο Sora του OpenAI, επειδή είναι «στην πραγματικότητα ένα σωστό “World Model” με βάση τη δράση και με επαγωγικές ενέργειες» και όπως προβλέπει το 2024 πρόκειται να δημιουργηθούν ακόμα πολλά αντίστοιχα μοντέλα τεχνητής νοημοσύνης. Είτε τελικά μπορέσουμε να δημιουργήσουμε βιντεοπαιχνίδια από το σχέδιο μιας χαρτοπετσέτας είτε όχι, το μόνο σίγουρο είναι ότι ανοίγονται πολλά νέα μονοπάτια στη τεχνητή νοημοσύνη.
Πηγές: Freethink και Ars Technica