Όταν τα περισσότερα παιδιά είναι 2 ετών μπορούν να καταλάβουν περίπου 300 λέξεις, ενώ μέχρι την ηλικία των 4 ετών, το μέσο λεξιλόγιο έχει αυξηθεί σε περισσότερες από 1.000 λέξεις. Η απίστευτη ικανότητα του είδους μας να μαθαίνει γρήγορα λέξεις δεν είναι πλήρως κατανοητή. Ορισμένοι γνωστικοί επιστήμονες και γλωσσολόγοι έχουν διατυπώσει τη θεωρία ότι οι άνθρωποι γεννιούνται με ενσωματωμένες προσδοκίες και λογικούς περιορισμούς που το καθιστούν αυτό δυνατό. Τώρα, ωστόσο, μία έρευνα μηχανικής μάθησης δείχνει ότι οι προ-προγραμματισμένες υποθέσεις δεν είναι απαραίτητες για την ταχεία συλλογή των σημασιών των λέξεων από ελάχιστα δεδομένα.
Μια ομάδα επιστημόνων της γνωστικής επιστήμης και των υπολογιστών εκπαίδευσε με επιτυχία ένα βασικό μοντέλο τεχνητής νοημοσύνης για την αντιστοίχιση εικόνων και λέξεων χρησιμοποιώντας μόλις 61 ώρες νατουραλιστικού υλικού και ήχου, που είχαν προηγουμένως καταγραφεί από την οπτική γωνία ενός παιδιού με το όνομα Σαμ το 2013 και το 2014. Η μελέτη, που δημοσιεύθηκε την Πέμπτη στο Science, χρησιμοποίησε βίντεο και απομαγνητοφωνημένο ήχο που καταγράφηκε από μια κάμερα που τοποθετήθηκε στο κεφάλι του Σαμ κατά διαστήματα όταν ήταν έξι έως 25 μηνών. Αν και πρόκειται για ένα μικρό κομμάτι της ζωής ενός παιδιού, ήταν προφανώς αρκετό για να ωθήσει την τεχνητή νοημοσύνη να καταλάβει τι σημαίνουν ορισμένα ουσιαστικά.
Τα ευρήματα υποδηλώνουν ότι η συνταγή για την εκμάθηση της γλώσσας μπορεί να είναι απλούστερη από ό,τι νομίζαμε μέχρι σήμερα. Ίσως τα παιδιά «δεν χρειάζονται έναν ειδικά κατασκευασμένο, εντυπωσιακό μηχανισμό για τη γλώσσα» για να κατανοήσουν αποτελεσματικά τις έννοιες των λέξεων, λέει η Jessica Sullivan, αναπληρώτρια καθηγήτρια ψυχολογίας στο Skidmore College. Η Sullivan μελετά τη γλωσσική ανάπτυξη και δε συμμετείχε στη νέα έρευνα, αν και η ίδια και άλλοι παρήγαγαν το σύνολο δεδομένων βίντεο που χρησιμοποιήθηκε στην εργασία. «Πρόκειται για μια πραγματικά όμορφη μελέτη», λέει η ίδια, επειδή προσφέρει αποδείξεις ότι οι απλές πληροφορίες από την κοσμοθεωρία ενός παιδιού είναι αρκετά πλούσιες για να ξεκινήσουν την αναγνώριση προτύπων και την κατανόηση λέξεων.
Η νέα μελέτη αποδεικνύει επίσης ότι είναι δυνατόν οι μηχανές να μαθαίνουν παρόμοια με τον τρόπο που μαθαίνουν οι άνθρωποι. Μεγάλα γλωσσικά μοντέλα, όπως το GPT-4, η τελευταία έκδοση της τεχνητής νοημοσύνης που διέπει το ChatGPT, εκπαιδεύονται σε τεράστιες ποσότητες δεδομένων που μπορεί να περιλαμβάνουν δισεκατομμύρια και μερικές φορές τρισεκατομμύρια συνδυασμούς λέξεων. Ωστόσο, οι άνθρωποι μπορούν να τα καταφέρουν συγκριτικά με λιγότερες πληροφορίες, λέει ο επικεφαλής συγγραφέας της δημοσίευσης Wai Keen Vong, ερευνητής υπολογιστικής γνωστικής στο Πανεπιστήμιο της Νέας Υόρκης. Με τον κατάλληλο τύπο δεδομένων, αυτό το χάσμα μεταξύ μηχανικής και ανθρώπινης μάθησης θα μπορούσε να μειωθεί δραματικά.
Ο Brenden Lake, κύριος συγγραφέας της μελέτης και αναπληρωτής καθηγητής ψυχολογίας και επιστήμης δεδομένων στο N.Y.U., συμφωνεί. «Τα σημερινά μοντέλα δεν χρειάζονται τόση εισροή όση λαμβάνουν προκειμένου να κάνουν ουσιαστικές γενικεύσεις», λέει ο Lake. «Δείξαμε, για πρώτη φορά, ότι μπορείτε να εκπαιδεύσετε ένα μοντέλο τεχνητής νοημοσύνης για να μάθει λέξεις μέσα από τα μάτια και τα αυτιά ενός μόνο παιδιού».
Οι Lake, Vong και οι συνάδελφοί τους ξεκίνησαν με ένα γενικό, πολυτροπικό μοντέλο μηχανικής μάθησης που αποτελείται από έναν κωδικοποιητή όρασης και έναν κωδικοποιητή κειμένου. Μαζί τα συγχρονισμένα νευρωνικά δίκτυα μετέφραζαν εικόνες και γραπτό λόγο στον ίδιο μαθηματικό χώρο για να τον ερμηνεύσει η τεχνητή νοημοσύνη τους. Οι ερευνητές τροφοδότησαν το μοντέλο τους με 61 ώρες υλικού από την κάμερα κεφαλής του Σαμ με τη μορφή ακίνητων καρέ, σε συνδυασμό με μεταγραμμένο κείμενο από τον συνοδευτικό ήχο. Επειδή η κάμερα απλώς κατέγραφε ό,τι έβλεπε και άκουγε ο Σαμ, το σύνολο δεδομένων φαινόταν ακατάστατο και κάπως τυχαίο. Περιείχε περιπτώσεις φροντιστών που μιλούσαν απευθείας στο παιδί, καθώς και συνομιλίες στο παρασκήνιο μεταξύ άλλων ανθρώπων. Τα ηχητικά αποσπάσματα συχνά δεν περιέγραφαν άμεσα σκηνές ή αντικείμενα. Παρόλα αυτά, τόσο ο Σαμ όσο και το μοντέλο τεχνητής νοημοσύνης κατάφεραν να συγκεντρώσουν τις έννοιες των λέξεων.
Σε πολλαπλές δοκιμές, το μοντέλο ταίριαξε σωστά πολλές λέξεις με τις αντίστοιχες εικόνες. Πλησίασε επίσης το σημείο αναφοράς ακρίβειας δύο άλλων μοντέλων τεχνητής νοημοσύνης, τα οποία εκπαιδεύτηκαν σε πολύ περισσότερα γλωσσικά δεδομένα. Σε μια αξιολόγηση, οι επιστήμονες παρουσίασαν στο βασικό τους μοντέλο δέσμες τεσσάρων εικόνων από το σύνολο εκπαίδευσης και του ζήτησαν να υποδείξει ποια από αυτές περιείχε ένα συγκεκριμένο αντικείμενο, όπως μια μπάλα. Η τεχνητή νοημοσύνη ήταν ακριβής περίπου στο 62% των περιπτώσεων. Οι ερευνητές δοκίμασαν επίσης το μοντέλο τους με νέες εικόνες αντικειμένων που δεν προέρχονταν από τις εγγραφές του Σαμ, και το μοντέλο μπόρεσε να αναγνωρίσει σωστά πολλά από αυτά τα αντικείμενα, αποδεικνύοντας την ικανότητα γενίκευσης των όσων είχε μάθει. «Μας εξέπληξε αρκετά αυτό», λέει ο Vong.
Η μελέτη βασίζεται σε προηγούμενες έρευνες στον τομέα της μηχανικής μάθησης και της ανθρώπινης νόησης. Προηγούμενες μελέτες τεχνητής νοημοσύνης έχουν χρησιμοποιήσει δεδομένα από πολλά παιδιά για την εκπαίδευση μοντέλων, και προηγούμενα πειράματα αναπτυξιακής ψυχολογίας έχουν αξιολογήσει τις εμπειρίες μεμονωμένων παιδιών, λέει η Linda Smith, καθηγήτρια ψυχολογίας και επιστήμης του εγκεφάλου στο Πανεπιστήμιο Indiana Bloomington. Αν και το σύνολο δεδομένων του Σαμ έχει χρησιμοποιηθεί και σε άλλες μελέτες, η Smith λέει ότι η νέα εργασία αποτελεί «πραγματική συμβολή» στην επιστήμη.
Ο Sullivan συμφωνεί. «Ήμουν ένας από τους ανθρώπους που πίστευαν ότι το πρόβλημα της εκμάθησης της γλώσσας είναι απείρως πολύπλοκο και ότι δεν θα ήταν δυνατόν να μάθεις το νόημα μιας λέξης χωρίς να έχεις κάποιο συγκεκριμένο μηχανισμό ενσωματωμένο στο μυαλό σου», λέει. Αλλά αυτή η μελέτη την έχει μεταπείσει. «Τώρα βλέπω ότι, σε μία τουλάχιστον περίπτωση, είναι εφικτό».
Πηγή: Scientific American