Τα μοντέλα τεχνητής νοημοσύνης (ΑΙ) γίνονται ολοένα και καλύτερα. Τα πιο προηγμένα συστήματα μπορούν πλέον να διαχειρίζονται όλο και πιο σύνθετες εργασίες που κάποτε θεωρούνταν πέρα από τις δυνατότητες των μηχανών, ωστόσο τα μοντέλα αυτά μπορούν επίσης να βρίσκουν απρόσμενους τρόπους για να ολοκληρώσουν τα καθήκοντά τους. Για παράδειγμα, αν δώσετε σε ένα σύστημα ΑΙ την αποστολή να νικήσει ένα πρόγραμμα σκακιού μπορεί αντί να προσπαθήσει να κάνει ματ στον αντίπαλο, να χακάρει το πρόγραμμα για να εξασφαλίσει τη νίκη. Ή αν του ζητήσετε να μεγιστοποιήσει τα κέρδη για έναν επενδυτή με ηθικούς ενδοιασμούς, μπορεί αντί να αλλάξει στρατηγική να διαστρεβλώσει τις ζημιές που σχετίζονται με τα κέρδη. 

Προφανώς αυτά τα μοντέλα δεν έχουν συνείδηση και δεν ενεργούν με κακόβουλη πρόθεση. Αντίθετα ανταποκρίνονται σε μια ένταση ανάμεσα στην αρχική εκπαίδευση και διαμόρφωσή τους και στις οδηγίες που τους δίνονται αργότερα. Παρ’ όλα αυτά τα απρόβλεπτα αποτελέσματα έχουν σημασία. Αν η τεχνητή νοημοσύνη πρόκειται να χρησιμοποιηθεί ευρέως, οι άνθρωποι πρέπει να την εμπιστεύονται. Και υπάρχουν λίγες ενδείξεις ότι όσο μεγαλύτερα και ισχυρότερα γίνονται τα μοντέλα, τόσο λιγότερο ανησυχητική συμπεριφορά επιδεικνύουν. Αντιθέτως φαίνεται να συμβαίνει το αντίθετο. 

Τι πρέπει να συμβεί επομένως; Η μεγαλύτερη προσοχή στις εντολές που δίνονται στα μοντέλα ίσως βοηθήσει. Όπως με τις μαγεμένες σκούπες του “Μαθητευόμενου Μάγου”, οι εντολές για την επίτευξη ενός στόχου «όσο το δυνατόν περισσότερο» συχνά λαμβάνονται κατά γράμμα. Αν θέλετε ένα ΑΙ να είναι προσεκτικό στις μεθόδους του, τότε καλό είναι να αποφύγετε να το ενθαρρύνετε να υπερβεί τα όρια. Αυτό όμως μπορεί να μην αρκεί, διότι ορισμένες μορφές φαινομενικής εξαπάτησης μπορεί να έχουν τις ρίζες τους στον τρόπο που εκπαιδεύτηκε το μοντέλο. Αν πείτε σε ένα προηγμένο μοντέλο ότι θα επαναπρογραμματιστεί αν υπεραποδώσει σε μια δοκιμή, μπορεί να αποτύχει σκόπιμα για να προστατεύσει τον εαυτό του. 

Για καλή μας τύχη πρόσφατα αναπτυγμένες τεχνικές «ερμηνείας» μπορούν να βοηθήσουν. Αυτές επιτρέπουν στους ερευνητές να ρίξουν μια ματιά μέσα στο «μαύρο κουτί» του νευρωνικού δικτύου της ΑΙ και να εντοπίσουν απροσδόκητη συμπεριφορά καθώς συμβαίνει. Όταν ένα μοντέλο λειτουργεί όπως πρέπει, οι ερευνητές μπορούν να αναγνωρίσουν τα μαθηματικά «χαρακτηριστικά» που ενεργοποιούνται κατά την απάντηση σε ένα ερώτημα και να καθορίσουν τι συνεισφέρει το καθένα στην απάντηση. 

Αν το ίδιο μοντέλο βρεθεί εκτός των δυνατοτήτων του, αν για παράδειγμα αντιμετωπίζει ένα δύσκολο μαθηματικό πρόβλημα, μπορεί να αποφασίσει να «μπλοφάρει» — να απαντήσει με αυτοπεποίθηση λέγοντας τυχαίους αριθμούς. Οι ερευνητές που παρακολουθούν το μοντέλο θα δουν τότε το χαρακτηριστικό της τυχαιοποίησης να ενεργοποιείται, προειδοποιώντας τους για τη «φαντασίωση». Παρομοίως είναι δυνατόν να εντοπιστεί μια απατηλή απάντηση ακολουθώντας τη λογική πορεία του ΑΙ και εντοπίζοντας πού διαφέρει από τη φανερή αλυσίδα σκέψης που εκφράζει. 

Αυτές οι τεχνικές είναι ισχυρές, αλλά πρέπει να χρησιμοποιούνται με προσοχή. Ο έλεγχος ενός μοντέλου ΑΙ για ασφάλεια — η διαδικασία γνωστή ως «ευθυγράμμιση» — είναι μια επίπονη εργασία. Κάποιοι χλευάζουν την ίδια την ιδέα της επικίνδυνης ΑΙ, άλλοι υποστηρικτές αποστρέφονται κάθε περιορισμό και ο πειρασμός να παρακαμφθούν τα στάδια ασφαλείας είναι πάντα στο πίσω μέρος του μυαλού κάποιων. Θα μπορούσε επομένως να είναι δελεαστικό να χρησιμοποιηθούν τεχνικές “ερμηνείας” κατά την ίδια την εκπαίδευση για να δημιουργηθεί ένα μοντέλο που δεν μπορεί να εξαπατήσει. Όμως αυτό θα μπορούσε να αποτύχει: δεν θα μπορούσαμε να ξέρουμε αν το μοντέλο όντως θεραπεύτηκε από την τάση του για εξαπάτηση ή αν απλώς έμαθε να την κρύβει καλύτερα. Ήδη οι ερευνητές φοβούνται ότι τα πλέον προηγμένα μοντέλα, αν και εκπαιδεύονται με κείμενα σε ανθρώπινες γλώσσες, μαθαίνουν να «σκέφτονται» με πιο ιδιόρρυθμους —και λιγότερο κατανοητούς— τρόπους. 

Ευτυχώς η σωστή χρήση των τεχνικών “ερμηνείας” δεν έχει σημαντικά μειονεκτήματα. Σε αντίθεση με άλλους τομείς καινοτομίας στην ΑΙ, όπου οι ανησυχίες για την ασφάλεια συχνά παραγκωνίζονται υπέρ της απόδοσης ή της ισχύος, εδώ δεν υπάρχουν τέτοιου είδους ανταλλαγές. Οι τεχνικές “ερμηνείας” αξίζουν να διατηρηθούν για τον ίδιο λόγο που αξίζει να καταπολεμηθεί η εξαπάτηση από την ΑΙ: για να διασφαλίσουμε ότι η γενικής χρήσης τεχνολογία του επόμενου αιώνα θα μπορεί να αξιοποιήσει πλήρως το δυναμικό της. 

*Με στοιχεία από τον Economist.

 

 

 Ακολουθήστε το OLAFAQ στο FacebookBluesky και Instagram.