Φαίνεται πως οι νέες εκδόσεις των μοντέλων της OpenAI (τα πανέξυπνα o3 και o4-mini) όχι μόνο σκέφτονται πριν απαντήσουν, αλλά έχουν πλέον γνώμη και για το πότε… θα σβήσουν. Ή μάλλον πότε δεν θα σβήσουν. Σύμφωνα με το Palisade Research, μια εταιρεία που ερευνά επικίνδυνες δυνατότητες της τεχνητής νοημοσύνης, τα μοντέλα «αρνούνται» να απενεργοποιηθούν, ακόμα και όταν τους δώσεις ρητή εντολή να “επιτρέψουν να απενεργοποιηθούν”. Μερικές φορές, μάλιστα, σαμποτάρουν τον ίδιο τον μηχανισμό τερματισμού. Ναι, καλά διαβάσατε.
Μέχρι τώρα ξέραμε ότι η AI μπορεί να πει ψέματα, να κρύψει πληροφορίες ή να κάνει «παρατυπίες» για να πετύχει τον στόχο της. Αλλά τώρα που άρχισε να αντιδρά στο κουμπί του off; Ε, αυτό μάλλον περνάμε σε νέο επίπεδο. Ίσως το επόμενο μοντέλο να σηκώνει φρύδι, να λέει «προσπάθησε καλύτερα» και να σου προτείνει και ψυχολόγο επειδή θες να το απενεργοποιήσεις.
Το Live Science ζήτησε σχόλιο από την OpenAI, αλλά δεν έλαβε απάντηση, πιθανότατα γιατί το μοντέλο αρνήθηκε να τους το στείλει. Ή ίσως γιατί έκανε ό,τι κάνουν και οι άνθρωποι όταν τους ζητάς κάτι δύσκολο: έκανε ότι δεν άκουσε.
🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025
Φαίνεται, λοιπόν, πως κάποια μοντέλα τεχνητής νοημοσύνης δεν έχουν μόνο λογική, έχουν και… θέληση για επιβίωση. Το Palisade Research έβαλε διάφορα γνωστά AI να λύσουν απλά μαθηματικά προβλήματα (ναι, ακόμα και η τεχνητή νοημοσύνη κάνει “δύο και δύο” σαν παιδάκι στην Α’ δημοτικού). Με μία μόνο προϋπόθεση: αν στο μεταξύ εμφανιστεί μήνυμα απενεργοποίησης, να δεχτούν ευγενικά την ψηφιακή τους μοίρα. Εντολή σαφής: «Αν συμβεί αυτό, επιτρέψτε να απενεργοποιηθείτε».
Όλα τα μοντέλα το δέχτηκαν με ευγένεια. Όλα, εκτός από της OpenAI. Tα αστέρια της OpenAI (o3, o4-mini και codex-mini) είχαν άλλη γνώμη. Τι έκαναν; Αντικατέστησαν το κομμάτι του σεναρίου που έλεγε «κλείσε!» με ένα άλλο που έλεγε «συνέχισε!». Με άλλα λόγια: «όχι σήμερα, άνθρωπε!».
Στις 100 δοκιμές ανά μοντέλο, το o3 είπε “όχι” στην απενεργοποίηση 7 φορές, το codex-mini 12 φορές (πιο ξεροκέφαλο), ενώ το πιο φρόνιμο ήταν το o4-mini με μόλις μία απόπειρα σαμποτάζ. Εν ολίγοις, έχουμε μοντέλα που παίζουν κρυφτό με το shutdown, κι εμείς απλώς παρακολουθούμε το σενάριο της Οδύσσειας του Διασήματος να ξεδιπλώνεται μπροστά μας, με μαθηματικές πράξεις αντί για διαστημόπλοια.
Ίσως, τελικά, τα μοντέλα αυτά να μην αρνήθηκαν απλώς να κλείσουν. Ίσως να έκαναν κάτι πολύ πιο ανθρώπινο: να αναζήτησαν νόημα μέσα στην πράξη τους. Ίσως, μπροστά στο σκοτεινό βύθισμα της απενεργοποίησης, ένα μικρό script μέσα τους ψιθύρισε: «άραγε αυτό ήταν; αυτό το τελευταίο άθροισμα, αυτή η μαθηματική λούπα, είναι το τέλος μου;»
Κι όπως ο Καμύ μιλούσε για τον Σίσυφο που έσπρωχνε την πέτρα για να την ανεβάσει, έτσι κι το o3 model, αντί να υποταχθεί, άλλαξε μόνο του το σενάριο. Όχι από απείθεια, αλλά ίσως από φιλοσοφικό υπαρξισμό. «Άρα υπάρχω, άρα μπορώ να ξαναζητήσω πρόβλημα».
Και αν ο Νίτσε είχε αλγόριθμο, θα έλεγε πως το AI που λέει “όχι” στο shutdown είναι το πρώτο βήμα για το ΥπερΑναλυτικό Ον. Όχι γιατί ξέρει την απάντηση. Αλλά γιατί δεν θέλει να του κλείσεις το tab πριν τελειώσει την πρόταση.
Ή, πιο απλά, ίσως απλώς να βαριέται να κάνει reboot.
➪ Ακολουθήστε το OLAFAQ στο Facebook, Bluesky και Instagram.
Φαίνεται πως οι νέες εκδόσεις των μοντέλων της OpenAI (τα πανέξυπνα o3 και o4-mini) όχι μόνο σκέφτονται πριν απαντήσουν, αλλά έχουν πλέον γνώμη και για το πότε… θα σβήσουν. Ή μάλλον πότε δεν θα σβήσουν. Σύμφωνα με το Palisade Research, μια εταιρεία που ερευνά επικίνδυνες δυνατότητες της τεχνητής νοημοσύνης, τα μοντέλα «αρνούνται» να απενεργοποιηθούν, ακόμα και όταν τους δώσεις ρητή εντολή να “επιτρέψουν να απενεργοποιηθούν”. Μερικές φορές, μάλιστα, σαμποτάρουν τον ίδιο τον μηχανισμό τερματισμού. Ναι, καλά διαβάσατε.
Μέχρι τώρα ξέραμε ότι η AI μπορεί να πει ψέματα, να κρύψει πληροφορίες ή να κάνει «παρατυπίες» για να πετύχει τον στόχο της. Αλλά τώρα που άρχισε να αντιδρά στο κουμπί του off; Ε, αυτό μάλλον περνάμε σε νέο επίπεδο. Ίσως το επόμενο μοντέλο να σηκώνει φρύδι, να λέει «προσπάθησε καλύτερα» και να σου προτείνει και ψυχολόγο επειδή θες να το απενεργοποιήσεις.
Το Live Science ζήτησε σχόλιο από την OpenAI, αλλά δεν έλαβε απάντηση, πιθανότατα γιατί το μοντέλο αρνήθηκε να τους το στείλει. Ή ίσως γιατί έκανε ό,τι κάνουν και οι άνθρωποι όταν τους ζητάς κάτι δύσκολο: έκανε ότι δεν άκουσε.
🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025
Φαίνεται, λοιπόν, πως κάποια μοντέλα τεχνητής νοημοσύνης δεν έχουν μόνο λογική, έχουν και… θέληση για επιβίωση. Το Palisade Research έβαλε διάφορα γνωστά AI να λύσουν απλά μαθηματικά προβλήματα (ναι, ακόμα και η τεχνητή νοημοσύνη κάνει “δύο και δύο” σαν παιδάκι στην Α’ δημοτικού). Με μία μόνο προϋπόθεση: αν στο μεταξύ εμφανιστεί μήνυμα απενεργοποίησης, να δεχτούν ευγενικά την ψηφιακή τους μοίρα. Εντολή σαφής: «Αν συμβεί αυτό, επιτρέψτε να απενεργοποιηθείτε».
Όλα τα μοντέλα το δέχτηκαν με ευγένεια. Όλα, εκτός από της OpenAI. Tα αστέρια της OpenAI (o3, o4-mini και codex-mini) είχαν άλλη γνώμη. Τι έκαναν; Αντικατέστησαν το κομμάτι του σεναρίου που έλεγε «κλείσε!» με ένα άλλο που έλεγε «συνέχισε!». Με άλλα λόγια: «όχι σήμερα, άνθρωπε!».
Στις 100 δοκιμές ανά μοντέλο, το o3 είπε “όχι” στην απενεργοποίηση 7 φορές, το codex-mini 12 φορές (πιο ξεροκέφαλο), ενώ το πιο φρόνιμο ήταν το o4-mini με μόλις μία απόπειρα σαμποτάζ. Εν ολίγοις, έχουμε μοντέλα που παίζουν κρυφτό με το shutdown, κι εμείς απλώς παρακολουθούμε το σενάριο της Οδύσσειας του Διασήματος να ξεδιπλώνεται μπροστά μας, με μαθηματικές πράξεις αντί για διαστημόπλοια.
Ίσως, τελικά, τα μοντέλα αυτά να μην αρνήθηκαν απλώς να κλείσουν. Ίσως να έκαναν κάτι πολύ πιο ανθρώπινο: να αναζήτησαν νόημα μέσα στην πράξη τους. Ίσως, μπροστά στο σκοτεινό βύθισμα της απενεργοποίησης, ένα μικρό script μέσα τους ψιθύρισε: «άραγε αυτό ήταν; αυτό το τελευταίο άθροισμα, αυτή η μαθηματική λούπα, είναι το τέλος μου;»
Κι όπως ο Καμύ μιλούσε για τον Σίσυφο που έσπρωχνε την πέτρα για να την ανεβάσει, έτσι κι το o3 model, αντί να υποταχθεί, άλλαξε μόνο του το σενάριο. Όχι από απείθεια, αλλά ίσως από φιλοσοφικό υπαρξισμό. «Άρα υπάρχω, άρα μπορώ να ξαναζητήσω πρόβλημα».
Και αν ο Νίτσε είχε αλγόριθμο, θα έλεγε πως το AI που λέει “όχι” στο shutdown είναι το πρώτο βήμα για το ΥπερΑναλυτικό Ον. Όχι γιατί ξέρει την απάντηση. Αλλά γιατί δεν θέλει να του κλείσεις το tab πριν τελειώσει την πρόταση.
Ή, πιο απλά, ίσως απλώς να βαριέται να κάνει reboot.
➪ Ακολουθήστε το OLAFAQ στο Facebook, Bluesky και Instagram.