Τον Απρίλιο, η Υπηρεσία Προηγμένων Ερευνητικών Προγραμμάτων Άμυνας των ΗΠΑ (DARPA) ξεκίνησε μια νέα πρωτοβουλία με το όνομα expMath—συντομογραφία του Exponentiating Mathematics—με την οποία ελπίζει να επιταχύνει τον ρυθμό προόδου σε έναν τομέα έρευνας που στηρίζει μια ευρεία γκάμα σημαντικών εφαρμογών στον πραγματικό κόσμο: από την πληροφορική και την ιατρική έως την εθνική ασφάλεια. 

Ο σύγχρονος κόσμος είναι χτισμένος πάνω στα μαθηματικά. Τα μαθηματικά μας επιτρέπουν να μοντελοποιούμε πολύπλοκα συστήματα όπως τη ροή του αέρα γύρω από ένα αεροσκάφος, τις διακυμάνσεις των χρηματοπιστωτικών αγορών και τη ροή του αίματος μέσα από την καρδιά. Επιπλέον επιστημονικές ανακαλύψεις στα προχωρημένα μαθηματικά μπορούν να ξεκλειδώσουν νέες τεχνολογίες, όπως η κρυπτογράφηση—απαραίτητη για την ιδιωτικότητα στις συνομιλίες και τις τραπεζικές συναλλαγές στο διαδίκτυο—ή η συμπίεση δεδομένων που μας επιτρέπει να στέλνουμε εικόνες και βίντεο μέσω του Ίντερνετ. 

Η πρόοδος στα μαθηματικά απαιτεί χρόνια για να επιτευχθεί. Η DARPA θέλει να επιταχύνει αυτή τη διαδικασία. Ο στόχος της πρωτοβουλίας expMath είναι να ενθαρρύνει μαθηματικούς και ερευνητές της τεχνητής νοημοσύνης να αναπτύξουν αυτό που η DARPA αποκαλεί AI coauthor—ένα εργαλείο που θα μπορεί να «σπάει» μεγάλα, σύνθετα μαθηματικά προβλήματα σε μικρότερα και απλούστερα, τα οποία θα είναι πιο εύκολα κατανοητά και—θεωρητικά—πιο γρήγορα επιλύσιμα. 

Οι μαθηματικοί χρησιμοποιούν υπολογιστές εδώ και δεκαετίες, είτε για να επιταχύνουν υπολογισμούς είτε για να επαληθεύσουν την εγκυρότητα μαθηματικών ισχυρισμών. Το νέο όραμα όμως, είναι ότι η τεχνητή νοημοσύνη μπορεί να τους βοηθήσει να λύσουν προβλήματα που μέχρι τώρα θεωρούνταν άλυτα. 

Υπάρχει μια τεράστια διαφορά ανάμεσα σε ένα σύστημα τεχνητής νοημοσύνης που μπορεί να λύνει προβλήματα σχολικού επιπέδου—τα οποία η νέα γενιά μοντέλων έχει ήδη κατακτήσει—και σε ένα σύστημα που θα μπορούσε (θεωρητικά) να λύσει τα είδη προβλημάτων με τα οποία οι επαγγελματίες μαθηματικοί παλεύουν σε ολόκληρη την καριέρα τους. 

Τα μεγάλα γλωσσικά μοντέλα (LLMs) δεν είναι γνωστά για τις μαθηματικές τους ικανότητες. Συχνά επινοούν απαντήσεις και μπορούν να πειστούν ότι 2 + 2 = 5. Όμως οι νεότερες εκδοχές αυτής της τεχνολογίας—ειδικά τα λεγόμενα large reasoning models (LRMs), όπως το o3 της OpenAI και το Claude 4 Thinking της Anthropic—είναι πολύ πιο ικανές, κάτι που ενθουσιάζει τους μαθηματικούς. 

Φέτος αρκετά από αυτά τα LRM μοντέλα που προσπαθούν να λύσουν προβλήματα βήμα προς βήμα αντί να «ξεστομίσουν» απευθείας την πρώτη απάντηση, πέτυχαν υψηλές επιδόσεις στην American Invitational Mathematics Examination (AIME), μια εξέταση για το κορυφαίο 5% των μαθητών μαθηματικών στις ΗΠΑ. 

Παράλληλα, νέα υβριδικά μοντέλα που συνδυάζουν LLMs με συστήματα ελέγχου ορθότητας (fact-checking) πέτυχαν επίσης σημαντικές προόδους. Η μαθηματικός Emily de Oliveira Santos από το Πανεπιστήμιο του Σάο Πάολο στη Βραζιλία, επισημαίνει το AlphaProof της Google DeepMind, ένα σύστημα που συνδυάζει LLM με το AlphaZero—το μοντέλο-παίχτη παιχνιδιών της DeepMind—ως σημείο-ορόσημο. Το 2023 το AlphaProof έγινε το πρώτο πρόγραμμα υπολογιστή που πέτυχε την απόδοση αργυρού μεταλλιούχου στην Διεθνή Ολυμπιάδα Μαθηματικών. 

Τον Μάιο, το AlphaEvolve της DeepMind βρήκε καλύτερες λύσεις από όσες είχαν καταφέρει άνθρωποι μέχρι τότε για πάνω από 50 άλυτους μαθηματικούς γρίφους και αρκετά προβλήματα επιστήμης υπολογιστών του πραγματικού κόσμου. 

Η πρόοδος είναι αισθητή. «Το GPT-4 δεν μπορούσε να λύσει μαθηματικά πέρα από το προπτυχιακό επίπεδο» υποστηρίζει η de Oliveira Santos. «Θυμάμαι που του έβαλα ένα πρόβλημα τοπολογίας και δεν μπορούσε να γράψει ούτε λίγες γραμμές χωρίς να χαθεί». Όταν όμως έβαλε το ίδιο πρόβλημα στο o1, ένα LRM που κυκλοφόρησε η OpenAI τον Ιανουάριο, το έλυσε άψογα. 

Για να κατανοήσουμε καλύτερα τι μπορούν και τι δεν μπορούν να κάνουν τα σημερινά συστήματα, μια startup με το όνομα Epoch AI δημιούργησε ένα νέο τεστ: το FrontierMath που κυκλοφόρησε τον Δεκέμβριο. Αντί να χρησιμοποιήσει μαθηματικά τεστ σχεδιασμένα για ανθρώπους, η Epoch συνεργάστηκε με πάνω από 60 μαθηματικούς παγκοσμίως για να φτιάξει από το μηδέν ένα νέο σύνολο προβλημάτων. 

Το FrontierMath έχει σχεδιαστεί για να διερευνά τα όρια των δυνατοτήτων της ΤΝ. Κανένα από τα προβλήματα δεν έχει εμφανιστεί ξανά και η πλειοψηφία τους κρατείται μυστική, ώστε να μην ενσωματωθούν κατά λάθος στα δεδομένα εκπαίδευσης των μοντέλων. Κάθε πρόβλημα απαιτεί ώρες δουλειάς από εξειδικευμένους μαθηματικούς και συχνά χρειάζεται ειδική γνώση. Το FrontierMath αναμένεται να γίνει το νέο βιομηχανικό πρότυπο. Δεν είναι ακόμη τόσο δημοφιλές όσο το AIME, λέει η de Oliveira Santos, η οποία βοήθησε στην ανάπτυξή του: «Αλλά δεν νομίζω ότι αυτό θα συνεχιστεί για πολύ, καθώς τα υπάρχοντα benchmarks είναι σχεδόν κορεσμένα». 

Παρότι τα μαθηματικά συχνά θεωρούνται μια μηχανιστική διαδικασία βήμα-προς-βήμα, η πραγματική πρόοδος στα ανώτερα μαθηματικά απαιτεί πειραματισμό, δοκιμή και στιγμές διορατικότητας. 

Η πρόοδος που σημειώνουν τα νέα μοντέλα ΤΝ, όπως το o3 και το AlphaEvolve, δείχνει ότι η μηχανική επεξεργασία τεράστιων συνδυαστικών χώρων (δηλαδή πιθανών διαδοχών βημάτων) γίνεται όλο και πιο αποτελεσματική. Πολλοί μαθηματικοί επισημαίνουν ότι οι μεγάλες αποκαλύψεις έρχονται όχι από brute-force εξερεύνηση, αλλά από συνδέσεις ανάμεσα σε φαινομενικά άσχετα πεδία, από αισθητική κρίση, από αίσθηση απλότητας ή συμμετρίας—στοιχεία που δύσκολα περιγράφονται σε κώδικα. 

Και όμως κάποιοι ερευνητές όπως ο Gukov ελπίζουν ότι οι τεχνικές της ενισχυτικής μάθησης (reinforcement learning) μπορούν να οδηγήσουν την ΤΝ σε περιοχές πέρα από την εκπαίδευσή της—σε κάτι που μοιάζει με δημιουργική έμπνευση. 

Αυτό είναι το σημείο όπου εργαλεία όπως το AlphaEvolve γίνονται καθοριστικά. Το τελευταίο μοντέλο της Google DeepMind ζητά από ένα μεγάλο γλωσσικό μοντέλο (LLM) να δημιουργήσει κώδικα για την επίλυση ενός συγκεκριμένου μαθηματικού προβλήματος. Ένα δεύτερο μοντέλο αξιολογεί τις προτεινόμενες λύσεις, επιλέγει την καλύτερη και την επιστρέφει στο LLM για περαιτέρω βελτίωση. Μετά από εκατοντάδες γύρους δοκιμών και σφαλμάτων, το AlphaEvolve κατάφερε να παράγει λύσεις για μια ευρεία γκάμα μαθηματικών προβλημάτων που ξεπερνούσαν ό,τι είχε καταφέρει μέχρι τότε η ανθρώπινη σκέψη. 

Όμως αυτό το εργαλείο μπορεί να λειτουργήσει και συνεργατικά: σε οποιοδήποτε στάδιο, οι άνθρωποι μπορούν να προσφέρουν τη δική τους διορατικότητα στο LLM, καθοδηγώντας το με συγκεκριμένες υποδείξεις. 

Αυτού του τύπου η εξερεύνηση είναι κρίσιμη στα ανώτερα μαθηματικά. Αυτό το «brainstorming» είναι ουσιώδες μέρος της μαθηματικής δημιουργίας. Έτσι γεννιούνται νέες ιδέες. 

Ίσως τα εργαλεία ΤΝ όπως το AlphaEvolve και το PatternBoost πρέπει να ιδωθούν όχι ως δημιουργοί, αλλά ως «προπομποί» της ανθρώπινης διαίσθησης. Μπορούν να ανακαλύψουν νέες κατευθύνσεις, να δείξουν αδιέξοδα και να γλιτώσουν στους μαθηματικούς μήνες ή και χρόνια άσκοπης δουλειάς. Όμως οι πραγματικές τομές —όπως πάντα— φαίνεται ότι εξακολουθούν να προέρχονται από ανθρώπινα μυαλά, όπως συμβαίνει εδώ και χιλιετίες. 

*Με στοιχεία από το Technology Review.

 

 Ακολουθήστε το OLAFAQ στο Facebook, Bluesky και Instagram.