Η βαθμολόγηση μεγάλων γλωσσικών μοντέλων (LLM) και των chatbots που τα χρησιμοποιούν δεν είναι κάτι εύκολο. Εκτός από την καταμέτρηση περιπτώσεων όπου γίνονται πραγματικά λάθη και της ταχύτητας επεξεργασίας τους, δεν υπάρχουν παγκοσμίως αποδεκτές αντικειμενικές μετρήσεις. Προς το παρόν, βρισκόμαστε στο συγκριτικό στάδιο υποκειμενικών μετρήσεων.
Παρ’ όλα αυτά, ο οργανισμός LMSYS (Large Model Systems Organization), ένας open source ερευνητικός οργανισμός που ιδρύθηκε από φοιτητές και καθηγητές του UC Berkeley σε συνεργασία με το UCSD και το CMU, δημιούργησε μια Chatbot Arena και δημοσίευσε έναν πίνακα κατάταξης για τα μεγάλα γλωσσικά μοντέλα που συμμετείχαν σε αυτήν. Χρησιμοποίησαν το σύστημα αξιολόγησης Elo, το οποίο χρησιμοποιείται ευρέως για την κατάταξη παικτών σε παιχνίδια μηδενικού αθροίσματος, όπως το σκάκι. Η διαδικασία ήταν η εξής: δύο LLMs ανταγωνίζονται σε τυχαίους αγώνες, με τους ανθρώπους να κρίνουν στα ποιο bot προτιμούν με βάση την απόδοσή του.
Από την έναρξη της λειτουργίας της πέρυσι, το GPT-4 της OpenAI κατέχει την πρώτη θέση στην Chatbot Arena του LMSYS. Έχει γίνει μάλιστα το «χρυσό πρότυπο», με τα συστήματα με την υψηλότερη κατάταξη να περιγράφονται ως μοντέλα «κατηγορίας GPT-4». Ωστόσο, το δημοφιλές LLM της OpenAI εκτοπίστηκε από την πρώτη θέση, όταν το Claude 3 Opus της Anthropic το νίκησε με μικρή διαφορά, 1253 προς 1251. Η νίκη ήταν τόσο κοντινή που το περιθώριο σφάλματος τοποθετεί το Claude 3 και το GPT-4 σε τριπλή ισοβαθμία για την πρώτη θέση, με μια άλλη έκδοση του GPT-4 σε δοκιμαστικό στάδιο.
[Arena Update]
70K+ new Arena votes🗳️ are in!
Claude-3 Haiku has impressed all, even reaching GPT-4 level by our user preference! Its speed, capabilities & context length are unmatched now in the market🔥
Congrats @AnthropicAI on the incredible Claude-3 launch!
More exciting… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) March 26, 2024
Επίσης εντυπωσιακό, και ίσως λίγο περισσότερο, είναι η εμφάνιση του Claude 3 Haiku στην πρώτη δεκάδα. Το Haiku είναι το μοντέλο local size της Anthropic, συγκρίσιμο με το Gemini Nano της Google. Είναι εκθετικά μικρότερο από το Opus, το οποίο έχει τρισεκατομμύρια παραμέτρους, καθιστώντας το πολύ πιο γρήγορο σε σύγκριση. Σύμφωνα με τον LMSYS, η κατάταξη στην 7η θέση του πίνακα αναβαθμίζει το Haiku στην κατηγορία GPT-4.
Βέβαια η πρωτιά της Anthropic με το Claude 3 Opus μάλλον δε θα κρατήσει για πολύ, καθώς την περασμένη εβδομάδα άνθρωποι μέσα από την OpenAI διέρρευσαν ότι το GPT-5 είναι σχεδόν έτοιμο για το δημόσιο ντεμπούτο του και αναμένεται να κυκλοφορήσει «στα μέσα του έτους». Το νέο LLM είναι κατά πολύ καλύτερο από το GPT-4, σύμφωνα με τις πληροφορίες της εταιρείας, ενώ οι πηγές λένε ότι χρησιμοποιεί πολλαπλά εξωτερικά συστήματα Τεχνητής Νοημοσύνης για την εκτέλεση συγκεκριμένων εργασιών, πράγμα που σημαίνει ότι θα πρέπει να είναι σε θέση να επιλύει αξιόπιστα πολύπλοκα προβλήματα πολύ πιο γρήγορα.
Πηγή: TechSpot