Στην Chatbot Arena υπάρχει μόνο ένας νικητής. Ή μήπως όχι;

Η βαθμολόγηση μεγάλων γλωσσικών μοντέλων (LLM) και των chatbots που τα χρησιμοποιούν δεν είναι κάτι εύκολο. Εκτός από την καταμέτρηση περιπτώσεων όπου γίνονται πραγματικά λάθη και της ταχύτητας επεξεργασίας τους, δεν υπάρχουν παγκοσμίως αποδεκτές αντικειμενικές μετρήσεις. Προς το παρόν, βρισκόμαστε στο συγκριτικό στάδιο υποκειμενικών μετρήσεων.

Παρ’ όλα αυτά, ο οργανισμός LMSYS (Large Model Systems Organization), ένας open source ερευνητικός οργανισμός που ιδρύθηκε από φοιτητές και καθηγητές του UC Berkeley σε συνεργασία με το UCSD και το CMU, δημιούργησε μια Chatbot Arena και δημοσίευσε έναν πίνακα κατάταξης για τα μεγάλα γλωσσικά μοντέλα που συμμετείχαν σε αυτήν. Χρησιμοποίησαν το σύστημα αξιολόγησης Elo, το οποίο χρησιμοποιείται ευρέως για την κατάταξη παικτών σε παιχνίδια μηδενικού αθροίσματος, όπως το σκάκι. Η διαδικασία ήταν η εξής: δύο LLMs ανταγωνίζονται σε τυχαίους αγώνες, με τους ανθρώπους να κρίνουν στα ποιο bot προτιμούν με βάση την απόδοσή του.

Από την έναρξη της λειτουργίας της πέρυσι, το GPT-4 της OpenAI κατέχει την πρώτη θέση στην Chatbot Arena του LMSYS. Έχει γίνει μάλιστα το «χρυσό πρότυπο», με τα συστήματα με την υψηλότερη κατάταξη να περιγράφονται ως μοντέλα «κατηγορίας GPT-4». Ωστόσο, το δημοφιλές LLM της OpenAI εκτοπίστηκε από την πρώτη θέση, όταν το Claude 3 Opus της Anthropic το νίκησε με μικρή διαφορά, 1253 προς 1251. Η νίκη ήταν τόσο κοντινή που το περιθώριο σφάλματος τοποθετεί το Claude 3 και το GPT-4 σε τριπλή ισοβαθμία για την πρώτη θέση, με μια άλλη έκδοση του GPT-4 σε δοκιμαστικό στάδιο.

[Arena Update]
70K+ new Arena votes🗳️ are in!

Claude-3 Haiku has impressed all, even reaching GPT-4 level by our user preference! Its speed, capabilities & context length are unmatched now in the market🔥

Congrats @AnthropicAI on the incredible Claude-3 launch!

More exciting… pic.twitter.com/p1Guuf0B3K

— lmsys.org (@lmsysorg) March 26, 2024

Επίσης εντυπωσιακό, και ίσως λίγο περισσότερο, είναι η εμφάνιση του Claude 3 Haiku στην πρώτη δεκάδα. Το Haiku είναι το μοντέλο local size της Anthropic, συγκρίσιμο με το Gemini Nano της Google. Είναι εκθετικά μικρότερο από το Opus, το οποίο έχει τρισεκατομμύρια παραμέτρους, καθιστώντας το πολύ πιο γρήγορο σε σύγκριση. Σύμφωνα με τον LMSYS, η κατάταξη στην 7η θέση του πίνακα αναβαθμίζει το Haiku στην κατηγορία GPT-4.

Βέβαια η πρωτιά της Anthropic με το Claude 3 Opus μάλλον δε θα κρατήσει για πολύ, καθώς την περασμένη εβδομάδα άνθρωποι μέσα από την OpenAI διέρρευσαν ότι το GPT-5 είναι σχεδόν έτοιμο για το δημόσιο ντεμπούτο του και αναμένεται να κυκλοφορήσει «στα μέσα του έτους». Το νέο LLM είναι κατά πολύ καλύτερο από το GPT-4, σύμφωνα με τις πληροφορίες της εταιρείας, ενώ οι πηγές λένε ότι χρησιμοποιεί πολλαπλά εξωτερικά συστήματα Τεχνητής Νοημοσύνης για την εκτέλεση συγκεκριμένων εργασιών, πράγμα που σημαίνει ότι θα πρέπει να είναι σε θέση να επιλύει αξιόπιστα πολύπλοκα προβλήματα πολύ πιο γρήγορα.

Πηγή: TechSpot

Ακολουθήστε το OLAFAQ
στο Google News

Εφημερίδα

Στην Chatbot Arena υπάρχει μόνο ένας νικητής. Ή μήπως όχι;

Newsroom

28.03.2024

Newsroom

Ο Abul Mogard και η τέχνη της υπομονής στην εποχή της διάσπασης

5 σπουδαίες ταινίες στο Cinobo

Shadowbanned ή απλώς… έπεσε ο διακόπτης; Το TikTok, ο αλγόριθμος και η νέα ψηφιακή παράνοια

Ακολούθησέ μας

Σχετικά με εμάς

Διαφημιστείτε

Επικοινωνία

Πολιτική Απορρήτου

Όροι χρήσης

Ακολούθησέ μας

Newsroom

Δείτε επίσης

Οι διαφημίσεις στο Apple Maps μετατρέπουν την πλοήγηση σε πεδίο επιρροής, εκεί όπου η κατεύθυνση γίνεται εμπορική υπόθεση.

Οι διαφημίσεις στο Apple Maps μετατρέπουν την πλοήγηση σε πεδίο επιρροής, εκεί όπου η κατεύθυνση γίνεται εμπορική υπόθεση.

Το Spotify δίνει στους καλλιτέχνες έλεγχο στα προφίλ τους, αλλά το πρόβλημα της AI υπερπαραγωγής παραμένει άλυτο και δομικό.

Το Spotify δίνει στους καλλιτέχνες έλεγχο στα προφίλ τους, αλλά το πρόβλημα της AI υπερπαραγωγής παραμένει άλυτο και δομικό.

Νέα εποχή podacast με τη σφραγίδα AI.

Νέα εποχή podacast με τη σφραγίδα AI.

Η βρετανική κυβέρνηση υποχωρεί στο σχέδιο για AI και πνευματικά δικαιώματα, παραδεχόμενη ότι δεν υπάρχει ακόμη καμία σαφής λύση.

Η βρετανική κυβέρνηση υποχωρεί στο σχέδιο για AI και πνευματικά δικαιώματα, παραδεχόμενη ότι δεν υπάρχει ακόμη καμία σαφής λύση.

Ακολούθησέ μας

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"