Στην Chatbot Arena υπάρχει μόνο ένας νικητής. Ή μήπως όχι;

Η βαθμολόγηση μεγάλων γλωσσικών μοντέλων (LLM) και των chatbots που τα χρησιμοποιούν δεν είναι κάτι εύκολο. Εκτός από την καταμέτρηση περιπτώσεων όπου γίνονται πραγματικά λάθη και της ταχύτητας επεξεργασίας τους, δεν υπάρχουν παγκοσμίως αποδεκτές αντικειμενικές μετρήσεις. Προς το παρόν, βρισκόμαστε στο συγκριτικό στάδιο υποκειμενικών μετρήσεων.

Παρ’ όλα αυτά, ο οργανισμός LMSYS (Large Model Systems Organization), ένας open source ερευνητικός οργανισμός που ιδρύθηκε από φοιτητές και καθηγητές του UC Berkeley σε συνεργασία με το UCSD και το CMU, δημιούργησε μια Chatbot Arena και δημοσίευσε έναν πίνακα κατάταξης για τα μεγάλα γλωσσικά μοντέλα που συμμετείχαν σε αυτήν. Χρησιμοποίησαν το σύστημα αξιολόγησης Elo, το οποίο χρησιμοποιείται ευρέως για την κατάταξη παικτών σε παιχνίδια μηδενικού αθροίσματος, όπως το σκάκι. Η διαδικασία ήταν η εξής: δύο LLMs ανταγωνίζονται σε τυχαίους αγώνες, με τους ανθρώπους να κρίνουν στα ποιο bot προτιμούν με βάση την απόδοσή του.

Από την έναρξη της λειτουργίας της πέρυσι, το GPT-4 της OpenAI κατέχει την πρώτη θέση στην Chatbot Arena του LMSYS. Έχει γίνει μάλιστα το «χρυσό πρότυπο», με τα συστήματα με την υψηλότερη κατάταξη να περιγράφονται ως μοντέλα «κατηγορίας GPT-4». Ωστόσο, το δημοφιλές LLM της OpenAI εκτοπίστηκε από την πρώτη θέση, όταν το Claude 3 Opus της Anthropic το νίκησε με μικρή διαφορά, 1253 προς 1251. Η νίκη ήταν τόσο κοντινή που το περιθώριο σφάλματος τοποθετεί το Claude 3 και το GPT-4 σε τριπλή ισοβαθμία για την πρώτη θέση, με μια άλλη έκδοση του GPT-4 σε δοκιμαστικό στάδιο.

[Arena Update]
70K+ new Arena votes🗳️ are in!

Claude-3 Haiku has impressed all, even reaching GPT-4 level by our user preference! Its speed, capabilities & context length are unmatched now in the market🔥

Congrats @AnthropicAI on the incredible Claude-3 launch!

More exciting… pic.twitter.com/p1Guuf0B3K

— lmsys.org (@lmsysorg) March 26, 2024

Επίσης εντυπωσιακό, και ίσως λίγο περισσότερο, είναι η εμφάνιση του Claude 3 Haiku στην πρώτη δεκάδα. Το Haiku είναι το μοντέλο local size της Anthropic, συγκρίσιμο με το Gemini Nano της Google. Είναι εκθετικά μικρότερο από το Opus, το οποίο έχει τρισεκατομμύρια παραμέτρους, καθιστώντας το πολύ πιο γρήγορο σε σύγκριση. Σύμφωνα με τον LMSYS, η κατάταξη στην 7η θέση του πίνακα αναβαθμίζει το Haiku στην κατηγορία GPT-4.

Βέβαια η πρωτιά της Anthropic με το Claude 3 Opus μάλλον δε θα κρατήσει για πολύ, καθώς την περασμένη εβδομάδα άνθρωποι μέσα από την OpenAI διέρρευσαν ότι το GPT-5 είναι σχεδόν έτοιμο για το δημόσιο ντεμπούτο του και αναμένεται να κυκλοφορήσει «στα μέσα του έτους». Το νέο LLM είναι κατά πολύ καλύτερο από το GPT-4, σύμφωνα με τις πληροφορίες της εταιρείας, ενώ οι πηγές λένε ότι χρησιμοποιεί πολλαπλά εξωτερικά συστήματα Τεχνητής Νοημοσύνης για την εκτέλεση συγκεκριμένων εργασιών, πράγμα που σημαίνει ότι θα πρέπει να είναι σε θέση να επιλύει αξιόπιστα πολύπλοκα προβλήματα πολύ πιο γρήγορα.

Πηγή: TechSpot

Ακολουθήστε το OLAFAQ
στο Google News

Εφημερίδα

Στην Chatbot Arena υπάρχει μόνο ένας νικητής. Ή μήπως όχι;

Newsroom

28.03.2024

Newsroom

10 αξεπέραστα jazz άλμπουμ για ένα καυτό καλοκαίρι

Γρηγόρης Αζαριάδης: «Οι ηττημένοι έχουν πολλές γοητευτικές ιστορίες να διηγηθούν»

Φταίει η Bonnie Blue για την υπερσεξουαλικοποίηση των γυναικών το 2025;

Τεχνολογία

Ψηφιακοί καθαριστές στα όρια: Ο αγώνας για ανθρώπινες συνθήκες πίσω από το TikTok

Πίσω από τις οθόνες μας, ξετυλίγεται μια παγκόσμια κρίση ψυχικής υγείας και εργασιακής εκμετάλλευσης που όλο και λιγότερο μπορούμε να αγνοούμε.

Τεχνολογία

Ψηφιακοί καθαριστές στα όρια: Ο αγώνας για ανθρώπινες συνθήκες πίσω από το TikTok

Πίσω από τις οθόνες μας, ξετυλίγεται μια παγκόσμια κρίση ψυχικής υγείας και εργασιακής εκμετάλλευσης που όλο και λιγότερο μπορούμε να αγνοούμε.

Τεχνολογία

Μαζική διαρροή 16 δισ. κωδικών θέτει σε κίνδυνο χρήστες Facebook, Google, Instagram και Apple

Τεχνολογία

Μαζική διαρροή 16 δισ. κωδικών θέτει σε κίνδυνο χρήστες Facebook, Google, Instagram και Apple

Τεχνολογία

Το TikTok Shop αναμετριέται με Shein και Temu στη μάχη του ηλεκτρονικού εμπορίου

Τεχνολογία

Το TikTok Shop αναμετριέται με Shein και Temu στη μάχη του ηλεκτρονικού εμπορίου

Τεχνολογία

Σύγκρουση Ισραήλ–Ιράν: Καταιγισμός παραπληροφόρησης και ψευδών ειδήσεων στα social media

Τεχνολογία

Σύγκρουση Ισραήλ–Ιράν: Καταιγισμός παραπληροφόρησης και ψευδών ειδήσεων στα social media

Ακολούθησέ μας

Σχετικά με εμάς

Διαφημιστείτε

Επικοινωνία

Πολιτική Απορρήτου

Όροι χρήσης

Ακολούθησέ μας

Newsroom

Δείτε επίσης

Πίσω από τις οθόνες μας, ξετυλίγεται μια παγκόσμια κρίση ψυχικής υγείας και εργασιακής εκμετάλλευσης που όλο και λιγότερο μπορούμε να αγνοούμε.

Πίσω από τις οθόνες μας, ξετυλίγεται μια παγκόσμια κρίση ψυχικής υγείας και εργασιακής εκμετάλλευσης που όλο και λιγότερο μπορούμε να αγνοούμε.

Ακολούθησέ μας

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"

Για να κατεβάσετε το Τεύχος του OLAFAQ συμπληρώστε το e-mail σας και πατήστε "Download"