Σας λέει κάτι το όνομα Exa; Πιθανότατα όχι, κρατήστε το, όμως, στο πίσω μέρος του μυαλού σας γιατί όπως φαίνεται θα μας απασχολήσει αρκετά στο μέλλον.
Η αναδυόμενη νεοφυής επιχείρηση προτείνει μια νέα προσέγγιση στην παραγωγική αναζήτηση. Χρησιμοποιεί την τεχνολογία πίσω από τα μεγάλα γλωσσικά μοντέλα για να παρέχει λίστες αποτελεσμάτων που όπως ισχυρίζεται είναι πιο ακριβείς από αυτές των ανταγωνιστών της, συμπεριλαμβανομένων της Google και της OpenAI. Ο στόχος είναι να μετατρέψει το τεράστιο και χαοτικό σύμπλεγμα ιστοσελίδων του Διαδικτύου σε έναν πίνακα αναζήτησης, όπου οι ερωτήσεις επιστρέφουν ακριβή αποτελέσματα.
Η Exa ήδη προσφέρει τη μηχανή αναζήτησής της ως υπηρεσία “παρασκηνίου” σε εταιρείες που θέλουν να χτίσουν τις δικές τους εφαρμογές πάνω σε αυτήν. Σήμερα λανσάρει την πρώτη έκδοση για καταναλωτές αυτής της μηχανής αναζήτησης που ονομάζεται Websets.
«Το Διαδίκτυο είναι μια συλλογή δεδομένων, αλλά παράλληλα είναι ένα χάος», λέει ο συνιδρυτής και διευθύνων σύμβουλος της Exa, Γουίλ Μπράικ. Το Websets απευθύνεται σε απαιτητικούς χρήστες που χρειάζονται να αναζητήσουν πράγματα που οι άλλες μηχανές αναζήτησης δεν είναι καλές στο να βρίσκουν, όπως τύπους ανθρώπων ή εταιρειών. Αν ρωτήσετε για «startups που φτιάχνουν μελλοντικό hardware», θα δείτε ως αποτέλεσμα της αναζήτησής σας μια λίστα με εκατοντάδες συγκεκριμένες εταιρείες αντί για τυχαίους συνδέσμους σε ιστοσελίδες που αναφέρουν αυτούς τους όρους. Η Google δεν μπορεί να το κάνει αυτό, λέει ο Μπράικ.
Κολοσσοί όπως η Google και η Microsoft ανταγωνίζονται με μια σειρά από ανερχόμενους νεοεισερχόμενους “παίχτες” όπως η Perplexity και η OpenAI, που λάνσαρε το ChatGPT Search τον Οκτώβριο. Η Exa δεν προσπαθεί (ακόμη) να ξεπεράσει αυτές τις εταιρείες. Αντίθετα προτείνει κάτι νέο. Οι περισσότερες εταιρείες αναζήτησης χρησιμοποιούν μεγάλα γλωσσικά μοντέλα γύρω από τις υπάρχουσες μηχανές αναζήτησης, χρησιμοποιώντας τα μοντέλα για να αναλύσουν το ερώτημα του χρήστη και στη συνέχεια να συνοψίσουν τα αποτελέσματα. Για παράδειγμα, η Perplexity να στέλνει τα ερωτήματά της στην Google Search ή στο Bing. Σκεφτείτε τις σημερινές AI μηχανές αναζήτησης σαν σάντουιτς με φρέσκο ψωμί και μπαγιάτικη γέμιση.
Η Exa παρέχει στους χρήστες γνώριμες λίστες συνδέσμων, αλλά χρησιμοποιεί την τεχνολογία πίσω από τα μεγάλα γλωσσικά μοντέλα για να επανεφεύρει τον τρόπο που γίνεται η αναζήτηση. Η βασική ιδέα είναι η εξής: η Google λειτουργεί ανιχνεύοντας το Διαδίκτυο και δημιουργώντας έναν τεράστιο κατάλογο λέξεων-κλειδιών που στη συνέχεια αντιστοιχίζονται με τα ερωτήματα των χρηστών. Η Exa ανιχνεύει το Διαδίκτυο και κωδικοποιεί το περιεχόμενο των ιστοσελίδων σε μια μορφή που είναι γνωστή ως «word embeddings», η οποία μπορεί να επεξεργαστεί από μεγάλα γλωσσικά μοντέλα.Τα embeddings μετατρέπουν λέξεις σε αριθμούς με τέτοιο τρόπο, ώστε λέξεις με παρόμοιες σημασίες να γίνονται αριθμοί με παρόμοιες τιμές. Αυτό επιτρέπει στην Exa να καταγράφει το νόημα του κειμένου στις ιστοσελίδες, όχι μόνο τις λέξεις-κλειδιά.
Τα μεγάλα γλωσσικά μοντέλα χρησιμοποιούν embeddings για να προβλέπουν τις επόμενες λέξεις σε μια πρόταση. Η μηχανή αναζήτησης της Exa προβλέπει τον επόμενο σύνδεσμο. Αν πληκτρολογήσετε «startups που φτιάχνουν μελλοντικό hardware», το μοντέλο θα σας δώσει (πραγματικούς) συνδέσμους που θα μπορούσαν να ακολουθούν αυτή τη φράση.
Η προσέγγιση της Exa έχει υψηλό κόστος. Η κωδικοποίηση των σελίδων αντί της καταχώρισης λέξεων-κλειδιών είναι αργή και ακριβή. Η Exa έχει κωδικοποιήσει περίπου ένα δισεκατομμύριο ιστοσελίδες. Αυτό είναι ελάχιστο μπροστά στη Google, η οποία έχει καταχωρίσει περίπου ένα τρισεκατομμύριο. Το Websets είναι πολύ αργό στην επιστροφή αποτελεσμάτων. Μια αναζήτηση μπορεί να πάρει αρκετά λεπτά. Όμως, ο Μπράικ ισχυρίζεται ότι αξίζει τον κόπο. «Βρίσκω την Exa πιο χρήσιμη όταν δεν ξέρω ακριβώς τι ψάχνω», λέει ο Andrew Gao, φοιτητής επιστήμης υπολογιστών στο Πανεπιστήμιο του Stanford που έχει χρησιμοποιήσει τη μηχανή αναζήτησης.
«Πιστεύω ότι τα embeddings είναι ένας εξαιρετικός τρόπος να αναπαρασταθούν οντότητες, όπως άνθρωποι, μέρη και πράγματα στον πραγματικό κόσμο», λέει ο Mike Tung, CEO της Diffbot μιας εταιρείας που χρησιμοποιεί γραφήματα γνώσης για να δημιουργήσει μια ακόμα διαφορετική μορφή μηχανής αναζήτησης. Ωστόσο, σημειώνει ότι χάνεται πολύ πληροφορία αν προσπαθήσεις να κωδικοποιήσεις ολόκληρες προτάσεις ή σελίδες κειμένου.
Η Exa δεν είναι τόσο καλή όσο οι ανταγωνιστικές μηχανές αναζήτησης αν απλώς θέλετε να βρείτε μια μεμονωμένη πληροφορία, όπως το όνομα του συντρόφου της Taylor Swift ή ποιος είναι ο Γουίλ Μπράικ: «Θα εμφανίσει πολλά άτομα με πολωνικά ονόματα, επειδή το επώνυμό μου είναι πολωνικό και τα embeddings δεν είναι καλά στο να ταιριάζουν ακριβείς λέξεις-κλειδιά». Η Exa ξεπερνά αυτό το πρόβλημα συνδυάζοντας πάλι λέξεις-κλειδιά όταν χρειάζεται κι ο Μπράικ δηλώνει αισιόδοξος:
*Με στοιχεία από το Technology Review.
➪ Ακολουθήστε το OLAFAQ στο Facebook, Bluesky και Inst agram.