Μία σημαντική διαρροή εσωτερικών εγγράφων της Google μας προσφέρει μία άνευ προηγουμένου ματιά στον αυστηρά φυλαγμένο αλγόριθμό της -αξίας δισεκατομμυρίων- που αφορά την κατάταξη των αποτελεσμάτων που εμφανίζονται στο Google Search. Οι διαρροές αυτές, που περιλαμβάνουν λεπτομέρειες για πάνω από 14.000 χαρακτηριστικά κατάταξης, ρίχνουν φως σε διάφορους παράγοντες που λειτουργούν ως κριτήρια για την εμφάνιση των αποτελεσμάτων στη μηχανή αναζήτησης της εταιρείας, όπως δείκτες μετρήσεις αλληλεπίδρασης χρηστών, τα δεδομένα περιήγησης του Chrome, οι verified ιστοσελίδες και η ποιότητα περιεχομένου αυτών, και σε ορισμένες περιπτώσεις φαίνεται να αντικρούουν τις δημόσιες τοποθετήσεις της Google σχετικά με τα συστήματα κατάταξης που χρησιμοποιεί και (νομίζαμε ότι) γνωρίζαμε μέχρι σήμερα.
Τα έγγραφα λοιπόν αποκαλύπτουν ότι το σύστημα κατάταξης της Google αποτελείται από 2.596 modules (μηχανισμοί) με 14.014 χαρακτηριστικά που σχετίζονται με διάφορες υπηρεσίες της Google, όπως το YouTube, το Google Assistant κ.α. Αυτοί οι μηχανισμοί είναι μέρος ενός τεράστιου «monolithic repository» ή «monorepo», όπως ονομάζεται. Τα έγγραφα αναφέρουν επίσης τα λεγόμενα «twiddlers», που είναι λειτουργίες επανακατάταξης της Google που προσαρμόζουν τα αποτελέσματα αναζήτησης πριν παρουσιαστούν στους χρήστες, όπως τα NavBoost, QualityBoost και RealTimeBoost. Επιπλέον, τονίζεται η σημασία των links (σύνδεσμοι), με μετρήσεις όπως το sourceType να υποδεικνύουν την αξία των συνδέσμων με βάση τον τόπο όπου είναι καταχωρημένη μια σελίδα.
Αντίθετα με όσα έχει δηλώσει κατά καιρούς η Google, τα έγγραφα που διέρρευσαν αποκαλύπτουν ότι οι μετρήσεις αλληλεπίδρασης χρηστών επηρεάζουν σημαντικά τις κατατάξεις των αναζητήσεων. Χαρακτηριστικά όπως τα goodClicks, badClicks, lastLongestClicks και unsquashedClicks χρησιμοποιούνται από συστήματα όπως το NavBoost για να προσαρμόζουν τα αποτελέσματα αναζήτησης με βάση τις αλληλεπιδράσεις των χρηστών. Αυτό σημαίνει ότι η βελτιστοποίηση για την αλληλεπίδραση χρηστών, συμπεριλαμβανομένων των ποσοστών κλικ και της ικανοποίησης των χρηστών, είναι πολύ σημαντική για να καταφέρουν οι ιστοσελίδες να εμφανίζονται ψηλά στις κατατάξεις των αποτελεσμάτων αναζήτησης στην Google. Επιπλέον, τα έγγραφα δείχνουν ότι τα δεδομένα του Google Chrome χρησιμοποιούνται στους αλγόριθμους κατάταξης, κάτι που δε συγχρονίζεται με τους ισχυρισμούς της εταιρείας ότι δεν χρησιμοποιούνται για τις λεγόμενες «οργανικές αναζητήσεις».
Αναφέρεται επίσης ένα χαρακτηριστικό που ονομάζεται siteAuthority, το οποίο μετρά την αξιοπιστία μιας ιστοσελίδας σε όλο το εύρος της, που και αυτό έρχεται σε αντίθεση με τις δηλώσεις της Google που έχει αρνηθεί την ύπαρξη μιας τέτοιας τακτικής.
Το leak των εγγράφων υποδηλώνει επιπρόσθετα ότι η εστίαση της Google στις μετρήσεις αλληλεπίδρασης χρηστών (ποσοστά κλικ και ικανοποίηση χρηστών) είναι κρίσιμη για το SEO ενός site. Σύμφωνα με αυτό, μια ιστοσελίδα που κρίνεται ως αξιοπίστη για τον αλγόριθμο της Google, με ισχυρό brand στο οικοσύστημά της και υψηλής ποιότητας πρωτότυπο περιεχόμενο έχει περισσότερες πιθανότητες να εμφανιστεί σε καλές θέσεις κατάταξης αποτελεσμάτων. Ωστόσο, ακόμη κι αν οι πληροφορίες που γίνονται τώρα γνωστές από τη διαρροή των εγγράφων μας παρέχουν πολύτιμη γνώση για τον τρόπο που η Google επιλέγει να εδραιώσει μια ιστοσέλιδα στο περιβάλλον της, το πλήρες πλαίσιο λειτουργίας του αλγόριθμου και πως εφαρμαζόνται οι μηχανισμοί του παραμένουν ασαφή.
Ο αλγόριθμος αναζήτησης της Google είναι ίσως το πιο σημαντικό σύστημα στο ίντερνετ, καθορίζοντας ποιες σελίδες είναι βιώσιμες. Αλλά πώς ακριβώς κατατάσσει η Google τους ιστότοπους ήταν ανέκαθεν ένα μυστήριο, που προσπάθησε να λυθεί από δημοσιογράφους, ερευνητές και ανθρώπους που εργάζονται στην βελτιστοποίηση των μηχανών αναζήτησης και στη χάραξη στρατηγικής ενός brand.
Ο Rand Fishkin, συνιδρυτής της SparkToro και ειδικός σε θέματα SEO για πάνω από μια δεκαετία, λέει ότι μια πηγή του έδωσε 2.500 σελίδες εγγράφων με την ελπίδα ότι η αναφορά για τη διαρροή θα αντικρούσει τα «ψέματα» που είχαν διαδώσει οι υπάλληλοι της Google για το πώς λειτουργεί ο αλγόριθμος αναζήτησης – η πηγή ήταν αρχικά ανώνυμη, αλλά στη συνέχεια αποκαλύφθηκε ότι ήταν ο Efran Azimi της EA Eagle Digital. Σύμφωνα με τον Fishkin, και αφού τα εξέτασε λεπτομερώς, τα έγγραφα αναλύουν το API αναζήτησης της Google. Οι λεπτομέρειες που μοιράστηκε ο Fishkin είναι αρκετά τεχνικές, πιθανόν πιο κατανοητές από προγραμματιστές και ειδικούς στο SEO παρά από έναν απλό αναγνώστη. Τα περιεχόμενα της διαρροής δεν αποτελούν απαραίτητα απόδειξη ότι η Google χρησιμοποιεί τα συγκεκριμένα δεδομένα και μηχανισμούς που αναφέρονται για την κατάταξη αναζητήσεων. Αντ ‘αυτού, η διαρροή περιγράφει ποια δεδομένα συλλέγει η Google από ιστοσελίδες και χρήστες που χρησιμοποιούν το Google Search και προσφέρει έμμεσες ενδείξεις -στους ειδικούς του SEO- για το τι φαίνεται να ενδιαφέρει την Google, όπως έγραψε ο ειδικός Mike King στην επισκόπησή του για αυτά τα έγγραφα.
The gentleman that shared the leaked documents Google API documents is named Erfan Azimi and he has something he wants to say.https://t.co/afLjEZVeHh
— Mic King (@iPullRank) May 28, 2024
«Η λέξη “ψέματα” είναι σκληρή, αλλά είναι η μόνη ακριβής λέξη που μπορεί να χρησιμοποιηθεί εδώ», γράφει ο King. «Ενώ δεν κατηγορώ απαραίτητα τους δημόσιους εκπροσώπους της Google για την προστασία των ιδιόκτητων πληροφοριών τους, έχω πρόβλημα με τις προσπάθειές τους να δυσφημίσουν ενεργά ανθρώπους στον τομέα του μάρκετινγκ, της τεχνολογίας και της δημοσιογραφίας που έχουν παρουσιάσει διάφορες ανακαλύψεις».
Η Google δεν έχει απαντήσει στα αιτήματα του The Verge για σχολιασμό σχετικά με τα έγγραφα, συμπεριλαμβανομένου ενός άμεσου αιτήματος να διαψεύσει τη νομιμότητά τους. Ο Fishkin είπε στο The Verge, μέσω ενός email, ότι η Google δεν έχει αμφισβητήσει την ακρίβεια των εγγράφων που έχουν διαρρεύσει.
Ο αλγόριθμος αναζήτησης της Google έχει δημιουργήσει μια ολόκληρη βιομηχανία από ειδικούς μάρκετινγκ που ακολουθούν στενά τις επίσημες οδηγίες της Google και τις εκτελούν στα τυφλά για εκατομμύρια εταιρείες σε όλο τον κόσμο. Οι ευρέως διαδεδομένες, συχνά ενοχλητικές τακτικές έχουν οδηγήσει σε μια γενική -δικαιολογημένη- αφήγηση ότι τα αποτελέσματα αναζήτησης της Google γίνονται όλο και χειρότερα, γεμάτα με άχρηστο περιεχόμενο που οι διαχειριστές ιστοσελίδων αισθάνονται υποχρεωμένοι να (ανα)παράγουν για να δουν τις σελίδες τους σε υψηλές θέσεις. Όπως αναφέρει το The Verge για τις στρατηγικές που καθοδηγούνται από το SEO, οι εκπρόσωποι της Google συχνά απαντούν: «δεν λένε αυτό οι οδηγίες της Google».
Παρ’ όλα αυτά, κάποιες λεπτομέρειες σε αυτά τα έγγραφα θέτουν υπό αμφισβήτηση την ακρίβεια των δημόσιων δηλώσεων της Google σχετικά με το πώς λειτουργεί το Google Search. Οι Fishkin και King, μετά την εξέταση των εγγράφων, αναφέρουν πως τα δεδομένα του Google Chrome χρησιμοποιούνται όντως για την κατάταξη των αποτελεσμάτων. Οι εκπρόσωποι της Google έχουν επανειλημμένα δηλώσει ότι δεν χρησιμοποιούν δεδομένα του Chrome για την κατάταξη των ιστοσελίδων, αλλά ο Chrome αναφέρεται σε συγκεκριμένα τμήματα των εγγράφων σχετικά με το πώς εμφανίζονται τα sites στην Αναζήτηση.
Ο αλγόριθμος της Google παραμένει (και ίσως θα συνεχίσει να είναι ένα) από τα μεγαλύτερα σύγχρονα μυστήρια. Δεδομένου ότι το μεγαλύτερο μέρος του οικοσυστήματος ενός χρήστη του ίντερνετ είναι μέσω των υπηρεσιών της Google, δεν θα έπρεπε να υπάρχει διαφάνεια; Δε θα έπρεπε ιστοσελίδες, όμιλοι και εταιρείες που επενδύουν τα χρήματά τους στην Google να γνωρίζουν πώς ακριβώς λειτουργεί ο αλγόριθμός; Ο κώδικας και τα modules φυσικά και ανήκουν σε δημιουργούς και διαχειριστές, την Google δηλαδή, αλλά όσα εξαρτώνται από αυτά είναι ιδιοκτησία άλλων – δική μας. Λόγω αυτού, έχουμε την υποχρέωση να θέτουμε ερωτήσεις και να απαιτούμε σαφήνεια. Ενιότε και μέσω του Google Search.
Can’t say I’m thrilled to see that every variant of “Google Warehouse Leak” or “Google Search API Leak” returns the original posts (ipullrank & sparktoro) WAY below the fold. Are all the Chrome browser searchers *really* clicking on those other sources? 😉 https://t.co/IbZd8DcDnx
— Rand Fishkin (follow @randderuiter on Threads) (@randfish) May 28, 2024
Με στοιχεία από: The Verge, Search Engine Journal, Swipe Insight, MarTech, Search Engine Land