Η Google DeepMind ανακοίνωσε μια εντυπωσιακή κυκλοφορία νέων πρωτότυπων προϊόντων που μπορεί να της επιτρέψει να ανακτήσει το προβάδισμα στην κούρσα για να μετατρέψει την Τεχνητή Νοημοσύνη σε μια ευρεία εμπορική εφαρμογή. Στην κορυφή της λίστας βρίσκεται το Gemini 2.0, η τελευταία έκδοση της οικογένειας πολυτροπικών μεγάλων γλωσσικών μοντέλων της Google DeepMind. Ανασχεδιασμένη με ικανότητα «ελέγχου πρακτόρων» και μια νέα έκδοση του Project Astra, της πειραματικής εφαρμογής που η εταιρεία παρουσίασε για πρώτη φορά στο Google I/O τον Μάιο.

Το Astra χρησιμοποιεί το ενσωματωμένο πλαίσιο πρακτόρων του Gemini 2.0 για να απαντά σε ερωτήσεις και να εκτελεί εργασίες μέσω κειμένου, φωνής, εικόνας και βίντεο. Τα δεδομένα συλλέγονται μέσα από εφαρμογές της Google, όπως Search, Maps και Lens. «Συνδυάζει μερικά από τα πιο ισχυρά συστήματα ανάκτησης πληροφοριών της εποχής μας», αναφέρει χαρακτηριστικά ο Bibo Xu, διευθυντής προϊόντος του Astra.

Το Gemini 2.0 και το Astra συνοδεύονται από το Mariner, ένα νέο εργαλείο βασισμένο στο Gemini που μπορεί να περιηγείται στο Διαδίκτυο. Επίσης έχουμε τον Jules, έναν νέο βοηθό προγραμματισμού που βασίζεται στο Gemini και το Gemini for Games, έναν πειραματικό βοηθό με τον οποίο μπορείτε να συνομιλείτε και να ζητάτε συμβουλές τη στιγμή που παίζετε βιντεοπαιχνίδια. Ας μην ξεχνάμε ότι την περασμένη εβδομάδα η Google DeepMind ανακοίνωσε επίσης το Veo, ένα νέο μοντέλο δημιουργίας βίντεο, το Imagen 3, μια νέα έκδοση του μοντέλου δημιουργίας εικόνων και το Willow, ένα νέο είδος επεξεργαστή για κβαντικούς υπολογιστές. Εκείνες τις ώρες ο CEO της εταιρείας, Demis Hassabis βρισκόταν χθες στη Σουηδία για να παραλάβει το βραβείο Νόμπελ!

Η Google DeepMind ισχυρίζεται ότι το Gemini 2.0 είναι δύο φορές πιο γρήγορο από την προηγούμενη έκδοση Gemini 1.5 και την ξεπερνά σε διάφορα «τυπικά κριτήρια», όπως το MMLU-Pro. Ένα μεγάλο σύνολο ερωτήσεων πολλαπλών επιλογών που έχει σχεδιαστεί για να δοκιμάζει τις ικανότητες των μεγάλων γλωσσικών μοντέλων σε ένα ευρύ φάσμα θεμάτων, από μαθηματικά και φυσική μέχρι υγεία, ψυχολογία και φιλοσοφία. Τονίζεται επίσης πως οι διαφορές μεταξύ των κορυφαίων μοντέλων, όπως το Gemini 2.0 και αυτών από ανταγωνιστικά εργαστήρια όπως το OpenAI και το Anthropic είναι πλέον μικρές. Στις μέρες μας, οι εξελίξεις στα μεγάλα γλωσσικά μοντέλα δεν αφορούν τόσο το πόσο καλά είναι, αλλά το τι μπορείτε να κάνετε με αυτά.

Στόχος της Google είναι να μας «προσφέρει» έναν καθολικό βοηθό. Βλέποντας αυτήν την τεχνολογία σε δράση, δύο πράγματα σου κάνουν αμέσως εντύπωση. Όταν λειτουργεί καλά, το Astra είναι μαγευτικό λένε ξεκάθαρα όσο το δοκιμάζουν το τελευταίο διάστημα. Η εμπειρία του να ξεκινάς μια συζήτηση με το τηλέφωνό σου για οτιδήποτε του δείχνεις δίνει μία φρεσκάδα. Σε μια παρουσίαση στα μέσα ενημέρωσης η Google DeepMind μοιράστηκε ένα βίντεο που έδειχνε άλλες χρήσεις: ανάγνωση ενός email στην οθόνη του τηλεφώνου για να βρει έναν “κωδικό πόρτας” λ ζητώντας πληροφορίες για ένα δημόσιο έργο τέχνης καθώς περνάς από μπροστά του. Αυτό θα μπορούσε να είναι η “killer app” της Τεχνητής Νοημοσύνης. Υπάρχει ακόμα πολύς δρόμος πριν φτάσει αυτή η τεχνολογία στα χέρια του κοινού. Δεν έχει ανακοινωθεί ημερομηνία κυκλοφορίας. Η Google DeepMind έχει επίσης μοιραστεί βίντεο που δείχνουν το Astra να λειτουργεί σε ένα ζευγάρι έξυπνα γυαλιά, αλλά αυτή η τεχνολογία βρίσκεται ακόμα πιο μακριά στην ιεράρχηση της εταιρείας.

Οι ερευνητές εκτός της Google DeepMind παρακολουθούν στενά την πρόοδό της. «Ο τρόπος με τον οποίο συνδυάζονται τα δεδομένα είναι εντυπωσιακός», λέει η Maria Liakata, η οποία εργάζεται πάνω σε μεγάλα γλωσσικά μοντέλα στο Πανεπιστήμιο Queen Mary του Λονδίνου και στο Ινστιτούτο Alan Turing. Η Liakata εντυπωσιάζεται επίσης από την ικανότητα του Astra να θυμάται πράγματα που έχει δει ή ακούσει.

Από την άλλη πλευρά όμως διατυπώνονται κι εύλογοι ενδοιασμοί. Για τον Bodhisattwa Majumder, έναν ερευνητή που ασχολείται με πολυτροπικά μοντέλα στο Allen Institute για την ανάπτυξη της Τεχνητής Νοημοσύνης υπάρχει μεγάλος προβληματισμός: «Δεν γνωρίζουμε απολύτως τίποτα για το πώς το κάνει η Google». Επισημαίνει ότι αν η Google ήταν λίγο πιο ανοιχτή σχετικά με το τι χτίζει, αυτό θα βοηθούσε τους καταναλωτές να κατανοήσουν τους περιορισμούς της τεχνολογίας που σύντομα θα έχουν στα χέρια τους. «Πρέπει να γνωρίζουν πώς λειτουργούν αυτά τα συστήματα».

Η Liakata επισημαίνει τους φόβους της για τις συνέπειες στην ιδιωτικότητα. «Νομίζω ότι υπάρχουν πράγματα που με ενθουσιάζουν, αλλά και πράγματα που με προβληματίζουν. Το να γίνει το τηλέφωνό σου τα μάτια σου, υπάρχει κάτι ανησυχητικό σε αυτό. Ο αντίκτυπος που θα έχουν αυτά τα προϊόντα στην κοινωνία είναι τόσο μεγάλος που θα έπρεπε να ληφθεί πιο σοβαρά υπόψη. Γίνεται όμως ένας αγώνας δρόμου μεταξύ των εταιρειών. Αυτό είναι προβληματικό, ειδικά αφού δεν υπάρχει καμία συμφωνία σχετικά με το πως αξιολογούμε αυτήν την τεχνολογία».

Η Google DeepMind δηλώνει ότι εξετάζει διεξοδικά ζητήματα όπως η ιδιωτικότητα, η  ασφάλεια και η προστασία για όλα τα νέα της εργαλεία. Οι εταιρείες πρέπει να σχεδιάζουν προϊόντα που μπορούν να ανακληθούν ή να απενεργοποιηθούν σε περίπτωση ανάγκης, τονίζουν άμεσα εμπλεκόμενοι σε όλη αυτήν τη δυναμική μετάβαση σε μία νέα πραγματικότητα: «Αν χρειαστεί να κάνουμε γρήγορες αλλαγές ή να τραβήξουμε κάτι πίσω, τότε μπορούμε να το κάνουμε».

*Με στοιχεία από το Technology Review.

 

 Ακολουθήστε το OLAFAQ στο FacebookBluesky και Instagram.