Η Nvidia απέκτησε την εταιρεία συνθετικών δεδομένων, τη Gretel. Η τιμή εξαγοράς ξεπερνά την πιο πρόσφατη αποτίμηση της Gretel στα 320 εκατομμύρια δολάρια, αν και οι ακριβείς όροι της αγοράς παραμένουν άγνωστοι. Η Gretel και η ομάδα των περίπου 80 εργαζομένων της θα ενσωματωθούν στη Nvidia, όπου η τεχνολογία της θα χρησιμοποιηθεί ως μέρος των υπηρεσιών generative AI στο cloud για προγραμματιστές.
Η εξαγορά πραγματοποιείται καθώς η Nvidia λανσάρει εργαλεία δημιουργίας συνθετικών δεδομένων επιτρέποντας στους προγραμματιστές να εκπαιδεύουν τα δικά τους μοντέλα AI και να τα προσαρμόζουν για συγκεκριμένες εφαρμογές. Θεωρητικά, τα συνθετικά δεδομένα θα μπορούσαν να δημιουργήσουν μια σχεδόν άπειρη ποσότητα δεδομένων εκπαίδευσης AI και να βοηθήσουν στην επίλυση του προβλήματος έλλειψης δεδομένων που απειλεί τη βιομηχανία AI από τότε που το ChatGPT έγινε ευρέως διαδεδομένο το 2022. Όμως οι ειδικοί προειδοποιούν ότι η χρήση συνθετικών δεδομένων στην AI ενέχει και δικούς της κινδύνους.
Η Gretel ιδρύθηκε το 2019 από τους Alex Watson, John Myers και Ali Golshan, ο οποίος είναι ο CEO της εταιρείας. Η startup προσφέρει μια πλατφόρμα συνθετικών δεδομένων και μια σειρά από APIs για προγραμματιστές που θέλουν να δημιουργήσουν μοντέλα AI, αλλά δεν έχουν πρόσβαση σε επαρκή δεδομένα εκπαίδευσης ή ανησυχούν για ζητήματα ιδιωτικότητας που σχετίζονται με τη χρήση πραγματικών δεδομένων. Η Gretel δεν αναπτύσσει και δεν αδειοδοτεί δικά της μοντέλα AI, αλλά προσαρμόζει υπάρχοντα ανοιχτού κώδικα μοντέλα προσθέτοντας χαρακτηριστικά που αφορούν την ιδιωτικότηταςκαι ασφάλεια, τα οποία στη συνέχεια ενσωματώνει και πουλά ως πακέτα. Σύμφωνα με το Pitchbook, η εταιρεία είχε συγκεντρώσει περισσότερα από 67 εκατομμύρια δολάρια σε χρηματοδότηση επιχειρηματικών κεφαλαίων πριν από την εξαγορά της.
Σε αντίθεση με τα δεδομένα που δημιουργούνται από ανθρώπους ή προέρχονται από τον πραγματικό κόσμο, τα συνθετικά δεδομένα παράγονται από υπολογιστές και σχεδιάζονται για να προσομοιώνουν τα πραγματικά δεδομένα. Οι υποστηρικτές τους υποστηρίζουν ότι αυτή η μέθοδος καθιστά την παραγωγή δεδομένων για την εκπαίδευση των μοντέλων AI λιγότερο απαιτητική σε εργασία και πιο προσιτή για μικρότερους ή λιγότερο χρηματοδοτούμενους προγραμματιστές AI. Η προστασία της ιδιωτικότητας αποτελεί επίσης ένα βασικό πλεονέκτημα των συνθετικών δεδομένων, γεγονός που τα καθιστά ελκυστική επιλογή για παρόχους υγειονομικής περίθαλψης, τράπεζες και κυβερνητικές υπηρεσίες.
Η Nvidia προσφέρει ήδη εδώ και χρόνια εργαλεία συνθετικών δεδομένων για προγραμματιστές. Το 2022 παρουσίασε το Omniverse Replicator, ένα εργαλείο που επιτρέπει στους προγραμματιστές να δημιουργούν προσαρμοσμένα, φυσικά ακριβή, συνθετικά 3D δεδομένα για την εκπαίδευση νευρωνικών δικτύων. Τον Ιούνιο του περασμένου έτους η Nvidia άρχισε να κυκλοφορεί μια οικογένεια ανοιχτών AI μοντέλων που παράγουν συνθετικά δεδομένα εκπαίδευσης για τη δημιουργία ή τη βελτίωση μεγάλων γλωσσικών μοντέλων (LLMs). Ονομάζεται Nemotron-4 340B και τα μίνι-μοντέλα της επιτρέπουν στους προγραμματιστές να δημιουργούν συνθετικά δεδομένα για τα δικά τους LLMs σε τομείς όπως η υγειονομική περίθαλψη, τα οικονομικά, η βιομηχανία, το λιανεμπόριο και πολλά άλλα.
Κατά τη διάρκεια της κεντρικής του παρουσίασης στο ετήσιο συνέδριο προγραμματιστών της Nvidia την Τρίτη, ο συνιδρυτής και διευθύνων σύμβουλος της εταιρείας, Jensen Huang μίλησε για τις προκλήσεις που αντιμετωπίζει ο κλάδος στην προσπάθεια να τρέξει γρήγορα την εξέλιξη της τεχνητής νοημοσύνης με οικονομικά αποδοτικό τρόπο.
«Εστιάζουμε σε τρία προβλήματα», είπε. «Πρώτον, πώς λύνεις το πρόβλημα των δεδομένων; Πώς και πού δημιουργείς τα απαραίτητα δεδομένα για την εκπαίδευση της AI; Δεύτερον, ποια είναι η αρχιτεκτονική του μοντέλου; Και τρίτον, ποιοι είναι οι νόμοι της κλιμάκωσης;» Ο Huang συνέχισε περιγράφοντας πώς η εταιρεία χρησιμοποιεί πλέον τη δημιουργία συνθετικών δεδομένων στις πλατφόρμες ρομποτικής της.
Τα συνθετικά δεδομένα μπορούν να χρησιμοποιηθούν με τουλάχιστον δύο διαφορετικούς τρόπους λέει η Ana-Maria Cretu, μεταδιδακτορική ερευνήτρια στο Ομοσπονδιακό Πολυτεχνείο της Λωζάνης (École Polytechnique Fédérale de Lausanne) στην Ελβετία, η οποία μελετά την ιδιωτικότητα των συνθετικών δεδομένων. Μπορούν να έχουν τη μορφή πινάκων δεδομένων, όπως δημογραφικά ή ιατρικά δεδομένα που μπορούν να επιλύσουν προβλήματα έλλειψης δεδομένων ή να δημιουργήσουν ένα πιο ποικιλόμορφο σύνολο δεδομένων.
Στον κόσμο των μεγάλων γλωσσικών μοντέλων τονίζει η Cretu, τα συνθετικά δεδομένα έχουν γίνει κάτι σαν γενική λύση για το ερώτημα: «Πώς μπορούμε απλώς να αυξήσουμε την ποσότητα των δεδομένων που έχουμε για τα LLMs με την πάροδο του χρόνου;»
Οι ειδικοί ανησυχούν ότι οι εταιρείες τεχνητής νοημοσύνης δεν θα μπορούν να αντλούν ελεύθερα δεδομένα που έχουν δημιουργηθεί από ανθρώπους στο διαδίκτυο για να εκπαιδεύουν τα μοντέλα τους. Πέρυσι μια έκθεση της πρωτοβουλίας Data Provenance του MIT έδειξε ότι οι περιορισμοί γύρω από το ανοιχτό περιεχόμενο στο διαδίκτυο αυξάνονται.
Τα συνθετικά δεδομένα θεωρητικά θα μπορούσαν να παρέχουν μια εύκολη λύση, ωστόσο ένα άρθρο του Nature τον Ιούλιο του 2024 ανέδειξε τον κίνδυνο ότι τα γλωσσικά μοντέλα τεχνητής νοημοσύνης μπορεί να «καταρρεύσουν» ή να υποβαθμιστούν σημαντικά όταν εκπαιδεύονται συνεχώς με δεδομένα που έχουν παραχθεί από άλλα μοντέλα.
Ο Alexandr Wang, διευθύνων σύμβουλος της Scale AI—μιας εταιρείας που βασίζεται σε ανθρώπινο εργατικό δυναμικό για την επισήμανση δεδομένων που χρησιμοποιούνται στην εκπαίδευση μοντέλων—μοιράστηκε τα ευρήματα του άρθρου του Nature στην πλατφόρμα X, γράφοντας: «Αν και πολλοί ερευνητές σήμερα βλέπουν τα συνθετικά δεδομένα ως τη φιλοσοφική λίθο της AI, δεν υπάρχει δωρεάν γεύμα». Αργότερα, στην ίδια ανάρτηση, τόνισε ότι πιστεύει ακράδαντα σε μια υβριδική προσέγγιση δεδομένων.
Ένας από τους συνιδρυτές της Gretel αντέδρασε στο άρθρο του Nature σημειώνοντας σε μια ανάρτηση στο ιστολόγιο της εταιρείας ότι το «ακραίο σενάριο» της επαναλαμβανόμενης εκπαίδευσης αποκλειστικά σε συνθετικά δεδομένα «δεν είναι αντιπροσωπευτικό των πραγματικών πρακτικών ανάπτυξης AI».
Ο Gary Marcus, επιστήμονας και ερευνητής που ασκεί έντονη κριτική στην υπερβολική διαφημιστική προβολή της AI, δήλωσε ότι συμφωνεί με τη «διάγνωση» του Wang αλλά όχι με τη «συνταγή» του. Ο κλάδος κατά την άποψή του θα προχωρήσει αναπτύσσοντας νέες αρχιτεκτονικές για τα μοντέλα AI αντί να επικεντρώνεται στις ιδιαιτερότητες των συνόλων δεδομένων.
Οι ανησυχίες για την κατάρρευση των μοντέλων δεν έχουν σταματήσει τη βιομηχανία της τεχνητής νοημοσύνης από το να επενδύει στη χρήση συνθετικών δεδομένων, έστω και με προσοχή. Σε πρόσφατο τεχνολογικό συνέδριο της Morgan Stanley, ο Sam Altman φέρεται να υποστήριξε την ικανότητα της OpenAI να χρησιμοποιεί τα υπάρχοντα μοντέλα της για τη δημιουργία περισσότερων δεδομένων. Ο Διευθύνων Σύμβουλος της Anthropic, Dario Amodei έχει δηλώσει ότι πιστεύει πως μπορεί να κατασκευαστεί μια «μηχανή απεριόριστης δημιουργίας δεδομένων», η οποία θα διατηρεί την ποιότητά της εισάγοντας μια μικρή ποσότητα νέων πληροφοριών κατά τη διαδικασία εκπαίδευσης.
Οι μεγάλες τεχνολογικές εταιρείες έχουν επίσης στραφεί στα συνθετικά δεδομένα. Η Meta έχει αναφερθεί στη χρήση συνθετικών δεδομένων για την εκπαίδευση του Llama 3, του τελευταίου μεγάλου γλωσσικού της μοντέλου, μέρος των οποίων προήλθε από το προηγούμενο της μοντέλο, το Llama 2. Η πλατφόρμα Bedrock της Amazon επιτρέπει στους προγραμματιστές να χρησιμοποιούν το Claude της Anthropic για τη δημιουργία συνθετικών δεδομένων. Το μικρό γλωσσικό μοντέλο Phi-3 της Microsoft εκπαιδεύτηκε εν μέρει με συνθετικά δεδομένα, αν και η εταιρεία έχει προειδοποιήσει ότι «τα συνθετικά δεδομένα που δημιουργούνται από προεκπαιδευμένα μεγάλα γλωσσικά μοντέλα μπορούν μερικές φορές να μειώσουν την ακρίβεια και να αυξήσουν τα προβλήματα σε επόμενες εφαρμογές». Η DeepMind της Google χρησιμοποιεί επίσης συνθετικά δεδομένα, αλλά έχει επισημάνει τις προκλήσεις της ανάπτυξης μιας διαδικασίας για τη δημιουργία και διατήρηση πραγματικά ιδιωτικών συνθετικών δεδομένων.
«Γνωρίζουμε ότι όλες οι μεγάλες τεχνολογικές εταιρείες εργάζονται σε κάποιον τομέα των συνθετικών δεδομένων» λέει ο Alex Bestall, ιδρυτής της Rightsify, μιας startup που δημιουργεί μουσική με τεχνητή νοημοσύνη και παρέχει άδειες για τη χρήση του καταλόγου της σε AI μοντέλα. «Αλλά τα ανθρώπινα δεδομένα είναι συχνά μια συμβατική απαίτηση στις συμφωνίες μας. Μπορεί να θέλουν ένα σύνολο δεδομένων που να είναι 60% ανθρώπινης προέλευσης και 40% συνθετικό».
*Με στοιχεία από το Wired.
➪ Ακολουθήστε το OLAFAQ στο Facebook, Bluesky και Instagram.