Η τεχνολογία deepfake που επιτρέπει τη δημιουργία βίντεο με πρόσωπα ή περιβάλλοντα εντελώς συνθετικά έχει εξελιχθεί ταχύτατα και πλέον διατίθεται σε ευρεία κλίμακα μέσω φτηνών εργαλείων τεχνητής νοημοσύνης. Αυτό έχει οδηγήσει σε ανεξέλεγκτη διάδοση συνθετικών βίντεο στο διαδίκτυο, πολλά εκ των οποίων περιλαμβάνουν γυναίκες, ακόμη και διασημότητες ή ανήλικα κορίτσι σε μη συναινετική πορνογραφία. Παράλληλα, deepfakes έχουν χρησιμοποιηθεί για να επηρεάσουν πολιτικές εκλογές ή να ενισχύσουν οικονομικές απάτες που στοχεύουν τόσο καταναλωτές όσο και στελέχη εταιρειών.
Μέχρι σήμερα οι περισσότεροι αλγόριθμοι ανίχνευσης συνθετικών βίντεο επικεντρώνονταν στα πρόσωπα. Αυτό σημαίνει ότι ήταν ιδιαίτερα αποτελεσματικοί στην αναγνώριση ενός τύπου deepfake, όπου το πρόσωπο ενός πραγματικού ατόμου αντικαθίσταται σε υπάρχον βίντεο. Όμως, όπως επισημαίνουν οι ειδικοί, η τεχνολογία απαιτεί ένα ευρύτερο πεδίο δράσης. «Χρειαζόμαστε ένα μοντέλο που να μπορεί να ανιχνεύει τόσο βίντεο με χειραγώγηση προσώπων όσο και βίντεο με αλλαγές στο φόντο ή εντελώς συνθετικά βίντεο», εξηγεί ο Rohit Kundu από το Πανεπιστήμιο της Καλιφόρνια, Riverside. «Το μοντέλο μας αντιμετωπίζει ακριβώς αυτή την πρόκληση, υποθέτουμε ότι ολόκληρο το βίντεο μπορεί να έχει παραχθεί συνθετικά».
Ο Kundu και η ερευνητική του ομάδα εκπαίδευσαν έναν καθολικό ανιχνευτή βασισμένο σε τεχνητή νοημοσύνη, ο οποίος παρακολουθεί πολλαπλά στοιχεία του φόντου των βίντεο, καθώς και τα πρόσωπα των ανθρώπων που εμφανίζονται σε αυτά. Η τεχνολογία μπορεί να εντοπίσει μικρές χωρικές και χρονικές ασυνέπειες στα deepfakes. Αυτό σημαίνει ότι μπορεί να ανιχνεύσει μη φυσικές συνθήκες φωτισμού σε πρόσωπα που εισήχθησαν τεχνητά σε βίντεο τύπου face-swap, διαφορές στις λεπτομέρειες του φόντου σε εντελώς συνθετικά βίντεο και ακόμη και σημάδια τεχνητής νοημοσύνης σε βίντεο χωρίς ανθρώπινα πρόσωπα. Επιπλέον, ο ανιχνευτής μπορεί να διακρίνει ρεαλιστικά σκηνικά από βιντεοπαιχνίδια, όπως το Grand Theft Auto V που δεν έχουν απαραίτητα παραχθεί από AI.
«Οι περισσότερες υπάρχουσες μέθοδοι διαχειρίζονται βίντεο προσώπων που έχουν δημιουργηθεί από τεχνητή νοημοσύνη, όπως face-swaps, lip-syncing ή ανακατασκευές προσώπων από μία εικόνα», εξηγεί ο Siwei Lyu από το Πανεπιστήμιο του Μπάφαλο στη Νέα Υόρκη. «Η μέθοδος αυτή έχει ευρύτερη εφαρμογή».
Τα αποτελέσματα είναι εντυπωσιακά: ο καθολικός ανιχνευτής πέτυχε ακρίβεια μεταξύ 95% και 99% στον εντοπισμό τεσσάρων διαφορετικών σετ βίντεο με χειραγώγηση προσώπων. Αυτό τον καθιστά πιο αξιόπιστο από όλες τις προηγούμενες δημοσιευμένες μεθόδους για τον εντοπισμό αυτής της κατηγορίας deepfakes. Όταν εξετάζονταν εντελώς συνθετικά βίντεο, ο ανιχνευτής παρουσίασε επίσης καλύτερα αποτελέσματα από οποιονδήποτε άλλο ανιχνευτή που έχει αξιολογηθεί έως σήμερα. Οι ερευνητές παρουσίασαν τη δουλειά τους στο συνέδριο IEEE/Conference on Computer Vision and Pattern Recognition 2025 στο Νάσβιλ του Τενεσί στις 15 Ιουνίου.
Στην ανάπτυξη του εργαλείου συμμετείχαν και αρκετοί ερευνητές της Google, χωρίς όμως η εταιρεία να απαντήσει σε ερωτήσεις σχετικά με το αν η μέθοδος θα χρησιμοποιηθεί για τον εντοπισμό deepfakes σε πλατφόρμες όπως το YouTube. Η Google υποστηρίζει ωστόσο ένα εργαλείο “υδατοσήμανσης”, το οποίο διευκολύνει την αναγνώριση περιεχομένου που παράγεται από τα συστήματα τεχνητής νοημοσύνης της εταιρείας.
Η δυνατότητα εξέλιξης του καθολικού ανιχνευτή είναι σημαντική. Ένα πεδίο που βρίσκεται ήδη υπό διερεύνηση είναι η ανίχνευση deepfakes σε ζωντανές βιντεοκλήσεις, μια τακτική που κάποιοι απατεώνες έχουν ήδη αρχίσει να χρησιμοποιούν. «Πώς μπορείς να ξέρεις αν το άτομο που βρίσκεται στην άλλη άκρη είναι αυθεντικό ή αν πρόκειται για ένα deepfake, και αν αυτό μπορεί να διαπιστωθεί ακόμη και καθώς το βίντεο μεταδίδεται μέσω ενός δικτύου και επηρεάζεται από χαρακτηριστικά όπως το διαθέσιμο εύρος ζώνης;», σημειώνει ο Amit Roy-Chowdhury από το Πανεπιστήμιο της Καλιφόρνια, Riverside. «Αυτή είναι μια ακόμη κατεύθυνση που εξετάζουμε στο εργαστήριό μας».
Η ανάπτυξη ενός καθολικού ανιχνευτή deepfake αποτελεί σημαντικό βήμα για την ασφάλεια του ψηφιακού περιβάλλοντος, καθώς επιτρέπει την αντιμετώπιση όχι μόνο των πιο συνηθισμένων μορφών face-swap, αλλά και των πιο σύνθετων βίντεο που μπορούν να παραπλανήσουν το κοινό. Στο πλαίσιο της αυξανόμενης χρήσης τεχνητής νοημοσύνης σε καθημερινές εφαρμογές, η ανάγκη για αξιόπιστα εργαλεία ανίχνευσης γίνεται ολοένα και πιο επιτακτική.
Η τεχνολογία αυτή δεν αφορά μόνο την προστασία προσωπικών δεδομένων ή την πρόληψη της διασποράς μη συναινετικής πορνογραφίας, αλλά μπορεί να συμβάλλει στον περιορισμό πολιτικής χειραγώγησης και οικονομικών απατών. Με την αλματώδη ανάπτυξη της AI και την ευρεία διαθεσιμότητα συνθετικών βίντεο, η ύπαρξη ενός καθολικού ανιχνευτή αποτελεί πλέον εργαλείο πρώτης γραμμής για την ακεραιότητα της ψηφιακής πληροφορίας.
Το μέλλον της τεχνολογίας deepfake είναι αναμφίβολα εντυπωσιακό και ταυτόχρονα επικίνδυνο. Όμως η ύπαρξη μεθόδων όπως ο καθολικός ανιχνευτής προσφέρει μια σημαντική ανάσα ασφάλειας, δίνοντας στους χρήστες και τις εταιρείες τα μέσα να ξεχωρίζουν την πραγματικότητα από τη συνθετική απάτη. Με άλλα λόγια, όσο η δημιουργία deepfakes εξελίσσεται, τόσο η τεχνολογία ανίχνευσής τους βελτιώνεται διασφαλίζοντας ότι η ψηφιακή αλήθεια δεν θα χαθεί μέσα στον ωκεανό της τεχνητής νοημοσύνης.
*Με στοιχεία από το New Scientist.
➪ Ακολουθήστε το OLAFAQ στο Facebook, Bluesky και Instagram.