Το νέο μοντέλο τεχνητής νοημοσύνης της Meta, που ονομάζεται SeamlessM4T μπορεί να μεταφράσει ομιλία από 101 διαφορετικές γλώσσες αποτελώντας ένα σημαντικό βήμα προς την κατεύθυνση της πραγματικής ταυτόχρονης διερμηνείας, όπου οι λέξεις μεταφράζονται αμέσως, τη στιγμή που προφέρονται.

Τα περισσότερα μοντέλα μετάφρασης ομιλίας χρησιμοποιούν μια “πολυ-βήματη” προσέγγιση:

1. Μετατρέπουν την ομιλία σε κείμενο.
2. Μεταφράζουν το κείμενο σε άλλη γλώσσα.
3. Μετατρέπουν το μεταφρασμένο κείμενο ξανά σε ομιλία στη νέα γλώσσα.

Αυτή η μέθοδος συχνά είναι αναποτελεσματική, με λάθη και παρερμηνείες να συσσωρεύονται από βήμα σε βήμα σαν ένα σύγχρονο σπασμένο τηλέφωνο. Ωστόσο, το SeamlessM4T της Meta επιτρέπει πιο άμεση μετάφραση από την ομιλία μιας γλώσσας στην ομιλία μιας άλλης.

Τι βελτιώσεις βλέπουμε:

· Το SeamlessM4T είναι 23% πιο ακριβές από τα κορυφαία υπάρχοντα μοντέλα στη μετάφραση κειμένου.
· Αν και το μοντέλο της Google, AudioPaLM μπορεί τεχνικά να μεταφράσει περισσότερες γλώσσες (113 έναντι 101) η μετάφρασή του περιορίζεται μόνο στα αγγλικά. Αντίθετα το SeamlessM4T μπορεί να μεταφράσει σε 36 διαφορετικές γλώσσες.

Τι το καινοτόμο συναντάμε:

Η βασική καινοτομία πίσω από το SeamlessM4T είναι η χρήση μιας διαδικασίας που ονομάζεται παράλληλη εξόρυξη δεδομένων (parallel data mining). Αυτή εντοπίζει περιπτώσεις όπου ο ήχος σε ένα βίντεο ή αρχείο ήχου ταιριάζει με υπότιτλους σε άλλη γλώσσα χρησιμοποιώντας δεδομένα που ανιχνεύτηκαν από το Διαδίκτυο. Με αυτόν τον τρόπο το μοντέλο έμαθε να συσχετίζει ήχους από μια γλώσσα με τα αντίστοιχα κομμάτια κειμένου σε άλλη ανοίγοντας έναν εντελώς νέο κόσμο παραδειγμάτων μετάφρασης.

Το νέο αυτό μοντέλο αποτελεί σημαντικό βήμα για τη διευκόλυνση της επικοινωνίας μεταξύ διαφορετικών πολιτισμών και γλωσσών. Η Meta έχει κάνει εξαιρετική δουλειά υποστηρίζοντας ποικίλες λειτουργίες, όπως η μετατροπή κειμένου σε ομιλία, ομιλίας σε κείμενο και ακόμα και η αυτόματη αναγνώριση ομιλίας, αναφέρει χαρακτηριστικά ο Chetan Jaiswal, καθηγητής πληροφορικής στο Πανεπιστήμιο Quinnipiac που δεν συμμετείχε στην έρευνα. «Ο ίδιος ο αριθμός των γλωσσών που υποστηρίζονται είναι ένα τεράστιο επίτευγμα».

Ποιος ο ρόλος του ανθρώπινου παράγοντα – μεταφραστή;

Οι ανθρώπινοι μεταφραστές παραμένουν αναπόσπαστο κομμάτι της διαδικασίας μετάφρασης σημειώνουν οι ερευνητές. Οι άνθρωποι είναι ικανοί να διαχειρίζονται τις πολιτισμικές αποχρώσεις και να διασφαλίζουν ότι το ίδιο νόημα αποδίδεται σε διαφορετικές γλώσσες.

Η Lynne Bowker από τη Σχολή Μετάφρασης και Διερμηνείας του Πανεπιστημίου της Οτάβα που επίσης δεν εργάστηκε στο Seamless εξηγεί: «Οι γλώσσες είναι αντανάκλαση των πολιτισμών και οι πολιτισμοί έχουν τους δικούς τους τρόπους αντίληψης των πραγμάτων».

Ιδιαίτερη προσοχή χρειάζεται σε τομείς όπως η ιατρική και η νομική, όπου οι μηχανικές μεταφράσεις πρέπει να ελέγχονται εξονυχιστικά από ανθρώπους. Ένα χαρακτηριστικό παράδειγμα είναι όταν, τον Ιανουάριο του 2021, το Google Translate μετέφρασε το «not mandatory» (όχι υποχρεωτικό) από τα αγγλικά στα ισπανικά ως «not necessary» (όχι απαραίτητο) αλλοιώνοντας εντελώς το μήνυμα.

Τι συμβαίνει με τις λιγότερο διαδεδομένες γλώσσες;

Τα μοντέλα Τεχνητής Νοημοσύνης έχουν περισσότερα παραδείγματα για εκπαίδευση σε ορισμένες γλώσσες σε σχέση με άλλες όπως είναι λογικό. Αυτό σημαίνει ότι μοντέλα όπως το Seamless μπορούν να μεταφράσουν πιο εύκολα από τα ελληνικά στα αγγλικά, όπου υπάρχουν περισσότερα δεδομένα, αλλά δυσκολεύονται να μεταφράσουν από τη σουαχίλι στα ελληνικά.

Η ομάδα πίσω από το Seamless αντιμετώπισε αυτό το ζήτημα με προ-εκπαίδευση του μοντέλου σε εκατομμύρια ώρες ομιλίας σε διαφορετικές γλώσσες. Αυτή η διαδικασία του επέτρεψε να αναγνωρίζει γενικά μοτίβα στις γλώσσες, διευκολύνοντας την επεξεργασία λιγότερο διαδεδομένων γλωσσών.

Τι σημαίνει ανοιχτού κώδικα και τι αντιδράσεις προκαλεί;

Το Seamless είναι ανοιχτού κώδικα, κάτι που οι ερευνητές ελπίζουν να προσελκύσει κι άλλους να εξελίξουν τις δυνατότητές του. Παρόλα αυτά πάντα υπάρχουν και σκεπτικιστές γύρω από την ανάπτυξη και τη γιγάντωσή του. Ο Jaiswal σχολιάζει πως, παρόλο που το μοντέλο της Google δεν είναι εξίσου ανοιχτό είναι πολύ πιο γρήγορο και άμεσο, ενώ δεν κοστίζει τίποτα για ακαδημαϊκή χρήση.

Τι κάνει το Seamless να ξεχωρίζει σήμερα

Το πιο συναρπαστικό στοιχείο του Seamless είναι ότι δείχνει την προοπτική για άμεση διερμηνεία μεταξύ γλωσσών στο εγγύς μέλλον, όπως το Babel fish στο βιβλίο του Douglas Adams “The Hitchhiker’s Guide to the Galaxy”. Παρότι το Seamless είναι πιο γρήγορο από υπάρχοντα μοντέλα, δεν είναι ακόμη στιγμιαίο, έχει την τάση όμως να γίνει. Η Meta ισχυρίζεται πως έχει μια νεότερη έκδοση του Seamless που είναι εξίσου γρήγορη με τους ανθρώπινους διερμηνείς. «Ενώ αυτή η μορφή καθυστερημένης μετάφρασης είναι καλή και χρήσιμη, η ταυτόχρονη μετάφραση θα είναι ακόμη πιο χρήσιμη», λέει ο Kenny Zhu, διευθυντής του Arlington Computational Linguistics Lab στο Πανεπιστήμιο του Τέξας στο Arlington. Μία ακόμα καινοτομία που θα μας απασχολήσει στην πράξη προσεχώς.

*Με στοιχεία από το Technology Review. 

 

 Ακολουθήστε το OLAFAQ στο FacebookBluesky και Instagram.