Φανταστείτε ότι ανακαλύπτετε ότι ο νέος σας φίλος Roblox, ένα άτομο με το οποίο συνομιλείτε και αστειεύεστε σε μια νέα εμπειρία, είναι στην πραγματικότητα στην Κορέα — και γράφει στα Κορεάτικα όλη την ώρα, ενώ εσείς πληκτρολογείτε στα αγγλικά, χωρίς κανένα από τα δύο παρατηρείς. Χάρη στις νέες μας μεταφράσεις συνομιλίας AI σε πραγματικό χρόνο, καταστήσαμε δυνατό στο Roblox κάτι που δεν είναι καν εφικτό στον φυσικό κόσμο – δίνοντας τη δυνατότητα σε άτομα που μιλούν διαφορετικές γλώσσες να επικοινωνούν απρόσκοπτα μεταξύ τους στις συναρπαστικές τρισδιάστατες εμπειρίες μας. Αυτό είναι δυνατό λόγω του προσαρμοσμένου πολύγλωσσου μοντέλου μας, το οποίο τώρα επιτρέπει την άμεση μετάφραση μεταξύ οποιουδήποτε συνδυασμού των 16 γλωσσών που υποστηρίζουμε αυτήν τη στιγμή (αυτές τις 15 γλώσσεςκαθώς και αγγλικά).
Σε κάθε εμπειρία που μας έδωσε τη δυνατότητα συνομιλία κειμένου χωρίς εμπειρία υπηρεσία, άτομα από διαφορετικές χώρες μπορούν πλέον να γίνουν κατανοητά από άτομα που δεν μιλούν τη γλώσσα τους. Το παράθυρο συνομιλίας θα εμφανίσει αυτόματα τα κορεάτικα μεταφρασμένα στα αγγλικά ή τα τουρκικά μεταφρασμένα στα γερμανικά και αντίστροφα, έτσι ώστε κάθε άτομο να βλέπει τη συνομιλία στη γλώσσα του. Αυτές οι μεταφράσεις εμφανίζονται σε πραγματικό χρόνο, με λανθάνουσα κατάσταση περίπου 100 χιλιοστών του δευτερολέπτου, επομένως η μετάφραση που συμβαίνει στα παρασκήνια είναι σχεδόν αόρατη. Η χρήση της τεχνητής νοημοσύνης για την αυτοματοποίηση των μεταφράσεων σε πραγματικό χρόνο στη συνομιλία κειμένου καταργεί τα γλωσσικά εμπόδια και φέρνει κοντά περισσότερους ανθρώπους, ανεξάρτητα από το πού ζουν στον κόσμο.
Δημιουργία ενός ενοποιημένου μεταφραστικού μοντέλου
Η μετάφραση τεχνητής νοημοσύνης δεν είναι καινούργια, η πλειονότητα του περιεχομένου μας από εμπειρία έχει ήδη μεταφραστεί αυτόματα. Θέλαμε να προχωρήσουμε πέρα από τη μετάφραση στατικού περιεχομένου σε εμπειρίες. Θέλαμε να μεταφράσουμε αυτόματα τις αλληλεπιδράσεις — και θέλαμε να το κάνουμε και για τις 16 γλώσσες που υποστηρίζουμε στην πλατφόρμα. Αυτός ήταν ένας τολμηρός στόχος για δύο λόγους: Πρώτον, δεν μεταφράζαμε απλώς από μια κύρια γλώσσα (δηλαδή, τα αγγλικά) σε μια άλλη, θέλαμε ένα σύστημα ικανό να μεταφράζει μεταξύ οποιουδήποτε συνδυασμού των 16 γλωσσών που υποστηρίζουμε. Δεύτερον, έπρεπε να είναι γρήγορο. Αρκετά γρήγορο για να υποστηρίξει πραγματικές συνομιλίες συνομιλίας, κάτι που για εμάς σήμαινε μείωση του λανθάνοντος χρόνου σε περίπου 100 χιλιοστά του δευτερολέπτου.
Το Roblox φιλοξενεί περισσότερους από 70 εκατομμύρια ενεργούς χρήστες καθημερινά σε όλο τον κόσμο και αυξάνεται. Οι άνθρωποι επικοινωνούν και δημιουργούν στην πλατφόρμα μας —ο καθένας στη μητρική του γλώσσα— 24 ώρες την ημέρα. Η μη αυτόματη μετάφραση κάθε συνομιλίας που συμβαίνει σε περισσότερες από 15 εκατομμύρια ενεργές εμπειρίες, όλες σε πραγματικό χρόνο, προφανώς δεν είναι εφικτή. Η κλιμάκωση αυτών των ζωντανών μεταφράσεων σε εκατομμύρια ανθρώπους, που έχουν όλοι διαφορετικές συνομιλίες σε διαφορετικές εμπειρίες ταυτόχρονα, απαιτεί ένα LLM με τρομερή ταχύτητα και ακρίβεια. Χρειαζόμαστε ένα μοντέλο με επίγνωση του πλαισίου που να αναγνωρίζει τη γλώσσα του Roblox, συμπεριλαμβανομένων της αργκό και των συντομογραφιών (think obby, afk ή lol). Πέρα από όλα αυτά, το μοντέλο μας πρέπει να υποστηρίζει οποιονδήποτε συνδυασμό των 16 γλωσσών που υποστηρίζει αυτή τη στιγμή η Roblox.
Για να το πετύχουμε αυτό, θα μπορούσαμε να έχουμε δημιουργήσει ένα μοναδικό μοντέλο για κάθε ζεύγος γλωσσών (δηλαδή ιαπωνικά και ισπανικά), αλλά αυτό θα απαιτούσε 16×16 ή 256 διαφορετικά μοντέλα. Αντίθετα, δημιουργήσαμε μια ενοποιημένη μετάφραση LLM που βασίζεται σε μετασχηματιστή για να χειρίζεται όλα τα ζεύγη γλωσσών σε ένα μόνο μοντέλο. Αυτό είναι σαν να έχετε πολλές εφαρμογές μετάφρασης, καθεμία από τις οποίες ειδικεύεται σε μια ομάδα παρόμοιων γλωσσών, όλες διαθέσιμες με μια ενιαία διεπαφή. Δεδομένης της πρότασης πηγής και της γλώσσας-στόχου, μπορούμε να ενεργοποιήσουμε τον σχετικό «ειδικό» για τη δημιουργία των μεταφράσεων.
Αυτή η αρχιτεκτονική επιτρέπει την καλύτερη χρήση των πόρων, καθώς κάθε ειδικός έχει διαφορετική ειδικότητα, γεγονός που οδηγεί σε πιο αποτελεσματική εκπαίδευση και εξαγωγή συμπερασμάτων — χωρίς να θυσιάζεται η ποιότητα της μετάφρασης.
Αυτή η αρχιτεκτονική καθιστά πολύ πιο αποτελεσματική την εκπαίδευση και τη συντήρηση του μοντέλου μας για μερικούς λόγους. Πρώτον, το μοντέλο μας είναι σε θέση να αξιοποιήσει τις γλωσσικές ομοιότητες μεταξύ των γλωσσών. Όταν όλες οι γλώσσες εκπαιδεύονται μαζί, γλώσσες που είναι παρόμοιες, όπως τα ισπανικά και τα πορτογαλικά, επωφελούνται από τη συμβολή του άλλου κατά τη διάρκεια της εκπαίδευσης, κάτι που βοηθά στη βελτίωση της ποιότητας μετάφρασης και στις δύο γλώσσες. Μπορούμε επίσης πολύ πιο εύκολα να δοκιμάσουμε και να ενσωματώσουμε νέες έρευνες και προόδους σε LLM στο σύστημά μας καθώς κυκλοφορούν, για να επωφεληθούμε από τις πιο πρόσφατες και καλύτερες διαθέσιμες τεχνικές. Βλέπουμε ένα άλλο πλεονέκτημα αυτού του ενοποιημένου μοντέλου σε περιπτώσεις όπου η γλώσσα πηγής δεν έχει οριστεί ή έχει οριστεί λανθασμένα, όπου το μοντέλο είναι αρκετά ακριβές ώστε να μπορεί να εντοπίσει τη σωστή γλώσσα πηγής και να μεταφράσει στη γλώσσα-στόχο. Στην πραγματικότητα, ακόμα κι αν η είσοδος έχει συνδυασμό γλωσσών, το σύστημα εξακολουθεί να μπορεί να ανιχνεύσει και να μεταφράσει στη γλώσσα-στόχο. Σε αυτές τις περιπτώσεις, η ακρίβεια μπορεί να μην είναι τόσο υψηλή, αλλά το τελικό μήνυμα θα είναι ευλόγως κατανοητό.
Για να εκπαιδεύσουμε αυτό το ενοποιημένο μοντέλο, ξεκινήσαμε με προεκπαίδευση σε διαθέσιμα δεδομένα ανοιχτού κώδικα, καθώς και στα δικά μας μεταφραστικά δεδομένα από εμπειρία, σε αποτελέσματα μετάφρασης συνομιλίας με ετικέτα με τον άνθρωπο και σε κοινές προτάσεις και φράσεις συνομιλίας. Δημιουργήσαμε επίσης τη δική μας μέτρηση και μοντέλο αξιολόγησης μετάφρασης για να μετρήσουμε την ποιότητα της μετάφρασης. Οι περισσότερες μετρήσεις ποιότητας μετάφρασης εκτός ράφις συγκρίνουν το αποτέλεσμα μετάφρασης AI με κάποια βασική αλήθεια ή μετάφραση αναφοράς και εστιάζουν κυρίως στην κατανοητότητα της μετάφρασης. Θέλαμε να αξιολογήσουμε το ποιότητα της μετάφρασης — χωρίς βασική μετάφραση αλήθειας.
Το εξετάζουμε από πολλές πτυχές, όπως η ακρίβεια (αν υπάρχουν προσθήκες, παραλείψεις ή λανθασμένες μεταφράσεις), η ευχέρεια (σημεία στίξης, ορθογραφία και γραμματική) και εσφαλμένες αναφορές (ασυμφωνίες με το υπόλοιπο κείμενο). Ταξινομούμε αυτά τα σφάλματα σε επίπεδα σοβαρότητας: Είναι κρίσιμο, μείζον ή δευτερεύον σφάλμα; Προκειμένου να αξιολογήσουμε την ποιότητα, δημιουργήσαμε ένα μοντέλο ML και το εκπαιδεύσαμε σε τύπους και βαθμολογίες σφαλμάτων με ανθρώπινη ετικέτα. Στη συνέχεια, βελτιστοποιήσαμε ένα πολυγλωσσικό μοντέλο γλώσσας για να προβλέψουμε σφάλματα και τύπους σε επίπεδο λέξης και να υπολογίσουμε μια βαθμολογία χρησιμοποιώντας τα πολυδιάστατα κριτήριά μας. Αυτό μας δίνει μια ολοκληρωμένη κατανόηση της ποιότητας και των τύπων των σφαλμάτων που εμφανίζονται. Με αυτόν τον τρόπο μπορούμε να εκτιμήσουμε την ποιότητα της μετάφρασης και να ανιχνεύσουμε σφάλματα χρησιμοποιώντας κείμενο-πηγή και μηχανικές μεταφράσεις, χωρίς να απαιτείται βασική μετάφραση αλήθειας. Χρησιμοποιώντας τα αποτελέσματα αυτού του μέτρου ποιότητας, μπορούμε να βελτιώσουμε περαιτέρω την ποιότητα του μεταφραστικού μας μοντέλου.
Τα λιγότερο κοινά ζεύγη μετάφρασης (π.χ., γαλλικά σε ταϊλανδέζικα), είναι προκλητικά λόγω έλλειψης δεδομένων υψηλής ποιότητας. Για να αντιμετωπίσουμε αυτό το κενό, εφαρμόσαμε πίσω μετάφραση, όπου το περιεχόμενο μεταφράζεται ξανά στην αρχική γλώσσα και, στη συνέχεια, συγκρίνεται με το κείμενο πηγής για ακρίβεια. Κατά τη διάρκεια της εκπαιδευτικής διαδικασίας, χρησιμοποιήσαμε επαναληπτική αντίστροφη μετάφραση, όπου χρησιμοποιούμε έναν στρατηγικό συνδυασμό αυτών των δεδομένων εκ των υστέρων μεταφράσεων και των εποπτευόμενων (επισημασμένων) δεδομένων για να επεκτείνουμε τον όγκο των μεταφραστικών δεδομένων για να μάθει το μοντέλο.
Για να βοηθήσουμε το μοντέλο να κατανοήσει τη σύγχρονη αργκό, ζητήσαμε από ανθρώπινους αξιολογητές να μεταφράσουν δημοφιλείς και δημοφιλείς όρους για κάθε γλώσσα και συμπεριλάβαμε αυτές τις μεταφράσεις στα εκπαιδευτικά μας δεδομένα. Θα συνεχίσουμε να επαναλαμβάνουμε αυτή τη διαδικασία τακτικά για να διατηρήσουμε το σύστημα ενημερωμένο σχετικά με την πιο πρόσφατη αργκό.
Το μοντέλο μετάφρασης συνομιλίας που προκύπτει έχει περίπου 1 δισεκατομμύριο παραμέτρους. Η εκτέλεση μιας μετάφρασης μέσω ενός μοντέλου τόσο μεγάλου απαιτεί απαγορευτικά πόρους για προβολή σε κλίμακα και θα έπαιρνε πολύ χρόνο για μια συνομιλία σε πραγματικό χρόνο, όπου η χαμηλή καθυστέρηση είναι κρίσιμη για την υποστήριξη περισσότερων από 5.000 συνομιλιών ανά δευτερόλεπτο. Έτσι, χρησιμοποιήσαμε αυτό το μεγάλο μοντέλο μετάφρασης σε μια προσέγγιση μαθητή-δασκάλου για να δημιουργήσουμε ένα μικρότερο μοντέλο με μικρότερο βάρος. Εφαρμόσαμε απόσταξη, κβαντοποίηση, συλλογή μοντέλων και άλλες βελτιστοποιήσεις για να μειώσουμε το μέγεθος του μοντέλου σε λιγότερες από 650 εκατομμύρια παραμέτρους και να βελτιώσουμε την απόδοση της υπηρεσίας. Επιπλέον, τροποποιήσαμε το API πίσω από τη συνομιλία κειμένου χωρίς εμπειρία για να στείλουμε τόσο τα πρωτότυπα όσο και τα μεταφρασμένα μηνύματα στη συσκευή του ατόμου. Αυτό δίνει τη δυνατότητα στον παραλήπτη να δει το μήνυμα στη μητρική του γλώσσα ή να αλλάξει γρήγορα το αρχικό, μη μεταφρασμένο μήνυμα του αποστολέα.
Μόλις το τελικό LLM ήταν έτοιμο, εφαρμόσαμε ένα back end για σύνδεση με τους διακομιστές μοντέλων. Αυτό το back end είναι όπου εφαρμόζουμε πρόσθετη λογική μετάφρασης συνομιλίας και ενσωματώνουμε το σύστημα με τα συνήθη συστήματα εμπιστοσύνης και ασφάλειας. Αυτό διασφαλίζει ότι το μεταφρασμένο κείμενο λαμβάνει το ίδιο επίπεδο ελέγχου με το άλλο κείμενο, προκειμένου να εντοπιστούν και να αποκλειστούν λέξεις ή φράσεις που παραβιάζουν τις πολιτικές μας. Η ασφάλεια και η ευγένεια είναι στην πρώτη γραμμή όλων όσων κάνουμε στη Roblox, επομένως αυτό ήταν ένα πολύ σημαντικό κομμάτι του παζλ.
Συνεχής βελτίωση της ακρίβειας
Κατά τη δοκιμή, είδαμε ότι αυτό το νέο σύστημα μετάφρασης αυξάνει την αφοσίωση και την ποιότητα της περιόδου σύνδεσης για τα άτομα στην πλατφόρμα μας. Με βάση τη δική μας μέτρηση, το μοντέλο μας ξεπερνά τα εμπορικά API μετάφρασης σε περιεχόμενο Roblox, υποδεικνύοντας ότι έχουμε βελτιστοποιήσει με επιτυχία τον τρόπο με τον οποίο επικοινωνούν οι άνθρωποι στο Roblox. Είμαστε ενθουσιασμένοι που βλέπουμε πώς αυτό βελτιώνει την εμπειρία για τα άτομα στην πλατφόρμα, δίνοντάς τους τη δυνατότητα να παίζουν παιχνίδια, να ψωνίζουν, να συνεργάζονται ή απλώς να επικοινωνούν με φίλους που μιλούν διαφορετική γλώσσα.
Η ικανότητα των ανθρώπων να έχουν απρόσκοπτες, φυσικές συνομιλίες στη μητρική τους γλώσσα, μας φέρνει πιο κοντά στον στόχο μας να συνδέσουμε ένα δισεκατομμύριο ανθρώπους με αισιοδοξία και ευγένεια.
Για να βελτιώσουμε περαιτέρω την ακρίβεια των μεταφράσεων μας και να παρέχουμε στο μοντέλο μας καλύτερα δεδομένα εκπαίδευσης, σχεδιάζουμε να αναπτύξουμε ένα εργαλείο που θα επιτρέπει στους χρήστες της πλατφόρμας να παρέχουν σχόλια για τις μεταφράσεις τους και να βοηθήσουν το σύστημα να βελτιωθεί ακόμη πιο γρήγορα. Αυτό θα επέτρεπε σε κάποιον να μας πει όταν βλέπει κάτι που έχει μεταφραστεί λάθος και ακόμη και να προτείνει μια καλύτερη μετάφραση που μπορούμε να προσθέσουμε στα δεδομένα εκπαίδευσης για να βελτιώσουμε περαιτέρω το μοντέλο.
Αυτές οι μεταφράσεις είναι διαθέσιμες σήμερα και για τις 16 γλώσσες που υποστηρίζουμε — αλλά δεν έχουμε τελειώσει. Σκοπεύουμε να συνεχίσουμε να ενημερώνουμε τα μοντέλα μας με τα πιο πρόσφατα παραδείγματα μετάφρασης από τις εμπειρίες μας, καθώς και με δημοφιλείς φράσεις συνομιλίας και τις πιο πρόσφατες φράσεις αργκό σε κάθε γλώσσα που υποστηρίζουμε. Επιπλέον, αυτή η αρχιτεκτονική θα καταστήσει δυνατή την εκπαίδευση του μοντέλου σε νέες γλώσσες με σχετικά μικρή προσπάθεια, καθώς θα είναι διαθέσιμα επαρκή δεδομένα εκπαίδευσης για αυτές τις γλώσσες. Επιπλέον, διερευνούμε τρόπους αυτόματης μετάφρασης των πάντων σε πολλαπλές διαστάσεις: κείμενο σε εικόνες, υφές, τρισδιάστατα μοντέλα κ.λπ.
Και ήδη εξερευνούμε νέα συναρπαστικά σύνορα, συμπεριλαμβανομένων των αυτόματων φωνή μεταφράσεις συνομιλίας. Φανταστείτε έναν γαλλικό ομιλητή στο Roblox να μπορεί να συνομιλεί με φωνή με κάποιον που μιλά μόνο ρωσικά. Και οι δύο μπορούσαν να μιλήσουν και να καταλάβουν ο ένας τον άλλον, μέχρι τον τόνο, τον ρυθμό και το συναίσθημα της φωνής τους, στη δική τους γλώσσα και σε χαμηλή καθυστέρηση. Αν και αυτό μπορεί να ακούγεται σαν επιστημονική φαντασία σήμερα, και θα χρειαστεί λίγος χρόνος για να επιτευχθεί, θα συνεχίσουμε να προωθούμε τη μετάφραση. Στο όχι και πολύ μακρινό μέλλον, το Roblox θα είναι ένα μέρος όπου άνθρωποι από όλο τον κόσμο θα μπορούν να επικοινωνούν απρόσκοπτα και αβίαστα όχι μόνο μέσω συνομιλίας κειμένου, αλλά με κάθε δυνατό τρόπο!