Meta sviluppa un traduttore simultaneo fino a 101 lingue con maggiore precisione rispetto ai sistemi attuali | Tecnologia
Meta vuole recuperare l’ambizione che animava la biblica torre che, secondo il racconto dell’ Genesi (11,1-9), l’umanità ha voluto costruire per raggiungere il cielo. “Sono un solo popolo e parlano tutti la stessa lingua. (…) Ora, nulla di ciò che proporranno sarà impossibile. Su, scendiamo e confondiamo lì la loro lingua, così che nessuno capisca la lingua dell’altro”, ha reagito Geova. L’azienda di Mark Zuckerberg, la multinazionale di Facebook, Instagram e WhatsApp, vuole scongiurare questa maledizione e mantenere la leadership nella comunicazione personale, per la quale ha sviluppato, secondo quanto pubblicato oggi mercoledì dalla rivista. Naturaun modello di intelligenza artificiale (AI) in grado di tradurre istantaneamente comunicazioni voice-to-speech o text-to-speech e viceversa in un massimo di 101 lingue, imitando la voce e il tono degli interlocutori.
Il modello, chiamato SEAMLESSM4T, “supera le prestazioni dei sistemi esistenti”, secondo la ricercatrice capo Marta Costa-Jussà, della divisione di intelligenza artificiale di Meta (FAIR, Foundational AI Research), e sarà reso disponibile al pubblico finché non verrà utilizzato per scopi commerciali.
SEAMLESSM4T può riconoscere fino a 101 lingue (scritte o parlate) ed è in grado di tradurle in 36 in formato vocale e 96 in un file di testo. Secondo i risultati di Costa-Jussà, “traduce con una precisione tra l’8% e il 23% in più [de acuerdo con la Bilingual Evaluation Understudy] rispetto ai sistemi esistenti, può filtrare il rumore di fondo [entre un 42% y un 66% más] e si adatta alla variazione delle voci.
Direzione opposta alle reti
D’altro canto, mentre Meta ha eliminato il sistema di verifica dei dati e di moderazione dei contenuti sulle sue piattaforme di comunicazione, aprendo la porta a bufale, pregiudizi e incitamento all’odio, con il sistema di traduzione simultanea ha optato per la strategia opposta e si è concentrata la “mitigazione della tossicità” che può essere dedotta dal sistema durante l’apprendimento automatico o la traduzione. In questo senso, Olga Koreneva Antonova, professoressa presso la Facoltà di Traduzione e Interpretazione dell’Università Pablo de Olavide (UPO), avverte che, ad esempio, gli attuali traduttori informatici “non considerano l’uguaglianza di genere” e tendono a sostituire il femminile con il femminile. maschile perché le fonti con cui ci si allena includono già questo pregiudizio.
Meta ritiene che la tossicità sia un linguaggio volgare o un risultato che possa incitare all’odio, alla violenza o all’abuso contro una persona o un gruppo (come una religione, una razza o un genere). Per mitigarlo, ha sviluppato uno strumento, chiamato Etox, appositamente studiato per individuare gli elementi tossici del parlato.
Un altro limite che il nuovo sistema cerca di superare è la scarsità di lingue operative. Sebbene più della metà dell’umanità parli principalmente una mezza dozzina di lingue, la diversità è così ampia che le oltre 7.000 esistenti nel mondo sono fuori servizio. Il metamodello ha tentato di alleviare questa carenza incorporando fino a 101 lingue, nonostante la scarsità di dati audio e modelli per incorporarli nell’intelligenza artificiale.
Si distingue Tanel Alumäe, del laboratorio di tecnologia del linguaggio dell’Università di Tallinn (Estonia). Natura l’elevata capacità del sistema di tradurre simultaneamente il parlato grazie ai dati provenienti da 4,5 milioni di ore di audio parlato multilingue. “Questo tipo di addestramento aiuta il modello ad apprendere modelli dai dati, semplificando la messa a punto di attività specifiche senza la necessità di grandi quantità di dati di addestramento personalizzati”, spiega.
Tuttavia, a suo avviso, “la virtù più grande di questo lavoro non è l’idea o il metodo proposto, ma il fatto che tutti i dati e il codice per eseguire e ottimizzare questa tecnologia sono disponibili al pubblico, sebbene solo il modello stesso possa essere utilizzato per usi non commerciali”.
Allison Koenecke, del Dipartimento di Scienze dell’Informazione della Cornell University, avverte anche lei Naturadei limiti di questi sistemi di traduzione, nonostante i loro progressi, in ambienti in cui la precisione è essenziale, come nelle attività mediche o legali: “Modelli come quello ideato da SEAMLESS stanno accelerando i progressi in questo settore, ma gli utenti di questi modelli di ruolo (medici e funzionari giudiziari, per esempio) devono essere consapevoli della fallibilità delle tecnologie vocali”.
In questo senso aggiunge: “Questo tipo di errore indotto dalla macchina potrebbe causare un danno reale, come prescrivere erroneamente un farmaco o accusare una persona. E il danno colpisce in modo sproporzionato le popolazioni emarginate, che probabilmente saranno poco ascoltate”.
Koenecke accoglie con favore gli sforzi volti a eliminare la “tossicità” dalle traduzioni, ma sostiene “l’ampliamento della portata dei pregiudizi linguistici studiati” e l’avvertimento degli utenti sulle possibilità di errore.
Recensioni
Nonostante i progressi nel sistema di traduzione, il modello suscita sospetti tra alcuni ricercatori. Uno dei più critici è Víctor Etxebarria, professore di Ingegneria dei Sistemi e Automazione all’Università dei Paesi Baschi (UPV/EHU). “Non contribuisce al progresso scientifico, poiché, in base a quanto pubblicato, gli specialisti indipendenti non hanno il permesso di riprodurre, verificare o addirittura migliorare le sue basi tecnologiche. Hanno accesso solo per connettersi al traduttore per effettuare traduzioni superficiali. Questo software [programa] non rispetta i principi dell’intelligenza artificiale open source, come definiti dall’Open Source Initiative: utilizzare, studiare, modificare e condividere per qualsiasi scopo. Questo traduttore non lo consente e, quindi, non è coerente con i principi della scienza aperta”, dice a Science Media Center (SMC) Spagna.
E pur riconoscendo qualche virtù come strumento di aiuto, il ricercatore aggiunge: “Il prodotto non previene ritardi o errori di traduzione, che non corregge in tempo reale, come fanno i traduttori. Un’altra limitazione è che può essere utilizzato solo online tramite l’API (Interfaccia di programmazione dell’applicazione) imposto dalla società. Nel complesso, il traduttore è un prodotto tecnologico avanzato e probabilmente molto utile, ma chiuso ai principi della scienza aperta e con molteplici limitazioni tecnologiche e legali.
Maite Martín, professoressa di Informatica all’Università di Jaén e ricercatrice del gruppo SINAI (INTELLIGENT Information Access Systems), sottolinea l’incorporazione di linguaggi con poche risorse (più minoritarie), anche se a costo di un tasso di errore più elevato . “Questo sforzo non solo migliora l’accessibilità delle tecnologie di traduzione per queste comunità, ma segna anche un progresso nell’inclusione linguistica democratizzando l’accesso a strumenti di comunicazione avanzati”, spiega.
A differenza di Etxebarria, il ricercatore ritiene che l’accesso alla comunità scientifica sia garantito e loda “l’interazione in tempo reale, l’espressività della voce tradotta e l’attenuazione dei pregiudizi e della tossicità di genere”. “Seamlessm4T rappresenta un progresso significativo, c’è ancora del lavoro da fare per ottimizzarne l’implementazione in scenari pratici”, conclude SMC.
In relazione alla tossicità, Andreas Kaltenbrunner, ricercatore capo del gruppo AI e Data for Society dell’UOC, ricorda la contraddizione di Meta con la sua recente strategia di sopprimere la moderazione dei contenuti e promuoverla nel traduttore. “È lodevole che lo studio includa un’analisi per verificare se le traduzioni aumentano la tossicità dei testi o come affrontano possibili pregiudizi di genere. Tuttavia, è un peccato che Meta, il datore di lavoro dei ricercatori in questo studio, sembri aver recentemente deciso di abbandonare gli sforzi in questo senso con la sua nuova politica di moderazione dei contenuti”.
Kaltenbrunner ricorda in SMC che lo sviluppo è una variante di quello presentato nell’agosto 2023, ma con miglioramenti nell’unificazione dell’ambiente di utilizzo, nelle lingue incluse, nei filtri antirumore e nella diversità degli accenti.