L’intelligenza artificiale (AI) è già uno strumento fondamentale per il progresso della scienza. “Come informatico, credo che l’essere umano sia il programma più complesso mai scritto. È straordinario poter accedere a un pezzo di quel codice”, afferma Pushmeet Kohli, vicepresidente scientifico di Google DeepMind. Sa di cosa sta parlando. Il suo capo, Demis Hassabis, e il suo collega John Jumper hanno vinto quest’anno il Premio Nobel per la Chimica per il loro contributo alla “previsione della struttura delle proteine attraverso l’uso dell’intelligenza artificiale”. Il premio riconosce l’utilità di AlphaFold2, lo strumento che è riuscito a descrivere la forma tridimensionale di 200 milioni di proteine, informazioni fondamentali per comprendere il funzionamento degli organismi.
Kohli ha supervisionato il team che ha scritto il codice per AlphaFold2. Dirige circa 150 ricercatori che costituiscono la gamba più prettamente scientifica di DeepMind, la divisione dell’azienda Google che – secondo quanto dicono – vive al di fuori delle esigenze commerciali della casa madre e che non partecipa alla corsa all’intelligenza artificiale generativa. Il 43enne esperto di machine learning e visione artificiale è cresciuto ai piedi dell’Himalaya a Dehradun, in India, e si è trasferito nel Regno Unito per completare i suoi studi. Dopo aver completato il dottorato presso l’Università di Cambridge, è stato assunto da Microsoft, dove è diventato direttore della ricerca. Nel 2017, Hassabis gli ha chiesto di farsi carico dei progetti scientifici di DeepMind.
Per Kohli, l’intelligenza artificiale ha aperto un nuovo orizzonte. “In qualunque ambito della scienza si guardi, l’intelligenza artificiale sta trasformando ciò che si può fare”, dice a EL PAÍS dopo essere intervenuto al forum AI for Science, organizzato a Londra dalla sua azienda e dalla Royal Society.
Chiedere. Esiste una disciplina scientifica che non può beneficiare della spinta dell’intelligenza artificiale?
Risposta. Se riesci a formulare la domanda scientifica su cui stai lavorando come un problema di ragionamento o di riconoscimento di schemi, in cui si devono trarre determinate conclusioni dai dati, allora l’intelligenza artificiale può dare molto contributo. Un errore comune è dimenticare che devi essere in grado di acquisire dati dagli oggetti fisici che stai studiando. Ad esempio, non ha senso creare modelli che cerchino di prevedere le emozioni, perché i dati con cui li addestrerai sono reazioni soggettive di esseri umani che hanno visto questa o quella espressione facciale o linguaggio del corpo in determinati contesti. Per noi è molto importante conoscere i limiti dei modelli.
P. A che tipo di progetti sei interessato?
R. Abbiamo molto lavoro intorno alla biologia. Abbiamo sfiorato la biologia strutturale con AlphaFold, ma siamo molto interessati anche alla genomica: vogliamo capire la semantica del DNA, sapere cosa succede con i problemi delle varianti dal significato sconosciuto. Questa è la nostra prossima sfida. Se c’è una mutazione nel genoma, quale effetto specifico ha? Stiamo anche lavorando su nuovi materiali, crediamo che ci sia molto potenziale per avanzare lì. Altri settori importanti per noi sono la fusione nucleare, il clima e le scienze di base legate alla matematica e all’informatica.
“Congratulazioni a John, il #AlphaFold team e tutti coloro che in DeepMind e Google ci hanno supportato lungo il percorso: è un premio straordinario per tutti noi! È un onore e un privilegio lavorare con tutti voi per far avanzare le frontiere della scienza”. – @DemisHassabis
Scopri di più… pic.twitter.com/XAr86gFEf3
— Google DeepMind (@GoogleDeepMind) 10 ottobre 2024
P. Quali obiettivi si prefiggono nei settori della fusione e dei nuovi materiali?
R. Nella fusione nucleare, l’obiettivo è massimizzare il tempo in cui possiamo mantenere stabile il plasma. Quando il reattore a fusione è acceso, il nostro sistema di intelligenza artificiale controlla il campo magnetico, che deve essere leggermente modulato senza causare interruzioni che destabilizzino il plasma e mantenendo la temperatura e l’attrito appropriati. In termini di sviluppo dei materiali, l’obiettivo è sviluppare nuovi materiali che, una volta testati in laboratorio, vediamo che sono sintetizzabili e stabili.
P. Dice che, nel campo della genomica, l’obiettivo è comprendere la semantica del DNA. A che punto sei in questo processo?
R. Il progetto genoma umano legge i 3 miliardi di caratteri del codice che ci rende ciò che siamo. Si scopre che tutte quelle lettere hanno un significato, uno scopo, che attualmente non comprendiamo appieno. Ci sono due componenti del genoma: la parte codificante e la parte non codificante. Il primo parla di quali proteine verranno espresse; la seconda, sui meccanismi regolatori che dicono quante proteine dovrebbero essere espresse, ecc. Bene, per la parte di codifica stiamo già facendo previsioni con un alto livello di affidabilità. Pensiamo di essere vicini a poter dire se alcune mutazioni saranno problematiche o meno. Ma sapere come e perché saranno problematici è ancora un’area di ricerca aperta. E la stessa cosa accade con la parte non codificante: vogliamo sapere come avviene l’espressione delle proteine. Non c’è orizzonte per completare il progetto in questo momento. Ma quando lo faremo, comprenderemo veramente il linguaggio della vita. E poi potremo iniziare a pensare a come modificare il genoma per raggiungere determinati obiettivi.
P. In che misura la corsa all’intelligenza artificiale generativa, su cui Gemini capitalizza nel caso di Google, ha distratto le altre linee di ricerca dell’azienda?
R. L’intelligenza artificiale generativa è un concetto molto potente, anche per la scienza, perché ha sbloccato qualcosa di nuovo. Fino ad ora, gran parte del nostro impegno si è concentrato sullo sfruttamento di dati strutturati, nel senso che avevi una sequenza e una previsione e potevi vedere i risultati in forma tabellare. Ora, molti progressi scientifici sono contenuti negli articoli sotto forma di testo, quindi non eravamo più in grado di applicarvi l’intelligenza artificiale per sfruttare quel tipo di intuizione che fornisce. I grandi modelli linguistici hanno permesso di estrarre conoscenza da quella letteratura scientifica. Quindi, in un certo senso, l’intelligenza artificiale generativa sta aiutando la scienza perché apre un nuovo campo.
P. L’intelligenza artificiale generativa si basa su database giganteschi, che hanno già esaurito l’intera Internet. Si comincia a dire che i prossimi modelli saranno addestrati con dati sintetici, quelli creati dalle macchine. Come lo vedi?
R. Penso che più un modello è vecchio, più è espressivo, maggiore è il livello di libertà che ha. Con più dati, possiamo avere maggiore supervisione e controllo su ciò che il sistema apprenderà. Ma non è una questione di dimensioni, ciò che conta davvero è la diversità dei dati, che forniscono al modello diversi tipi di problemi da cui estrarre intuizioni.
P. I dati sintetici raggiungono questo obiettivo?
R. Non è una cosa che funziona in tutti i casi. In genere, utilizziamo dati ottenuti eseguendo esperimenti. Nel caso di AlphaFold, è stato addestrato su un database con 150.000 proteine e, dopo l’addestramento, siamo stati in grado di prevedere la struttura di oltre 200 milioni. In alcuni casi utilizziamo simulazioni. Questo è ciò che facciamo nel nostro lavoro sulla fusione nucleare: proviamo a esaminare i possibili modi in cui il plasma può comportarsi per vedere come controllarlo, con l’idea che, se applicato al mondo reale in un reattore nucleare, il sistema sarà in grado di generalizzare. E infine c’è l’idea dei dati sintetici, generati dall’intelligenza artificiale. In alcuni casi, è possibile fare in modo che il modello produca determinati tipi di dati che non erano presenti nel database di training. Ad esempio, immaginiamo che nel database originale abbiamo solo immagini di sedie verdi, ma in un database sintetico, poiché conosciamo i concetti di blu o rosso, generiamo sedie di tanti colori diversi. Quindi il modello finale sarà in grado di capire che le sedie possono essere di vari colori e di rilevarli.
P. Che tipo di problemi possono essere risolti con questi tipi di modelli?
R. Questo può essere applicato a quasi tutti i problemi che possiamo immaginare, ma potrebbe non funzionare per tutti. Non abbiamo ancora una teoria per capire quando i dati sintetici siano utili. Ma in alcuni casi abbiamo verificato che, utilizzando questa tecnica, si ottiene un miglioramento delle prestazioni del sistema.
P. Quale percentuale di dati sintetici utilizzate?
R. Stiamo investendo in questi tre tipi di fonti di dati. Soprattutto nella simulazione, che è la fonte più efficace e può essere controllata. Usiamo dati sintetici, ma con cautela: è molto importante che il modello originale sia buono, altrimenti il risultato è inutile.