Il progetto alla Sapienza

Arriva ChatMinerva, l’AI italiana con accesso al Web in tempo reale

Si tratta di un assistente Ai multimodale capace di leggere testi, interpretare immagini, analizzare documenti e navigare il Web in tempo reale, il tutto dialogando in italiano con un livello di affidabilità inedito per un modello sviluppato interamente nel nostro Paese

di Redazione Roma

3 giugno 2026

3' di lettura

English Version

3' di lettura

English Version

Un sistema in cui caricare foto di pagine in lingua straniera da tradurre, e magari anche riassumere, in italiano in tempo reale. Oppure un modello a cui chiedere di analizzare nel dettaglio articoli scientifici. Pur non trattandosi di novità assolute nel mondo dell’intelligenza artificiale, lo diventano quando facciamo riferimento al panorama italiano. La novità nel nostro Paese, in questo senso, arriva da ChatMinerva, fresco di presentazione da parte dal gruppo di ricerca Sapienza NLP dell’Università La Sapienza di Roma, guidato dal professor Roberto Navigli, in collaborazione con Babelscape, spin-off accademico fondato dieci anni fa.

Si tratta di un assistente Ai multimodale capace di leggere testi, interpretare immagini, analizzare documenti e navigare il Web in tempo reale, il tutto dialogando in italiano con un livello di affidabilità inedito per un modello sviluppato interamente nel nostro Paese. Il progetto si distingue per una caratteristica che, nel panorama attuale, è tutt’altro che scontata: trasparenza e controllo diretto sull’intero ciclo di vita del sistema, dal pre-addestramento al fine-tuning, fino ai meccanismi di moderazione dei contenuti.

Dalla voce all’OCR, fino ai 32mila token

Le novità tecniche sono diverse. Sul fronte della comprensione multimodale, il modello è ora in grado di elaborare fotografie, pagine scannerizzate, report e articoli scientifici, combinando informazioni visive e testuali ed eseguendo il riconoscimento ottico dei caratteri (OCR) su documenti digitalizzati. È anche possibile interagire vocalmente con il sistema.

Sul fronte dell’accesso alle informazioni, ChatMinerva integra un sistema di Web RAG — Retrieval-Augmented Generation — basato sul motore di ricerca aperto DuckDuckGo, che consente al modello di attingere a fonti aggiornate in tempo reale, superando i limiti tipici dei modelli addestrati su dati statici.

Rilevante anche l’estensione della finestra contestuale fino a 32.000 token, ottenuta tramite continual training: una soglia che consente di gestire documenti lunghi e conversazioni articolate senza perdita di coerenza. Il tutto è presidiato da un componente dedicato alla sicurezza, che analizza input e output per filtrare contenuti indesiderati, non affidabili o sensibili.

L’addestramento è stato reso possibile dalla potenza computazionale del supercomputer Leonardo di CINECA, mentre un contributo determinante è venuto dalla comunità degli utenti: le interazioni raccolte durante la fase pubblica di Minerva 7B hanno alimentato il fine-tuning su milioni di esempi, sia testuali che multimodali.

Le radici di Minerva 7B

ChatMinerva è l’evoluzione diretta di Minerva 7B, il Large Language Model lanciato in precedenza dallo stesso gruppo Sapienza NLP e già allora presentato come la principale iniziativa italiana nel campo dei modelli linguistici di grandi dimensioni sviluppati con pieno controllo sulle fonti e sui processi di addestramento — e l’unica curata da un ateneo pubblico in Italia.

Minerva 7B aveva già tracciato una rotta alternativa rispetto ai modelli proprietari dei grandi colossi tecnologici, puntando su apertura, rigore scientifico e indipendenza. ChatMinerva raccoglie e amplifica quella scommessa, trasformando il modello di base in un assistente interattivo a tutto tondo, con capacità che lo avvicinano sensibilmente agli standard internazionali di riferimento.

La rettrice Antonella Polimeni ha inquadrato il risultato nella strategia più ampia dell’ateneo: «L’evoluzione del progetto Minerva verso assistenti AI multimodali e interattivi conferma la capacità della Sapienza di trasformare la ricerca di frontiera in innovazione concreta, al servizio della conoscenza e della società». Un percorso che, secondo Polimeni, poggia sull’integrazione tra competenze scientifiche, infrastrutture avanzate e collaborazione con realtà innovative del territorio.

Sul fronte della ricerca, Navigli non nasconde l’ambizione: «Vogliamo dimostrare che è possibile costruire tecnologia AI di frontiera anche in Europa e in Italia, con un approccio aperto, scientificamente rigoroso e indipendente». E con una nota di orgoglio che suona quasi come un manifesto: «ChatMinerva è stato costruito con molta più passione che budget, grazie al lavoro incessante di decine di ricercatori, dottorandi, studenti e collaboratori che credono nella possibilità di creare tecnologia AI italiana da cui partire per costruire prodotti competitivi».