Guide

Come risponde ChatMinerva? La sfida di costruire un ChatGPT italiana

L’importante è valutare ogni llm per quello che è, non per quello che non potrebbe mai essere, un gigante da Silicon Valley.

di Alessandro Longo

8 giugno 2026

4' di lettura

English Version

4' di lettura

English Version

Se un mattone pesa un chilo più mezzo mattone, quanto pesa un mattone? L’indovinello è vecchio e molti esperti lo usavano come test per i primi modelli di AI generativa, Gpt-3 e dintorni, che puntualmente fallivano. ChatMinerva, chatbot italico appena lanciato, ha questo vantaggio indubbio: ci riporta in quel passato in cui potevamo farci beffe dell’AI generativa. “Il peso di quel mattonella sarà esattamente 1 kg + 0.5 × 1 kg = 1.5 kg (o 1 500 g). In altre parole, ha lo stesso peso del doppio della sua massa!”, ci risponde, con sicurezza (il punto esclamativo), quando la risposta giusta ormai la conoscono anche i sassi, o i mattoni, ed è due chili. Chatgpt Instant (versione più veloce dell’attuale modello Gpt 5.5) risponde correttamente e in più ci dice la formula per arrivarci, X=1+X/2, quindi due (kg). A farci soffrire di più è forse lo svarione linguistico (“quel mattonella”), che non fa onore a un modello il cui principale elemento distintivo dovrebbe essere quello di essere addestrato con e per la nostra lingua, l’italiano. Così l’hanno presentato al mondo i suoi creatori, il gruppo di ricerca Sapienza NLP dell’Università La Sapienza di Roma, guidato dal professor Roberto Navigli, in collaborazione con Babelscape, spin-off accademico fondato dieci anni fa.

Non è però nemmeno corretto essere tanto severi con una creatura che, «è stato costruito con molta più passione che budget, grazie al lavoro incessante di decine di ricercatori, dottorandi, studenti e collaboratori che credono nella possibilità di creare tecnologia AI italiana da cui partire per costruire prodotti competitivi», come ha detto Navigli.

Un po’ come una utilitaria autoctona, fatta con piccole e capaci forze. Non lo si può mettere in pista con le macchine di formula uno quali Gpt, Claude o Gemini. Purtroppo però a queste siamo abituati noi; con queste è inevitabile fare un confronto.

«Non sorprende che ChatMinerva non sappia risolvere l’indovinello del mattone, che non fallisce ormai nessuno. Parliamo di un modello con un numero di parametri (connessioni) di alcuni ordini di grandezza inferiore rispetto a Gpt e simili», dice Antonio Cisternino, ricercatore esperto di AI all’università di Pisa. ChatMinerva è l’evoluzione diretta di Minerva 7B, il large language model lanciato in precedenza dallo stesso gruppo Sapienza NLP, con 7 miliardi di parametri, “pochissimi ora”, dice Cisternino. Navigli annuncia per l’autunno una versione ulteriore, con 20 miliardi di parametri. Gpt 3, lanciato nel 2020, ne aveva 175 miliardi. Da allora OpenAI non ha più dichiarato questi valori, ma analisi indipendenti (di Semianalysis) parlano di quasi 2 mila miliardi di parametri, che il modello ora utilizza ogni volta in piccola parte nelle risposte, grazie a tecniche di efficienza raggiunte.

Le risposte di ChatMinerva risentono di queste limitazioni. “Sono più inclini a errori – allucinazioni – o a non rispettare le istruzione date”, dice Cisternino. Nelle nostre prove: se chiediamo di scrivere un articolo su un tema, non lo fa ma ci riassume una notizia. Se chiediamo di riassumere una notizia invece, ci dà poche righe e non le approfondisce se glielo chiediamo.

“Le risposte sono spesso stringate: siamo ancora agli inizi”, conferma Antonio Chella, ordinario di robotica all’università di Palermo, luminare internazionale nel campo. In questi giorni anche lui, come altri, sta provando ChatMinerva, perché la curiosità e l’interesse per questo sforzo accademico italiano c’è. E va incoraggiato.

Oltre a ChatMinerva stanno emergendo varie iniziative che cercano di valorizzare competenze nazionali e dati locali.

Tra i progetti più avanzati c’è Velvet, la famiglia di modelli linguistici sviluppata da Almawave, società quotata del gruppo Almaviva.

Velvet è stato uno dei primi llm italiani a essere sviluppato con particolare attenzione alle lingue europee e ai casi d’uso enterprise. L’azienda punta soprattutto ai settori regolamentati, dalla pubblica amministrazione ai servizi finanziari, dove temi come sovranità del dato, conformità normativa e trasparenza assumono un peso crescente.

Un altro attore è Domyn (ex iGenius), startup italiana tra le più note nel settore AI. Ha i modelli Italia-10B, Colosseum-355B, Domyn Small 10B e Domyn-Large, modello di reasoning da circa 260-263 miliardi di parametri per settori regolamentatIl progetto ha ottenuto visibilità internazionale grazie alle collaborazioni con Nvidia e alla partecipazione alle iniziative europee per la creazione di infrastrutture AI sovrane.

L’approccio di Domyn punta a combinare capacità generative avanzate con requisiti di sicurezza, auditabilità e gestione dei dati richiesti dalle organizzazioni. Accanto ai modelli generalisti stanno crescendo anche chatbot specializzati. Numerose software house italiane stanno integrando modelli open source all’interno di assistenti dedicati a settori specifici: sanità, manifattura, turismo, servizi professionali e pubblica amministrazione. In questi casi il valore non risiede tanto nel modello di base quanto nella capacità di integrare conoscenze verticali, workflow aziendali e basi documentali proprietarie. Dedicata a usi specialistici è anche la famiglia di modelli Vitruvian della startup Asc27.

Come si vede, non è possibile dire quale sia il campione nazionale in fatto di llm e non sarebbe forse nemmeno giusto farlo. Ci sono vari tentativi, alcuni più orientati al proof of concept di ricerca e sviluppo; altri con ambizione di utilità pratica e industriale. L’importante è valutare ogni llm per quello che è, non per quello che non potrebbe mai essere, un gigante da Silicon Valley.