Economia Digitale

Ecco Italia, un modello di IA large language come Gpt, tutto italiano

L’ha presentato oggi, e pubblicato open source per un libero download, l’azienda italiana iGenius in collaborazione con Cineca

6 giugno 2024

4' di lettura

Ecco Italia, un modello di IA large language come Gpt, tutto italiano. L’ha presentato oggi, e pubblicato open source per un libero download, l’azienda italiana iGenius in collaborazione con Cineca (il più grande polo di computing italiano, un consorzio interuniversitario).

Anche se la versione è ancora 0.1, Italia si pone ad oggi come il maggiore e più compiuto large language model made in Italy, formato con la nostra lingua e pensato per lo sviluppo di aziende e pubbliche amministrazioni italiane.

L’anima italiana è insomma presente a più livelli, come spiegato nella presentazione odierna dall’azienda. È nel data base utilizzato, più del 90 per cento dati italiani, con il vantaggio di comprendere meglio la nostra lingua, le sue sfumature, e il nostro contesto storico-culturale. Ne viene anche con un guadagno di efficienza del 60 per cento, perché gli attuali modelli, basati sull’inglese, quando devono gestire altre lingue fanno un continuo lavoro di traduzione invisibile all’utente.

L’italianità è anche nello spirito del prodotto: obiettivo, dichiarato oggi, è aiutare l’Italia a essere attrice di questa rivoluzione e non semplice consumatrice di prodotti stranieri. Ecco perché Italia è open source, per essere elemento abilitante di sviluppo del Paese, delle nostre imprese e PA; senza più dipendenze da prodotti stranieri.

Gli elementi distintivi di Italia

Da un punto di vista tecnico, Italia ha 9 miliardi di parametri, una finestra di contesto di 4.096 token e un vocabolario di 50.000 token. Ha usato per il training migliaia di miliardi di token, utilizzando un mix eterogeneo di fonti: sorgenti pubbliche, dati sintetici e contenuti di settore forniti dai partner commerciali di iGenius.

Collaborando con Editoriale Nazionale, società del gruppo Monrif, l’azienda ha potuto utilizzare il loro archivio storico di articoli di stampa come fonte integrativa per migliorare il modello.

Un altro elemento distintivo rispetto ai più famosi modelli, stranieri, riguarda il rispetto delle regole e della safety.

“Per costruire il nostro dataset di addestramento e garantire l’integrità etica dei contenuti generati, abbiamo sviluppato dei filtri di sicurezza specifici per la lingua italiana. Questi filtri rimuovono contenuti sensibili, espliciti e ad alto potenziale di bias dalle nostre sorgenti selezionate”, spiega iGenius.

“Questi meccanismi di protezione, uniti all’adozione di tecniche di Data Cleaning all’avanguardia, ci hanno permesso di mitigare l’occorrenza di bias, nonché di limitare le allucinazioni e la generazione di contenuti incoerenti con la conversazione”.

“La sicurezza dei dati e l’affidabilità delle informazioni sono da sempre una priorità per iGenius. Abbiamo investito nella costruzione di un dataset in italiano di altissima qualità per sviluppare un modello di linguaggio realmente aperto, trasparente e sicuro, in conformità con le normative europee sull’intelligenza artificiale come l’AI Act”.

Altri filtri riguardano la tutela del copyright nei dati utilizzati.

È vero che tutti i modelli seguono procedure di sicurezza, per ridurre il rischio di allucinazioni, contenuti discriminatori o lesivi; ma Italia mostra, almeno nelle dichiarazioni, un’inedita attenzione a tutte le regole europee. E sul copyright ricordiamo le recenti cause e polemiche che stanno contrapponendo Open Ai, Microsoft e Google a diversi soggetti (editori, grafici, designer, autori e creativi).

Italia si distingue anche per il target: nasce subito come focalizzato su aziende e PA.

E’ stato pensato per le aziende che operano in settori altamente regolamentati, come i servizi finanziari o la pubblica amministrazione.

Nonostante sia un modello a singola specializzazione linguistica, l’italiano appunto, “l’elevato numero di parametri unito alla qualità del processo di addestramento, lo rendono la scelta ideale per i casi d’uso più critici del mondo enterprise, dove l’affidabilità dei contenuti generati è di fondamentale importanza”, dichiara l’azienda.

La ricerca di un campione AI nazionale

L’Italia è alla forte ricerca di un “campione nazionale” in questa tecnologia (l’IA generativa e dei large language model). Uno ce l’hanno ormai la Germania e soprattutto la Francia (il cui Mistral ha avuto un forte supporto dal Governo francese e da Microsoft).

Il Governo italiano, come si legge nella nuova strategia sull’intelligenza artificiale (o meglio nella sua sintesi, dato che il testo completo non è ancora uscito), crede molto nella necessità che anche il nostro Paese si doti di un modello di IA nazionale, a favore dello sviluppo della nostra economia.

Il primo candidato sembrava essere Minerva, di ricercatori dell’università Sapienza di Roma, che però fin dalle prime battute si è mostrato inaffidabile nei risultati e non dotato di una chiara collocazione settoriale.

Italia è più promettente, anche perché iGenius è un’azienda che lavora all’IA dal 2016 e ha clienti come Intesa San Paolo, Allianz, Enel, Aon e Fincanteri con un suo prodotto di business intelligence (analisi dati a supporto delle decisioni aziendali; lo chiamano “il gpt dei numeri”).

Con Italia vogliono fare uno scatto avanti, di popolarità e per un supporto a tutto tondo del Paese.

Il nome del modello rivela queste grandi ambizioni. Nelle prossime settimane, i test e l’adozione eventuale da parte di aziende e PA italiane mostreranno se questo di oggi è stato un buon inizio. Per Italia e per l’Italia.