Guide

La distillazione è il metodo che apre le porte a una nuova generazione di modelli AI

Fare di più, con meno: le big tech e alcune startup stanno cominciando a prendere spunto da Deepseek per una nuova era di modelli di intelligenza artificiale, che potranno essere più economici dei precedenti.

6 marzo 2025

4' di lettura

Fare di più, con meno: le big tech e alcune startup stanno cominciando a prendere spunto da Deepseek per una nuova era di modelli di intelligenza artificiale, che potranno essere più economici dei precedenti.

La tecnica chiave che ora può fare la differenza si chiama “distillazione”. Ha attirato l’attenzione proprio dopo che la cinese DeepSeek l’ha utilizzata per creare modelli di intelligenza artificiale potenti ed efficienti basati su sistemi open source creati dai concorrenti Meta e Alibaba. La svolta ha scosso la fiducia nella leadership dell’intelligenza artificiale della Silicon Valley e ha portato anche a un tracollo, di breve periodo, nel valore dalle azioni delle grandi aziende tecnologiche statunitensi.

Le big tech si sono affrettate a evidenziare che nonostante Deepseek gli investimenti in AI cresceranno ancora nel 2025. La maggiore efficienza ottenibile, con la distillazione (e altre tecniche) servirà infatti da stimolo per la nascita di altri modelli specializzati, più potenti, e una loro più ampia adozione nell’economia.

Cos’è la distillazione e come funziona

La “distillazione della conoscenza” è un processo di trasferimento delle conoscenze da un modello AI “insegnante” (teacher) di grandi dimensioni a un modello “studente” (student) più piccolo, preservandone le prestazioni. Concettualizzata da Geoffrey Hinton nel 2015, trae spunto da un lavoro pionieristico del 2006 su reti neurali.

L’idea centrale è che il modello studente non si limita a imitare le risposte corrette, ma apprende dal teacher la logica di funzionamento generale con cui fornirle agli utenti. Ovvero apprende le relazioni probabilistiche che ci sono tra le classi semantiche alla base dei dati di training.

Immaginiamola come una scorciatoia per creare un modello IA in modo più efficiente. Nei tradizionali approcci di machine learning che sono alla base dei grandi e noti modelli come Gpt-4 di OpenAi, Gemini di Google e Llama di Meta, i dati sono spesso pre-etichettati da esseri umani o sistemi automatizzati. Nella distillazione è invece il modello teacher a generare i dati di training per lo studente.

In particolare, poi, il genio di Deepseek è stato di trovare un buon metodo per attuare questa distillazione con risultati migliori dei precedenti. Ha sfruttato una strategia ibrida: il 40% dei dati deriva da annotazioni manuali curate da esperti di dominio, il 35% da campionamenti guidati di large language model e il restante 25% da dati ottimizzati via reinforcement learning (apprendimento di rinforzo). Questo mix cerca di bilanciare efficienza, accuratezza, creatività e allineamento ai valori umani.

Vantaggi e applicazioni

I vantaggi della distillazione sono evidenti. I grandi modelli linguistici tradizionali richiedono enormi quantità di dati e potenza di calcolo per essere sviluppati e gestiti. Nell’ordine di centinaia di milioni di dollari.

Grazie alla distillazione, sviluppatori e aziende possono accedere alle capacità di questi modelli a una frazione del prezzo (forse un decimo). In più, il modello allenato così è più piccolo. Consente quindi agli sviluppatori di app di eseguire rapidamente modelli di intelligenza artificiale su dispositivi personali (invece di server) come laptop e smartphone. A livello più generale, la distillazione della conoscenza non è solo una tecnica di ottimizzazione, ma può essere pilastro per un’AI democratica e sostenibile. Ampia il numero di concorrenti, anche piccoli e specializzati; riduce i consumi dell’AI.

Il più grande sostenitore di OpenAI, Microsoft, ha usato GPT-4 per “distillare” la sua piccola famiglia di modelli linguistici Phi come parte di una partnership commerciale dopo aver investito quasi 14 miliardi di dollari nell’azienda.

Ibm ha fatto un modello distillato di Watson specializzato per la diagnosi del cancro al seno, addestrato su 2.3 milioni di immagini mammografiche. Raggiunge il 98.7% di accuracy (contro il 96.4% del teacher) con 18 volte in meno parametri, specializzandosi nel riconoscimento di micro-calcificazioni. Il modello Malted AI derivato da GPT-4, analizza contratti legali con il 99.1% di precisione nell’individuare clausole rischiose, superando il teacher del 2.3% grazie a un addestramento focalizzato su 450mila documenti giuridici.

Altri modelli nasceranno anche grazie alle trovate di Deepseek, data la crescente attenzione che Microsoft, OpenAI e Meta dichiarano di avere

Svantaggi

“La distillazione presenta un interessante compromesso; se rendi i modelli più piccoli, inevitabilmente ne riduci la capacità”, spiega Ahmed Awadallah di Microsoft Research, che ha affermato che un modello distillato può essere progettato per essere molto efficace nel riassumere le e-mail, ad esempio, “ma in realtà non sarebbe efficace in nient’altro”. OpenAI sostiene che saranno comunque necessari modelli linguistici di grandi dimensioni per attività ad alta intelligenza e ad alto rischio in cui le aziende sono disposte a pagare di più per un elevato livello di accuratezza e affidabilità. E che saranno necessari anche modelli di grandi dimensioni per scoprire nuove capacità che possono poi essere distillate in modelli più piccoli.

Di base poi, nonostante il successo di Deepseek, gli esperti non sono ancora convinti che sia stata risolta la ricerca di un mix perfetto per i dati di training (manuali, automatici, distillati). Questo processo introduce complessità paradossali: da un lato, il teacher può produrre pseudo-dati di qualità superiore a quelli umani per compiti specifici; dall’altro, rischia di perpetuare bias o errori sistematici presenti nel modello originale.

C’è poi un tema di copyright da considerare. Secondo OpenAI, DeepSeek ha distillato i modelli di OpenAI per addestrare il modello ed è un’attività contraria ai suoi termini di servizio. OpenAI ha aggiunto che non intende però denunciare il concorrente; al tempo stesso ci starà più attenta: ora ha team che monitorano l’utilizzo del suo modello e può rimuovere l’accesso agli utenti che sospetta stiano generando grandi quantità di dati per esportare e addestrare un concorrente. L’ha fatto appunto con gli account usati da DeepSeek. Resta un’attività difficile da bloccare del tutto. Ormai i buoi della distillazione sono scappati. La via è aperta per una frontiera più variegata per la creazione di tanti e diversi modelli AI.

Brand connect

I prossimi eventi

Tutti gli eventi

Notizie e approfondimenti sugli avvenimenti politici, economici e finanziari.

Tecnologia

I nostriPodcast

L’Europa e i suoi vicini: la Comunità politica europea in Armenia

05 Gli Umanoidi alla conquista del Mondo | Prepararsi al futuro

04 Gli Umanoidi alla conquista del Mondo | Robot e geopolitica

La distillazione è il metodo che apre le porte a una nuova generazione di modelli AI

Fare di più, con meno: le big tech e alcune startup stanno cominciando a prendere spunto da Deepseek per una nuova era di modelli di intelligenza artificiale, che potranno essere più economici dei precedenti.

Cos’è la distillazione e come funziona

Vantaggi e applicazioni

Svantaggi

Le ultime di

L’equivoco dell’AI: perché più efficienza non cancella i posti di lavoro

Mélenchon si candida alle presidenziali del 2027 e punta al secondo turno

Luigi Zanda: il cesarismo senza controllo, soprattutto Usa, è il portato della deriva dell’Occidente

Macro

L’Europa e i suoi vicini: la Comunità politica europea in Armenia

Brand connect

I prossimi eventi

Newsletter