Economia Digitale

Antropic lancia Claude Opus 4.5: la battaglia dei giganti dell’Ai si gioca sul codice

Il nuovo modello conquista la vetta dei benchmark con prezzi dimezzati e una sfida che ridefinisce i confini dell’intelligenza artificiale

di Marco Trabucchi

4' di lettura

English Version

4' di lettura

English Version

La guerra dell’intelligenza artificiale ha un nuovo campo di battaglia: la programmazione autonoma. E questa settimana ha visto un duello serrato tra due colossi che si contendono il primato tecnologico. Da un lato Anthropic, con il suo Claude Opus 4.5 lanciato lunedì scorso. Dall’altro Google, che pochi giorni prima aveva introdotto Gemini 3, incluso il modello Pro. Una rivalità che non è solo una questione di prestigio, ma che vale miliardi di dollari e ridisegna gli equilibri del settore tech.

Claude primo per il coding

Quando si parla di modelli AI, i benchmark sono il metro di giudizio definitivo. E qui la battaglia si fa interessante. Secondo i dati pubblicati dall’azienda, Claude Opus 4.5 ha conquistato l’80,9% su SWE-bench Verified, uno dei test più citati per valutare le capacità di risolvere problemi reali tratte da repository GitHub. Un risultato che lo pone davanti a tutti: GPT-5.1-Codex-Max di OpenAI si ferma al 77,9%, il precedente Claude Sonnet 4.5 al 77,2%, e Gemini 3 Pro – il rivale diretto – raggiunge il 76,2%.

Loading...

Sono differenze che possono sembrare sottili, ma nel mondo dell’AI ogni punto percentuale conta. Soprattutto quando si tratta di risolvere problemi reali di software engineering. SWE-bench Verified analizza 500 issue autentiche da repository GitHub, problemi che sviluppatori umani hanno realmente affrontato e risolto. La capacità di un modello di capire il contesto, navigare una codebase complessa e produrre una soluzione funzionante è il vero test di intelligenza pratica.

Ma Anthropic non si limit

a a reclamare la medaglia d’oro del coding. Su OSWorld, il benchmark che misura l’abilità di utilizzare un computer come farebbe un essere umano, Claude Opus 4.5 raggiunge il 66,3%, confermandosi il miglior modello in assoluto per “computer use” – quella capacità di navigare interfacce, cliccare pulsanti, compilare form come farebbe un umano.

La velocità con cui questi modelli migliorano è significativa della corsa all’AI più performante. Anthropic ha rilasciato Haiku 4.5 a ottobre, Sonnet 4.5 a settembre, e ora Opus 4.5. Tre modelli di fascia diversa in tre mesi. OpenAI ha risposto con múltiple varianti di GPT-5 nel corso del 2025, incluso il Codex Max a novembre. Google ha sganciato Gemini 3 dopo mesi di sviluppo, con un salto prestazionale che ha sorpreso gli stessi addetti ai lavori.

Con una sintesi efficace, lo sviluppatore ed esperto AI Simon Willison ha commentato: “I modelli migliorano più velocemente della nostra capacità di valutarli”, aggiungendo: “I benchmark faticano a tenere il passo. È un problema reale: quando i modelli superano costantemente il 70-80% sui test standard, serve inventare test più difficili. Ma questo rende anche più complicato capire i progressi reali”. Un problema reale per chi deve confrontare tecnologie che cambiano praticamente ogni trimestre.

Prezzi, ricavi e strategie: dove si gioca un’altra partita

Oltre ai numeri puri, l’atra battaglia è la monetizzzione. Anthropic ha scelto una strategia aggressiva dimezzato i prezzi del suo modello top di gamma: Claude Opus 4.5 costa 5 dollari per milione di token in input e 25 in output, contro i 15 del predecessore Opus 4.1. Un taglio drastico, pensato per rendere il modello accessibile anche per utilizzi su larga scala e che lo rende più competitivo rispetto ai concorrenti GPT-5.1 e allo stesso Gemini 3 Pro. “Non si tratta solo di avere il modello più potente”, spiega Alex Albert, responsabile delle relazioni con gli sviluppatori di Anthropic. “Si tratta di renderlo utilizzabile su scala. Opus 4.5 richiede meno token per risolvere gli stessi problemi, il che significa costi operativi più bassi per chi lo usa intensivamente”.

Una strategia che segue una direzione consolidata: Anthropic ha dichiarato i 2 miliardi di dollari di ricavi annualizzati nel primo trimestre 2025, più del doppio rispetto al periodo precedente. Inoltre, il numero di clienti che spendono oltre 100.000 dollari all’anno è cresciuto di otto volte. Per mantenere questo ritmo serve un modello che le aziende possano permettersi di usare massivamente.

Oltre i test: cosa cambia davvero

La vera differenza, però, emerge quando questi modelli vengono messi alla prova nel mondo reale. Anthropic afferma che Opus 4.5 avrebbe ottenuto un punteggio superiore a qualsiasi candidato umano nel test di programmazione usato internamente per selezionare gli ingegneri. Si tratta di una valutazione aziendale, non indipendente, ma segnala un punto cruciale: i modelli stanno entrando in territori finora dominio esclusivo degli sviluppatori esperti.

Google, dal canto suo, gioca una partita diversa: meno centrata sul “modello singolo migliore”, più sulla distribuzione. Gemini 3 è già integrato in Search, nell’app Gemini, in AI Studio e in Vertex AI. Secondo i dati diffusi dall’azienda, l’app supera i 650 milioni di utenti mensili, mentre oltre 13 milioni di sviluppatori utilizzano gli strumenti di Google per costruire applicazioni AI. È una distribuzione capillare che nessun competitor può eguagliare, nemmeno OpenAI con ChatGPT. Anthropic punta invece sulla qualità del modello, la sicurezza e l’allineamento: secondo i suoi dati interni, Opus 4.5 sarebbe tra i modelli più resistenti agli attacchi di prompt injection e più prevedibili nel comportamento.

Chi vince?

Per ora, sui benchmark di coding puro, Claude Opus 4.5 ha un vantaggio misurabile. Ma Gemini 3 Pro domina su ragionamento matematico avanzato, comprensione multimodale e alcuni test di reasoning generale. Sono modelli diversi, ottimizzati per eccellere in aree differenti, e ridurre la scelta a un semplice “vincitore” sarebbe riduttivo. La vera partita si giocherà nei prossimi mesi, quando milioni di sviluppatori, aziende e utenti sceglieranno quale modello usare per i loro progetti reali. E lì, oltre ai benchmark, conteranno l’affidabilità, i costi, l’integrazione con gli strumenti esistenti, la qualità del supporto. Una cosa è certa: questa rivalità non è destinata a placarsi e il 2026 si preannuncia come l’anno della vera competizione nell’intelligenza artificiale.

Riproduzione riservata ©
Loading...

Brand connect

Loading...

Newsletter

Notizie e approfondimenti sugli avvenimenti politici, economici e finanziari.

Iscriviti