Google risponde alla concorrenza: il "miglior modello IA del mondo" è ora disponibile per tutti

2 hours ago 24

DeepSeek avrà fatto crollare le borse occidentali e Qwen2.5 acceso la fantasia degli utenti, ma Google ribadisce la sua superiorità nel campo dell'IA con una serie di annunci roboanti: la disponibilità di Gemini 2.0 per tutti (anche in versione Flash Thinking) e l'arrivo dei modelli 2.0 Pro Experimental e Flash Lite

Ecco cosa significano questi annunci, perché Gemini 2.0 Flash Thinking è chiamato da Google "il miglior modello del mondo" e che cosa rappresentano per il mondo dell'IA. 

Gemini 2.0 Flash Thinking: il modello più potente ora è disponibile per tutti

Appena una settimana fa Google annunciava la disponibilità del suo modello Gemini 2.0 Flash per tutti gli utenti, ma evidentemente non bastava per ribadire la sua importanza (o supremazia?) nel campo dell'IA. 

Ieri infatti il gigante della ricerca oseremmo dire che ha fatto una cascata di annunci, il primo dei quali riguarda la disponibilità per tutti gli utenti del suo modello che "ragiona", 2.0 Flash Thinking.  

Cosa fa il modello che "ragiona"

Definito dalla GrandeG "il miglior modello del mondo", in quanto svetta nella classifica di Chatbot Arena LLM, una piattaforma aperta che mostra una classifica in stile ATP / WTA (per fare un paragone tennistico) delle IA più potenti secondo i voti degli appassionati (tutti possono votare facendo un test qui).

Riportiamo, per completezza, che una classifica della stessa piattaforma basata invece sulla capacità di sviluppare vede Gemini un po' indietro (ma di questo parleremo nel capitolo successivo). 

Comunque sia, e per quanto poco scientifico sia questo metodo, Gemini 2.0 Flash Thinking è un modello basato su 2.0 Flash ed estremamente potente: qui si possono vedere alcuni esempi e cosa lo rende così speciale. La sua caratteristica, semplificando, è il fatto di mostrare il suo processo di pensiero, così che l'utente può vedere perché ha risposto in un certo modo, quali erano le sue ipotesi e tracciare la linea di ragionamento.

E tutta questa capacità è disponibile per tutti, gratuitamente, da app per Android e iOS (dove noi non lo vediamo ancora) e sito Web (dove invece è già disponibile). Per accedervi, basta cliccare in alto sul menu a tendina con la scritta Gemini e selezionare 2.0 Flash Thinking Experimental.

C'è anche la versione che interagisce con i servizi di Google

Qui ci accorgiamo che Google ha introdotto un'altra novità: 2.0 Flash Thinking Experimental with apps, un modello in grado di interagire con app come YouTube, Search e Google Maps, proprio come poteva fare già in precedenza Gemini.

In questo modo l'utente può combinare le capacità di ragionamento del modello con le app di Google per ricerche specifiche e più puntuali.

Come dicevamo, questi modelli sono disponibili per tutti gli utenti già da ora, e Google promette di espanderli a breve anche agli utenti Google Workspace Business ed Enterprise.

Gemini 2.0 Pro Experimental e 2.0 Flash-Lite

Ma Google non si è fermata qui, e ha presentato anche dei nuovi modelli. Il più interessante è Gemini 2.0 Pro Experimental, ma anche 2.0 Flash-Lite è un'alternativa molto valida da tenere d'occhio. 

Gemini 2.0 Pro

Dopo aver lanciato una prima versione sperimentale di Gemini 2.0 Experimental Advanced, nota come Gemini-Exp-1206, Google ha raccolto il feedback degli sviluppatori sui suoi punti di forza e rilasciato 2.0 Pro.

Secondo Google, il modello garantisce prestazioni di codifica migliori, capacità di gestire richieste complesse, una migliore comprensione, ragionamento e conoscenza del mondo rispetto a qualsiasi modello da lei mai "rilasciato finora".

Non solo, ma la finestra di contesto (un tema estremamente importante) è aumentata a 2 milioni di token, il che gli consente di analizzare e comprendere in modo completo grandi quantità di informazioni. Non solo, ma questo modello integra la capacità di interagire con strumenti come Google Search ed è in grado di eseguire il codice.

Ma come si comporta sul campo? Secondo i test di Google, supera tutti i modelli precedenti, ecco alcuni esempi: 

  • MMLU-Pro, un test che valuta le capacità generali in quanto composto da circa 16.000 domande a scelta multipla che coprono 57 materie accademiche tra cui matematica, filosofia, diritto e medicina: 79,1% (1.5 Pro otteneva 75,8%)
  • LiveCodeBench (v5), un benchmark per valutare le capacità di programmazione: 36% (1.5 Pro: 24,2%)
  • GPQA, un test per valutare le capacità di ragionamento: 64,7% (1.5 Pro: 59,1%)

Sono solo alcuni esempi, ma per dare un'idea.

Su WebDev Arena, una piattaforma di valutazione aperta, la realtà è meno eclatante: 2.0 Pro Experimental è ben dietro a Claude 3.5 Sonnet, DeepSeek-R1 e o3-mini. 

In ogni caso, Gemini 2.0 Pro è ora disponibile come modello sperimentale per gli sviluppatori in Google AI Studio e Vertex AI e per gli utenti Gemini Advanced nel menu a discesa del modello su desktop e dispositivi mobili.

Gemini 2.0 Flash-Lite

Meno appariscente ma forse di maggiore impatto per gli utenti, è il nuovo 2.0 Flash-Lite, un modello costruito sull'onda del feedback positivo ricevuto sul prezzo e sulla velocità di 1.5 Flash.

Il nuovo modello secondo Google ha una qualità migliore di 1.5 Flash, superandolo nella maggior parte dei benchmark, alla stessa velocità e costo.

2.0 Flash ha una finestra di contesto di 1 milione di token e un input multimodale: è in grado ad esempio di generare una didascalia di una riga pertinente per circa 40.000 foto uniche, costando meno di un dollaro nel livello a pagamento di Google AI Studio.

Gemini 2.0 Flash-Lite è disponibile in Google AI Studio e Vertex AI in anteprima pubblica.

Un'invasione di modelli che ragionano

A questo punto possiamo vedere come gli sviluppatori di modelli IA si stiano orientando verso il ragionamento, una tecnologia che dovrebbe consentire di controllare i fatti, il che in teoria li aiuta a evitare le allucinazioni e altre problematiche.

Lo abbiamo visto per o3 di OpenAI, poi lanciato su ChatGPT e Perplexity come o3-mini, con DeepSeek-R1, anch'esso disponibile su Perplexity, e infine con 2.0 Flash Thinking di Google. 

Abbiamo già riportato i dubbi degli esperti su questo approccio: alcuni sono convinti che per quanto sia un modo per generare risposte migliori non sia necessariamente la risposta adatta per migliorare l'IA. Innanzitutto, c'è il problema dei costi, e poi quelli sulla "sicurezza", come riportato da un articolo in cui o1 di OpenAI "brigava" alle spalle degli utenti.  

Google rassicura gli utenti, dichiarando che la nuova gamma Gemini 2.0 è stata costruita con "nuove tecniche di apprendimento di rinforzo che utilizzano Gemini stesso per criticare le sue risposte".

Inoltre utilizzano il red team (un gruppo indipendente di hacker per testare l'IA) per valutare i rischi di sicurezza, compresi quelli posti dai rischi di iniezione rapida indiretta (un tipo di attacco in cui degli aggressori nascondono istruzioni dannose in dati che potrebbero essere recuperati da un sistema di intelligenza artificiale).

Una cosa comunque è certa: l'evoluzione è vertiginosa e gli annunci di IA più potenti ormai si rincorrono a distanza di settimane, se non di giorni. Per Google, come dichiarato da Sundar Pichai alla CNBC, il 2025 sarà caratterizzato non dall'essere i primi, ma dal presentare il prodotto migliore. 

Comprendiamo meglio l'IA

Fate fatica a orientarvi tra la moltitudine di termini e modelli IA sul mercato? Ecco una serie di approfondimenti che vi permetteranno di orientarvi in questo mondo enorme.

Read Entire Article