Il nuovo modello IA di Microsoft è piccolo ma potentissimo, ed è stato allenato come un bambino

6 months ago 86

Uno degli obiettivi dei giganti del Web è, oltre a sviluppare modelli di intelligenza artificiale sempre più potenti, riuscire a renderli più piccoli, in modo da poter essere eseguiti non su potenti server, ma direttamente sui nostri dispositivi, telefoni o portatili che siano (sapete cosa sia l'intelligenza artificiale generativa?). 

Lo abbiamo visto con Gemini di Google, con il lancio di Gemini Nano, ma anche Microsoft adesso si butta nella mischia con i nuovi modelli Phi 3. Definiti modelli linguistici di piccole dimensioni (SLM), in contrapposizione ai più noti modelli linguistici di grandi dimensioni (LLM), questi strumenti sono estremamente potenti, e sono stati addestrati come i bambini: ascoltando le storie!

Cosa sono i modelli Phi 3

Phi-3 è la nuova famiglia di modelli linguistici di piccole dimensioni (SLM) di Microsoft, creata a partire da un problema, se i modelli linguistici stanno diventando sempre più grandi, quanti parametri sono davvero necessari per costruire un modello che offra un ragionamento di senso comune?

Con Phi-3, la casa di Redmond ha creato un modello con dei migliori rapporti costo-prestazioni di qualsiasi altro modello sul mercato, in grado anche di superare modelli di dimensioni fino a 10 volte superiori.

Il primo esponente della famiglia è Phi-3 Mini, a cui seguiranno altre versioni, Phi-3 Small (7 miliardi di parametri) e Phi-3 Medium (14 miliardi di parametri) più avanti. Con 3,8 miliardi di parametri, Phi-3 Mini è una versione ridotta del modello Phi-2 lanciato a dicembre 2023. 

Secondo Microsoft, se alcuni utenti hanno bisogno di modelli grandi, molti potrebbero aver bisogno solo di modelli piccoli o di combinare i due strumenti, ed è qui che si inserisce la famiglia Phi-3. In realtà il concetto non è nuovo, e Google, Anthropic e Meta hanno tutti simili per l'utilizzo su dispositivi come smartphone e portatili. 

Gemma 2B e 7B di Google vanno bene per chatbot e lavori di tipo linguistico. Claude 3 Haiku di Anthropic può leggere articoli di ricerca con grafici e riassumerli rapidamente, mentre Llama 3 8B recentemente rilasciato di Meta può essere usato per chatbot e assistenza nella programmazione.

Le caratteristiche di Phi-3 Mini, oltre alle dimensioni, sono il fatto che è in grado di competere con modelli come Llama 2 o GPT-3.5, e che è stato creato responsabilmente utilizzando dati sintetici che hanno consentito un maggiore livello di sicurezza. 

Addestrati ascoltando le storie, come i bambini

Abbiamo capito come Phi-3 Mini sia stato addestrato in modo diverso rispetto al solito, sviluppando un approccio di formazione innovativo. Il team di ricerca di Microsoft sull'apprendimento automatico si è chiesto quanto potrebbe imparare un modello di intelligenza artificiale usando solo parole comprensibili da un bambino di 4 anni. 

Eric Boyd, vicepresidente aziendale della piattaforma AI di Microsoft Azure, dice che gli sviluppatori hanno addestrato Phi-3 con un "curriculum", ispirandosi a come i bambini imparano dalle storie della buonanotte. Quindi da libri con parole e frasi più semplici per spiegare argomenti complessi.

Il problema è che non ci sono abbastanza libri per bambini per allenare un modello, quindi Microsoft ha preso una lista di più di 3.000 parole e abbiamo chiesto a un modello linguistico di grandi dimensioni di fare "libri per bambini per insegnare a Phi".

Phi-3 si è semplicemente basato su ciò che le iterazioni precedenti hanno imparato. Mentre Phi-1 si è concentrato sulla programmazione e Phi-2 ha iniziato a imparare a ragionare, Phi-3 è più bravo a programmare e ragionare.

Le applicazioni dei modelli Phi-3

Ovviamente, Phi-3 non è pensato per competere con LLM come GPT-4, ma per applicazioni particolari come dispositivi con risorse limitate, o comunque on-device e offline. Non solo, ma anche scenari legati alla latenza in cui i tempi di risposta rapidi sono critici, o casi d'uso in cui c'è bisogno di contenere i costi

Più comunemente, la nuova frontiera dell'IA sono i modelli che vengono eseguiti a livello locale. Pensiamo ai nuovi PC AI fortemente voluti da Microsoft o ai nuovi smartphone AI come i Galaxy S24 di Samsung. 

Limitandoci ai PC, ricordiamo che per essere definito PC AI, Microsoft richiede almeno 40 TOPS (trilioni di operazioni al secondo) per poter funzionare localmente.

Intel ha appena svelato le nuove CPU Lunar Lake di nuova generazione che arrivano a 100 TOPS per le attività di intelligenza artificiale, con la sola NPU che arriva 45 TOPS, mentre il nuovo Snapdragon X Elite di Qualcomm ha 45 TOPS di prestazioni NPU.

Queste specifiche consentiranno di eseguire un LLM, ma che dire della maggioranza dei dispositivi più vecchi? D'altronde sono pochi gli utenti che potranno o vorranno cambiare PC. Con nuovi modelli più piccoli, nello specifico Phi-3 Mini, anche loro potranno accedere a strumenti IA soddisfacenti, almeno per alcune applicazioni. Microsoft ha anche tenuto un live su YouTube molto interessante.

Disponibilità dei modelli Phi-3

A partire da oggi, Phi-3-Mini è disponibile su Microsoft Azure AI Studio, Hugging Face e Ollama. Come abbiamo anticipato, Phi-3 Small e Phi-3 Medium arriveranno più avanti.

Read Entire Article