Meta Platforms ha compiuto un significativo passo avanti nel campo dell'intelligenza artificiale on device rilasciando delle versioni "compatte" dei suoi modelli Llama in grado di funzionare direttamente su smartphone e tablet con risorse limitate. Questo sviluppo apre nuove possibilità per l’AI al di fuori dei tradizionali data center, rendendola accessibile ovunque e consentendo agli sviluppatori di creare app più accessibili e rispettose della privacy.
VERSIONI COMPRESSE DEI MODELLI LLAMA 3.2 1B E 3B
L’azienda ha annunciato le versioni compresse dei modelli Llama 3.2 1B e 3B, in grado di operare fino a quattro volte più velocemente rispetto alle versioni precedenti, richiedendo meno della metà della memoria. Il rilascio di questi modelli, afferma Meta, è il risultato di una collaborazione stretta con Qualcomm e MediaTek, che hanno permesso a Meta di testare questi modelli su CPU Arm e SoC (System on Chip), garantendo compatibilità e prestazioni elevate su una vasta gamma di dispositivi.
I test condotti sui telefoni Android OnePlus 12 e Galaxy S24+ (oltre che su un Galaxy S22 più datato), hanno confermato un’efficienza notevole, con una riduzione massima del 56% nelle dimensioni dei modelli e un utilizzo del 41% in meno di memoria rispetto ai modelli in formato BF16, standard originariamente adottato per l'efficienza dei modelli di machine learning, permettendo di elaborare testi lunghi fino a 8.000 caratteri in tempi dimezzati. Per i dispositivi iOS, Meta ha verificato che questi modelli funzionano con una precisione comparabile, ma non ha valutato le prestazioni.
DUE NUOVI METODI DI QUANTIZZAZIONE
Meta ha utilizzato due metodi avanzati di quantizzazione per creare i modelli Llama 3.2, noti come Quantization-Aware Training (QAT) con adattatori LoRA e SpinQuant. Il QAT con LoRA, definito anche come QLoRA, è stato sviluppato per garantire la massima precisione possibile in ambienti di basso livello, mantenendo la stabilità e l'efficacia del modello anche con una minore precisione. SpinQuant, invece, è un sistema di quantizzazione post-training che si distingue per la sua portabilità, consentendo agli sviluppatori di adattare i modelli anche senza accedere ai dataset di addestramento originali.
Il metodo QLoRA parte dai modelli Llama 3.2 già addestrati e, grazie alla quantizzazione consapevole, li ottimizza ulteriormente per una precisione superiore rispetto a sistemi di quantizzazione standard. SpinQuant, invece, rappresenta una scelta ideale per applicazioni in cui non si dispone di dati di addestramento o risorse di calcolo elevate. Entrambi i metodi sono integrati nel framework ExecuTorch di PyTorch, semplificando l’implementazione e permettendo l’utilizzo con un'ampia gamma di dispositivi.
ELABORAZIONE SU DISPOSITIVO
Uno dei vantaggi più interessanti dell'approccio di Meta è la possibilità di fornire esperienze completamente on-device. Questo significa che l’intelligenza artificiale può operare in locale, mantenendo intatti i dati degli utenti e garantendo una privacy superiore, aspetto su cui c'è sempre una notevole attenzione da parte degli enti governativi. Gli sviluppatori, infatti, possono integrare Llama quantizzati nei loro prodotti senza dover gestire dati sensibili attraverso server remoti.
Queste caratteristiche potrebbero innescare una nuova era dell’AI mobile, in cui i dispositivi personali eseguono compiti complessi come la sintesi di documenti o l’analisi di testo in modo rapido e sicuro. Le ridotte esigenze di memoria, inoltre, rendono i nuovi modelli ideali per contesti come applicazioni di assistenza vocale, sistemi di raccomandazione personalizzati e altre funzionalità di intelligenza artificiale che richiedono velocità e precisione. La comunità di sviluppatori, inoltre, potrà adottare questi strumenti per creare app innovative, senza dover investire in hardware avanzato.
UN APPROCCIO OPER SOURCE
La mossa di Meta segna un approccio radicalmente diverso rispetto a Google e Apple, che mantengono l'AI mobile strettamente integrata nei rispettivi sistemi operativi. La società di Cupertino, tuttavia, sta cercando di mantenere il più possibile l'elaborazione dell'AI on device, cosa che sta richiedendo il sacrificio di dispositivi meno potenti, anche se non molto datati. Per Apple Intelligence, che farà il suo debutto lunedì prossimo, sono infatti necessari almeno iPhone 15 Pro e Pro Max o Mac e iPad con processori A17 Pro o M1.
Meta sta puntando molto sulla distribuzione open source, consentendo agli sviluppatori di utilizzare questi modelli compressi su una varietà di dispositivi e piattaforme. Collaborando con Qualcomm e MediaTek, Meta mira a espandere la compatibilità dell’AI anche sui telefoni di fascia media e bassa, garantendo un impatto globale, specialmente nei mercati emergenti.
Il successo della strategia di Meta, ovviamente, non è assicurato. Sebbene i nuovi modelli compressi mostrino ottime prestazioni, l’implementazione dell'AI mobile richiede comunque dispositivi con una potenza minima per eseguire i calcoli senza rallentamenti. Inoltre, i vantaggi della privacy devono essere bilanciati con la potenza del cloud computing, spesso preferito per le applicazioni più esigenti.