Sembra che nel 2024 anche Apple entrerà finalmente nel settore dell'intelligenza artificiale con un suo chatbot chiamato Apple GPT, ma a quanto pare la casa di Cupertino non vuole seguire la strada delle altre aziende, ma si sta assicurando che l'elaborazione avvenga direttamente sul telefono.
La notizia arriva direttamente da un articolo scientifico, che illustra una innovativa tecnologia di utilizzo della memoria flash (quella che utilizzate per archiviare le foto e le app) per permettere di implementare un modello linguistico di grandi dimensioni (LLM) su dispositivi con memoria limitata.
A causa dell'incredibile intensità di dati utilizzata, i chatbot basati su LLM come ChatGPT e Claude richiedono infatti grandi quantità di memoria per funzionare, il che implica di dover basare tutti i calcoli sui server delle aziende.
Apple però vuole assicurarsi che tutto avvenga sul dispositivo e per questo ha cercato di sfruttare una caratteristica dei telefoni: il fatto che la memoria flash sia più abbondante della RAM tradizionalmente utilizzata nei server per l'esecuzione dei LLM.
Per questo, nell'articolo intitolato "LLM in a flash: Efficient Large Language Model Inference with Limited Memory", sono state introdotte due tecniche che da un lato riducono al minimo il trasferimento dei dati e dall'alto massimizzano la resa della memoria flash.
La prima si chiama Windowing, e consente di "riciclare" i dati già elaborati invece di ricaricarli ogni volta: questo riduce la necessità di un recupero costante della memoria, rendendo il processo più veloce e fluido.
La seconda è stata invece nominata Row-Column Bundling, e consente di raggruppare i dati in modo più efficiente in modo da leggerli più velocemente dalla memoria flash. Il concetto di base è come leggere un libro in blocchi invece che parola per parola, e questo sistema accelera la capacità dell'IA di comprendere e generare linguaggio.
Il risultato, almeno sull'articolo, è stupefacente. Questi due metodi combinati consentono ai modelli di intelligenza artificiale di funzionare fino al doppio della memoria disponibile dell'iPhone, il che si traduce in un aumento di 4-5 volte della velocità sui processori standard (CPU) e fino a 20-25 volte più veloce sui processori grafici (GPU).
Secondo gli autori dell'articolo, che potete trovare a questo indirizzo, questa scoperta è una vera e propria svolta in grado di permettere l'implementazione di LLM avanzati in ambienti con risorse limitate.
E a quanto pare è proprio quello che sta cercando Apple, che stando ai più recenti rumor avrebbe intenzione di lanciare il proprio Apple GPT sugli iPhone e iPad di fine 2024, con funzionalità legate sia al cloud che - soprattutto - elaborate direttamente sul dispositivo.
Ancora poco si sa di questo chatbot "made in Cupertino", ma a quanto pare la casa della mela punta a funzionalità Siri più avanzate, soprattutto per quanto riguarda l'integrazione con Messaggi e altre app proprietarie, ma anche traduzione linguistica in tempo reale e applicativi nella fotografia e nella realtà aumentata (d'altronde sappiamo quanto Apple punti al nuovo visionOS).
E questo sembra il punto chiave del progetto. Come per i sistemi operativi della mela, così il nuovo Apple GPT, il cui nome in codice sarebbe Ajax, sarebbe sviluppato per integrare più profondamente l'IA nell'intero ecosistema di Apple.