I modelli multimodali sono la nuova frontiera dell'IA, e Grok non vuole essere da meno

6 months ago 112

Grok, il chatbot IA annunciato da Elon Musk a novembre dell'anno scorso come "progettato per essere un po' ironico", non vuole stare troppo indietro nella corsa all'IA e starebbe per basarsi su un modello multimodale (a proposito, sapete cos'è l'intelligenza artificiale generativa?). 

Questo significa che il modello di xAI, l'azienda fondata da Elon Musk per "capire la vera natura dell'universo", si sta mettendo alla pari con i concorrenti di Google, Gemini, OpenAI, GPT-4o, e Anthropic, Claude 3. Ma soprattutto sta mostrando un trend nel settore, ovvero come i modelli multimodali siano la nuova frontiera dell'IA.

Cos'è un modello multimodale

Perché, e cosa significa modello multimodale? Pensate a un modello che è stato allenato su una quantità enorme di testi, ed è in grado di rispondere a una domanda testuale con un testo. 

Oppure a un altro che è stato allenato su una quantità enorme di immagini, ed è in grado di "comprendere" un testo per produrre un'immagine a partire da esso.

Ora invece pensate a un chatbot in grado di ricevere qualsiasi tipo di input, che sia un'immagine, un testo o un audio, e possa rispondere con diversi output, indipendentemente dalla sorgente. Questo è un modello multimodale, ovvero in grado di elaborare le informazioni da diverse modalità.

Per esempio mostrate l'immagine di una torta e l'IA vi fornisce la ricetta, o il contrario. Lo abbiamo visto con Gemini, che sta mostrando di avere non solo capacità enormi, ma potenzialità ancora maggiori

L'IA multimodale è quindi il passaggio successivo dell'IA generativa, in quanto è un'IA in grado di elaborare diverse modalità ed elimina le restrizioni su input e output nelle nostre interazioni. Di fatto avvicinando ulteriormente utenti e chatbot IA.

Le novità di Grok

Ora questa tecnologia sta per arrivare in Grok, il modello di xAI disponibile per gli utenti che pagano l'abbonamento X Premium Plus.

A marzo, Grok è passato alla versione 1.5 e ad aprile è stato introdotto il primo modello multimodale, Grok-1.5 Vision (1.5V).

Secondo xAI questo aggiornamento consente a Grok di essere competitivo con altri modelli attualmente esistenti (Claude 3, GPT 4V e Gemini Pro) in un certo numero di domini, dal ragionamento multi disciplinare alla comprensione di documenti, diagrammi scientifici, tabelle, screenshot e fotografie. 

Qui sotto potete vedere i risultati, da prendere con le pinze perché questi benchmark sono spesso criticati in quanto a volte inclusi nei dati di allenamento, e quindi non rappresentare il valore effettivo di un modello. Nondimeno, possiamo dare a xAI il beneficio del dubbio di aver fatto un buon lavoro, e di essere, almeno sulla carta, in linea con i migliori modelli in circolazione. 

Nei documenti dedicati agli sviluppatori, è presente uno script Python di esempio che è in grado di leggere un'immagine, impostare un prompt di testo e generare una risposta. Di fatto dimostrando come un utente possa utilizzare la libreria di kit di sviluppo software xAI per generare una risposta basata sia sul testo che sulle immagini.

Per quanto riguarda i dati di allenamento, xAI ha condiviso solo le informazioni su Grok-1, che è stato "pre-addestrato su una varietà di dati di testo da fonti pubblicamente disponibili da Internet fino al terzo trimestre 2023 e set di dati rivisti e curati da tutor AI", ovvero revisori umani. Non vengono condivise informazioni riguardanti Grok-1.5V.

Stando alle informazioni, il modello sarà presto disponibile per i primi tester e gli utenti Grok attuali.

Read Entire Article