OpenAI ha realizzato un modello IA per "criticare" ChatGPT

4 months ago 167

Man mano che i chatbot IA entrano nelle nostre vite, si fa sempre più impellente la necessità di sapere quando stanno riportando un'informazione vera o inventata, ovvero se stanno "allucinando" (a proposito di chatbot IA, scoprite come usare ChatGPT 4 gratis). 

Gli sviluppatori hanno implementato diverse soluzioni, come le citazioni, per verificare la fonte di una notizia, o, nel caso di Gemini, la doppia verifica, che consente al chatbot di valutare se sul Web ci sono contenuti che confermano la sua risposta. Ora anche ChatGPT ha uno strumento per controllare la veridicità delle sue affermazioni, almeno quando scrive un codice: CriticGPT.

Cos'è e come funziona CriticGPT

Annunciato ieri da OpenAI, CriticGPT è un nuovo modello basato su GPT-4 che analizza il codice creato da ChatGPT e indica potenziali errori, rendendo più facile per gli esseri umani individuare problemi che altrimenti potrebbero passare inosservati.

Il modello serve da assistente IA per gli esseri umani che rivedono il codice di programmazione generato da ChatGPT, con l'obbiettivo di far sì che i sistemi di intelligenza artificiale si comportino come si aspettano gli esseri umani.

Questo processo, chiamato "allineamento", avviene attraverso uno strumento chiamato "Reinforcement Learning from Human Feedback" (RLHF, apprendimento di rinforzo dal feedback umano), che si basa sul confronto tra le diverse risposte di ChatGPT quando vengono messe una contro l'altra e valutate. 

Se infatti CriticGPT è simile a ChatGPT, la differenza notevole è che per allenarlo i ricercatori gli hanno mostrato un set di dati contenente esempi di codice con bug inseriti intenzionalmente, insegnandogli a riconoscere e contrassegnare vari errori di codifica.

Prima di rilasciarlo, OpenAI ha messo a confronto i risultati degli esseri umani che analizzavano il codice di ChatGPT con e senza il modello "critico". Il risultato è stato confortante: nel 63% gli annotatori hanno preferito le critiche del modello rispetto a quelle fatte dallo stesso ChatGPT, riportando come CriticGPT abbia scritto critiche più complete, prodotto meno critiche inutili, generato meno falsi positivi e nel complesso ridotto i tassi di allucinazione. 

I ricercatori hanno anche creato una nuova tecnica chiamata Force Sampling Beam Search (FSBS), che aiuta CriticGPT a scrivere recensioni più dettagliate del codice, permettendo di regolarne l'accuratezza e di fatto agendo sulle allucinazioni.

Il tutto in maniera dinamica a seconda delle necessità.

Non solo codice: CriticGPT potrebbe servire anche in altri contesti

Stando a quanto riportato, CriticGPT potrebbe essere utile non solo nella revisione del codice.

I ricercatori hanno infatti applicato il modello a un sottoinsieme di dati di allenamento per ChatGPT che in precedenza erano stati valutati come validi dagli annotatori umani. Sorprendentemente, CriticGPT ha identificato errori nel 24% di questi casi, errori che sono stati successivamente confermati dai revisori umani.

OpenAI pensa che questo dimostri il potenziale del modello di essere usato per compiti più generici, dove magari potrebbe non esserci una attenta valutazione umana. 

In ogni caso, il 24% di tasso di errore nei dati usati per l'allenamento di ChatGPT dovrebbe essere di per sé un campanello d'allarme. Vuol dire che quasi un dato su quattro usato per allenare ChatGPT contiene un errore.

I limiti di CriticGPT

CriticGPT è sicuramente una soluzione promettente, ma come tutti i modelli IA ha dei problemi. Prima di tutto, è stato addestrato su risposte di ChatGPT relativamente brevi, il che potrebbe renderlo inadeguato per valutare compiti complessi.

Inoltre, anche se presenta tassi di allucinazione ridotti, questo non significa che ne sia esente, e in assoluto sono comunque molto elevati. OpenAI dichiara come gli annotatori commettano errori di etichettatura dopo aver visto le allucinazioni del modello, ma non sono stati condivisi dati a riguardo.

Inoltre il team di ricerca riconosce che CriticGPT è più efficace nell'identificare gli errori che possono essere individuati in una posizione specifica all'interno del codice. Nel mondo reale, gli errori possono spesso essere distribuiti su più parti di una risposta, il che presenta una sfida non ancora analizzata e che verrà affrontata nelle future iterazioni del modello.

Per il futuro, OpenAI prevede di integrare modelli simili a CriticGPT nella sua pipeline di etichettatura RLHF, fornendo ai suoi formatori l'assistenza AI. Nondimeno, per alcuni esperti esistono risposte che potrebbero essere troppo difficili da valutare, anche con l'aiuto di CriticGPT, il che sarebbe controproducente.

La paura infatti riguarda i falsi negativi, ovvero problemi che potrebbero essere non rilevati, e che nel machine learning sono uno dei rischi maggiori. 

Read Entire Article