Sam Altman di OpenAI mantiene fede alla sua promessa di qualche giorno fa presentando un nuovo agente IA, Operator, in grado di "gestire un'ampia varietà di attività ripetitive del browser come compilare moduli, ordinare generi alimentari e persino creare meme".
Gli agenti IA sono applicazioni dell'intelligenza artificiale che, sulla base di un obiettivo stabilito da un umano, sono in grado di interagire con l'ambiente, raccogliere dati e utilizzarli per eseguire le proprie azioni in maniera autonoma.
Operator è l'ultima novità presentata da OpenAI dopo due mesi estremamente intensi che hanno visto il lancio di Sora e altre applicazioni incredibili. Attualmente un'anteprima di ricerca disponibile solo negli Stati Uniti per gli abbonati al piano ChatGPT Pro da 200 dollari al mese, è in grado di andare sul web e interagire con le pagine come un essere umano.
Secondo OpenAI, Operator si basa su un modello "Computer-Using Agent" che combina le capacità di visione di GPT-4o con il "ragionamento avanzato attraverso l'apprendimento di rinforzo" per essere in grado di interagire con le pagine web.
Questo gli consente di "vedere (attraverso screenshot) e interagire (utilizzando tutte le azioni consentite da un mouse e una tastiera) con un browser, permettendogli di agire sul web senza richiedere integrazioni API personalizzate".
Un esempio? Si va su Operator e si chiede di trovare un campeggio in un certo posto per il fine settimana. Lo strumento andrà su un aggregatore di servizi come Tripadvisor o Booking per trovare la soluzione ideale, cercherà per la zona e le date richieste e proporrà all'utente il suo risultato, con i prezzi. Poi basterà dire "Prenotalo" e Operator farà tutto per noi.
Un agente IA che compila i nostri dati e persino prenota per noi? Sembra un po' inquietante, messa così. OpenAI ha cercato di rassicurare gli utenti, dicendo che Operator è in grado di usare il ragionamento per "autocorreggersi" e, se si blocca, darà all'utente il controllo.
Inoltre, in caso sia necessario inserire informazioni sensibili come le credenziali di accesso a un sito, l'agente chiederà all'utente di intervenire, e comunque non eseguirà compiti come transazioni bancarie o risposte a offerte di lavoro.
L'agente è stato progettato per "rifiutare le richieste dannose e bloccare i contenuti non consentiti".
Fin qui tutto bene, ma ci sono dei punti piuttosto oscuri. OpenAI per esempio dichiara che Operator "dovrebbe" chiedere a un utente di approvare azioni come l'esecuzione di un ordine o l'invio di un'email. Il che non è molto rassicurante, ma dobbiamo sempre tenere presente che si tratta di un'anteprima.
Inoltre non tutto potrebbe funzionare come si deve: lo strumento ha ancora problemi con "interfacce complesse come la creazione di presentazioni o la gestione di calendari".
OpenAI sta collaborando con i vari portali, come Etsy, eBay, Tripadvisor, Booking e altri per consentire a Operator di affrontare "le esigenze del mondo reale rispettando le norme stabilite". Come dicevamo, al momento non è possibile usare lo strumento al di fuori degli Stati Uniti, e solo se si è abbonati a ChatGPT Pro, ma OpenAI prevede di portarlo in futuro anche agli utenti Plus, Team ed Enterprise e persino "integrare queste funzionalità in ChatGPT".