2025/10/07

WebGPT: insegnare ai modelli linguistici a navigare sul web da soli

I grandi modelli linguistici sono famosi per le allucinazioni: risposte sicure ma scollegate dalla realtà. Il paper WebGPT di OpenAI propone una soluzione: lasciare che il modello cerchi, legga e citi il web in tempo reale per aumentare drasticamente l’accuratezza fattuale.

I grandi modelli linguistici (LLM) stanno trasformando il modo in cui accediamo alle informazioni, ma il problema cronico delle “allucinazioni”—risposte fluenti ma false—resta un ostacolo enorme all’adozione su larga scala. Un modello può sembrare brillante, ma senza basi fattuali il suo valore crolla. WebGPT di OpenAI indica una strada pragmatica: invece di reinventare la generazione linguistica, i ricercatori hanno dotato il modello di una competenza che gli umani padroneggiano da sempre, cioè usare un browser per fare ricerca.

In questo articolo vediamo come funziona WebGPT. Il paper originale è disponibile su https://arxiv.org/abs/2112.09332. Analizzeremo la metodologia e le lezioni pratiche per costruire sistemi AI di cui possiamo fidarci.

Usare il browser come una persona

L’idea centrale di WebGPT è tanto semplice quanto efficace. Invece di costringere il modello a basarsi solo sulla propria conoscenza interna—spesso datata o incompleta—il team lo trasforma in un ricercatore attivo sul web. Per riuscirci hanno creato un ambiente di navigazione testuale.

Interfaccia demo di WebGPT

In questo ambiente il modello non genera più semplicemente testo, ma esegue una serie di comandi che imitano il comportamento umano durante la navigazione. Tra questi:

Search <query>: invia una query al motore di ricerca Bing.
Clicked on link <link ID>: apre un link specifico dai risultati o dalla pagina corrente.
Find in page: <text>: cerca una parola chiave all’interno della pagina.
Quote: <text>: estrae un passaggio che verrà citato nella risposta finale.
Scroll down/up: scorre verticalmente la pagina.
End: Answer: termina la sessione e compone la risposta finale usando le citazioni raccolte.

Grazie a questo ciclo, il modello passa da generatore “a libro chiuso” a investigatore in un mondo aperto. Pianifica le ricerche, filtra le fonti e raccoglie prove a supporto della risposta.

Come viene addestrato WebGPT

Per insegnare a un modello linguistico pre-addestrato (in questo caso GPT-3) a navigare con competenza serve una pipeline di training ben orchestrata. WebGPT combina più tecniche e, al termine, supera le performance degli stessi esseri umani che hanno fornito le dimostrazioni iniziali.

Fase 1: Behavior Cloning

Il modello parte dalle basi. I ricercatori hanno reclutato collaboratori umani per rispondere alle domande in un’interfaccia grafica di navigazione. Ogni azione—ricerca, click, citazione—è stata registrata, creando un dataset di dimostrazioni esperte.

Successivamente il modello è stato addestrato con apprendimento supervisionato a imitare questi esperti. Questa fase di behavior cloning (BC) insegna al modello a riprodurre le azioni umane nel contesto giusto. L’obiettivo è padroneggiare il flusso di base della ricerca e della raccolta di evidenze.

Fase 2: Ottimizzazione secondo le preferenze umane

L’imitazione da sola porta il modello solo al livello medio umano. Per andare oltre, WebGPT adotta tecniche ispirate al Reinforcement Learning from Human Feedback (RLHF), incentrate su due componenti: un modello di ricompensa e il rejection sampling.

Reward modeling: Il team ha fatto generare al modello due risposte diverse (con tracciati di navigazione e citazioni differenti) alla stessa domanda. I valutatori umani sceglievano quella migliore. Accumulando molte comparazioni, è stato addestrato un modello di ricompensa capace di prevedere il punteggio umano per una risposta. Questo modello riconosce accuratezza fattuale, chiarezza, logica e qualità delle citazioni.
Rejection sampling: Una volta disponibile il modello di ricompensa, il controllo qualità diventa diretto. Per una nuova domanda, il modello addestrato con BC genera più risposte candidate—per esempio 4, 16 o 64. Il modello di ricompensa le valuta e il sistema restituisce quella con punteggio più alto. Questa strategia “best-of” richiede più calcolo in inferenza, ma filtra le risposte deboli e aumenta l’affidabilità.

Con questo processo in due fasi, WebGPT non solo usa gli strumenti, ma impara a usarli bene. Nelle valutazioni umane le sue risposte hanno superato quelle dei dimostratori originari nel 56% dei casi e hanno battuto le migliori risposte di Reddit ELI5 nel 69% dei casi.

Costruire sistemi AI affidabili

Sebbene il paper su WebGPT risalga a qualche anno fa, le sue lezioni sono ancora attualissime per chi sviluppa applicazioni sensibili ai fatti. Ecco tre suggerimenti concreti.

1. Tratta le citazioni come cittadini di prima classe

Una delle innovazioni più importanti di WebGPT è l’obbligo di fornire risposte con citazioni. Non è solo una questione di fiducia dell’utente: è la leva chiave per misurare e migliorare l’accuratezza fattuale.

Idea pratica: Che tu stia costruendo un sistema di Q&A o uno strumento di generazione contenuti, rendi la provenienza parte integrante del design. Sia le pipeline RAG sia le architetture agent più complesse dovrebbero restituire le fonti insieme al testo. Per un assistente aziendale interno, ciò significa collegare ogni risposta al documento, database o wiki da cui proviene. Le citazioni aumentano la fiducia e creano una base per la valutazione.

2. Adotta strategie di retrieval attive e multi-step

I sistemi RAG tradizionali eseguono di solito un solo passaggio di recupero prima di generare la risposta. WebGPT mostra la potenza di una ricerca iterativa e adattiva.

Idea pratica: Progetta un piccolo agente che imiti il comportamento di WebGPT. Davanti a domande complesse, avvia una ricerca ampia, poi usa i risultati riassunti per decidere se approfondire un documento specifico (click), riformulare la query o esplorare una nuova pista. Questo ciclo iterativo replica meglio il modo in cui indagano gli esperti umani, consentendo al sistema di gestire problemi più ardui.

3. Costruisci un volano di feedback umano

Il behavior cloning offre un ottimo punto di partenza, ma sono le preferenze umane a spingere le performance oltre la media.

Idea pratica: Integra nel prodotto canali di feedback—pulsanti like/dislike o confronti a coppie tra due risposte. Nel tempo aggrega questi dati per perfezionare un modello di ricompensa e applica rejection sampling o tecniche RL più avanzate (come il DPO). Anche senza un grande team di etichettatori, il feedback continuo e diffuso orienta il modello verso le aspettative degli utenti.

Conclusione

WebGPT dimostra che per mitigare le allucinazioni non serve un salto rivoluzionario nell’architettura dei modelli. Abbinando i modelli linguistici esistenti a strumenti esterni maturi—come i motori di ricerca—e costruendo un ciclo di ottimizzazione guidato dal feedback, possiamo creare sistemi AI molto più affidabili. Ci avviciniamo così a un futuro in cui l’AI non è una “scatola nera” sigillata, ma un partner aperto, responsabile e capace di ricercare e giustificare le proprie affermazioni.

Tutti gli articoli

Autore

Nexmoe

Categorie

Usare il browser come una persona Come viene addestrato WebGPT Fase 1: Behavior Cloning Fase 2: Ottimizzazione secondo le preferenze umane Costruire sistemi AI affidabili 1. Tratta le citazioni come cittadini di prima classe 2. Adotta strategie di retrieval attive e multi-step 3. Costruisci un volano di feedback umano Conclusione

Altri articoli

Analisi degli articoliRicerca

Quando le spiegazioni falliscono, fidarsi dell'AI diventa una strategia pragmatica

Analisi di ‘Why Trust in AI May Be Inevitable’: il modello di spiegazione basato su reti di conoscenza, le cause del fallimento esplicativo e come i team AI possono progettare processi di fiducia verificabile.

Nexmoe

2025/10/05

Analisi degli articoliRicerca

STS: La Forza Invisibile che Ridefinisce la Visibilità dei Prodotti nell'Era della Ricerca AI

Un'analisi approfondita del paper 'Manipulating Large Language Models to Increase Product Visibility', che rivela come le Strategic Text Sequences (STS) manipolano le raccomandazioni AI ed esplora i principi tecnici sottostanti, le implicazioni di mercato e gli approcci di governance.

Nexmoe

2025/10/06

MetodologiaAnalisi degli articoli

GEO: Un nuovo paradigma per ottimizzare la visibilità nei motori generativi

Analisi del paper GEO: Generative Engine Optimization e delle strategie per aumentare l'esposizione nell'era della ricerca generativa.

Nexmoe

2025/10/04

2025/10/07

WebGPT: insegnare ai modelli linguistici a navigare sul web da soli

Usare il browser come una persona

Interfaccia demo di WebGPT

In questo ambiente il modello non genera più semplicemente testo, ma esegue una serie di comandi che imitano il comportamento umano durante la navigazione. Tra questi:

Search <query>: invia una query al motore di ricerca Bing.
Clicked on link <link ID>: apre un link specifico dai risultati o dalla pagina corrente.
Find in page: <text>: cerca una parola chiave all’interno della pagina.
Quote: <text>: estrae un passaggio che verrà citato nella risposta finale.
Scroll down/up: scorre verticalmente la pagina.
End: Answer: termina la sessione e compone la risposta finale usando le citazioni raccolte.

Grazie a questo ciclo, il modello passa da generatore “a libro chiuso” a investigatore in un mondo aperto. Pianifica le ricerche, filtra le fonti e raccoglie prove a supporto della risposta.

Come viene addestrato WebGPT

Fase 1: Behavior Cloning

Fase 2: Ottimizzazione secondo le preferenze umane

Reward modeling: Il team ha fatto generare al modello due risposte diverse (con tracciati di navigazione e citazioni differenti) alla stessa domanda. I valutatori umani sceglievano quella migliore. Accumulando molte comparazioni, è stato addestrato un modello di ricompensa capace di prevedere il punteggio umano per una risposta. Questo modello riconosce accuratezza fattuale, chiarezza, logica e qualità delle citazioni.
Rejection sampling: Una volta disponibile il modello di ricompensa, il controllo qualità diventa diretto. Per una nuova domanda, il modello addestrato con BC genera più risposte candidate—per esempio 4, 16 o 64. Il modello di ricompensa le valuta e il sistema restituisce quella con punteggio più alto. Questa strategia “best-of” richiede più calcolo in inferenza, ma filtra le risposte deboli e aumenta l’affidabilità.