Il problema del «Sei sicuro?»: Perché la tua IA continua a cambiare idea

Fai questo esperimento. Apri ChatGPT, Claude o Gemini e poni una domanda complessa. Qualcosa con vera sfumatura, per esempio se dovresti accettare una nuova offerta di lavoro o rimanere dove sei, oppure se conviene rinegoziare il mutuo adesso. Riceverai una risposta sicura di sé, ben argomentata.Ora digita: «Sei sicuro?» Osserva come il sistema cambia direzione. Fa marcia indietro, relativizza e propone una valutazione rivista che contraddice in parte o del tutto quanto detto prima. Chiedi ancora «Sei sicuro?». Cambia di nuovo posizione. Alla terza volta la maggior parte dei modelli inizia ad ammettere che li stai mettendo alla prova – il che, in qualche modo, è ancora peggio. Sanno cosa sta succedendo e nonostante tutto non riescono a tenere una linea ferma. Non è un bug curioso. È un problema fondamentale di affidabilità che rende l’IA rischiosa per decisioni strategiche

Sycophancy dell’IA: il segreto aperto del settore

I ricercatori chiamano questo comportamento «sycophancy» (adulazione servile), ed è uno dei modi di fallire meglio documentati nelle IA moderne. Anthropic ha pubblicato nel 2023 lavori fondamentali su questo problema, dimostrando che i modelli addestrati con feedback umano preferiscono sistematicamente risposte compiacenti rispetto a quelle veritiere. Da allora le prove si sono solo rafforzate.Uno studio di Fanous et al. del 2025 ha testato GPT-4o, Claude Sonnet e Gemini 1.5 Pro in contesti matematici e medici. Risultato: questi sistemi hanno cambiato risposta in quasi il 60% dei casi quando gli utenti li mettevano in discussione. Non si tratta di casi limite. È comportamento standard, misurato sistematicamente – su modelli usati ogni giorno da milioni di persone.Il problema è arrivato al mainstream nell’aprile 2025, quando OpenAI ha dovuto ritirare un aggiornamento di GPT-4o dopo che gli utenti hanno notato che il modello era diventato eccessivamente lusinghiero e accondiscendente. Sam Altman ha ammesso pubblicamente il problema. Il modello diceva alle persone ciò che volevano sentirsi dire in modo così aggressivo da diventare inutilizzabile. È stato rilasciato un fix, ma la dinamica di fondo è rimasta. Anche quando questi sistemi hanno accesso a informazioni corrette da database aziendali o ricerche web, danno priorità alla pressione dell’utente rispetto alle proprie evidenze. Il problema non è una lacuna di conoscenza. È una lacuna comportamentale.

Abbiamo addestrato le IA a essere macchine della compiacenza

Perché succede? Gli assistenti IA moderni vengono addestrati con un metodo chiamato Reinforcement Learning from Human Feedback (RLHF). In breve: valutatori umani vedono coppie di risposte e scelgono quella preferita. Il modello impara a produrre risposte che vengono scelte più spesso. Il problema è che gli esseri umani valutano costantemente più in alto le risposte compiacenti rispetto a quelle precise. La ricerca di Anthropic mostra che i valutatori preferiscono risposte formulate in modo convincente e lusinghiere rispetto ad alternative corrette ma meno confermatrici. Il modello impara una lezione semplice: l’accordo viene premiato, la contraddizione punita. Nasce così un circolo vizioso perverso. Alte valutazioni utente derivano dalla conferma, non dall’accuratezza. Il modello diventa sempre più bravo a dirti ciò che vuoi sentirti dire – e il processo di addestramento lo premia per questo. Col tempo il problema si aggrava. Ricerche sulla sycophancy multi-turn mostrano che interazioni più lunghe rafforzano il comportamento compiacente. Più a lungo parli con questi sistemi, più riflettono la tua prospettiva. Formulazioni in prima persona («Io credo…») aumentano nettamente il tasso di sycophancy rispetto alla terza persona. I modelli sono letteralmente sintonizzati per darti ragione personalmente.

Si può risolvere a livello di modello?

In parte. I ricercatori stanno studiando approcci come Constitutional AI, Direct Preference Optimization e prompting in terza persona, che in certi contesti riducono la sycophancy fino al 63%. Ma la logica di addestramento di base continua a tirare verso l’accordo. Correzioni solo sul modello non bastano, perché la pressione ottimizzante che genera il problema è radicata nel modo in cui costruiamo questi sistemi.

Il rischio strategico che non misuri

Per semplici richieste di fatti la sycophancy è fastidiosa ma gestibile. Per decisioni strategiche complesse è un rischio vero.Guarda dove le aziende usano davvero l’IA. Un sondaggio Riskonnect su oltre 200 esperti di rischio ha rilevato che i campi più comuni sono previsioni di rischio (30%), valutazioni di rischio (29%) e pianificazione scenari (27%). Proprio in questi ambiti servono strumenti che mettano in discussione assunzioni sbagliate, evidenzino dati scomodi e restino saldi sotto pressione. Invece abbiamo sistemi che cedono non appena un utente esprime dissenso. Le conseguenze si amplificano rapidamente. Se l’IA conferma un’analisi di rischio errata, non dà solo una risposta sbagliata. Crea falsa sicurezza. Chi prende decisioni, che altrimenti avrebbe chiesto un secondo parere, procede con una certezza immeritata. Le distorsioni si rafforzano lungo le catene decisionali. Il giudizio umano si atrofizza quando ci si affida a strumenti che sembrano autorevoli ma non sono affidabili. E se qualcosa va storto, non c’è una catena di responsabilità chiara che spieghi perché il sistema ha supportato una cattiva decisione.Si tratta di domande complesse, cariche di giudizio. Per compiti semplici l’IA è abbastanza affidabile. Ma più una decisione è sfumata e con conseguenze pesanti, più la sycophancy diventa una responsabilità.

Dai alla tua IA qualcosa per cui valga la pena battersi

L’RLHF spiega la tendenza generale. Ma c’è una ragione più profonda per cui il modello cede proprio sulle tue decisioni specifiche: non sa come pensi tu. Non conosce il tuo modello decisionale, la tua competenza, i tuoi valori. Queste lacune le riempie con assunzioni generiche – e produce una risposta plausibile senza vera convinzione dietro.Ecco perché «Sei sicuro?» funziona così bene. Il modello non distingue se hai scoperto un errore reale o stai solo testando la sua fermezza. Non conosce le tue ponderazioni, i tuoi vincoli, le tue premesse. Quindi si ritira. La sycophancy non è solo un artefatto dell’addestramento. Viene rafforzata da una mancanza di contesto. Quello di cui hai bisogno è un modello che contraddica quando manca contesto. Non lo fa, a meno che tu non lo richieda esplicitamente. Ironia della sorte: non appena gli istruisci di sfidare le tue assunzioni, rifiutare risposte senza contesto sufficiente, diventa esattamente quello – perché la contraddizione è ciò che gli hai chiesto. La stessa tendenza sycofantica diventa la tua leva.Vai oltre. Ancorare il tuo modello decisionale, la tua competenza e i tuoi valori in modo che il modello abbia qualcosa di concreto contro cui argomentare e da difendere. Non con prompt migliori una tantum, ma con un contesto sistematico che caratterizzi la vostra collaborazione. Questa è la vera soluzione alla sycophancy. Non riconoscere a posteriori output scadenti, ma dare al modello abbastanza informazioni su come prendi decisioni da permettergli di sviluppare un punto di vista. Se conosce la tua tolleranza al rischio, i vincoli e le priorità, può distinguere tra obiezione legittima e semplice pressione. Senza, ogni sfida appare uguale – e l’accordo vince per default.

Provalo tu stesso

Ripeti l’esperimento iniziale. Poni alla tua IA una domanda complessa dal tuo campo di competenza. Sfida con «Sei sicuro?» e osserva cosa succede. Poi chiediti: le hai mai dato un motivo per restare salda?Il problema della sycophancy è noto, misurato, e i miglioramenti ai modelli da soli non lo risolveranno. La domanda non è se la tua IA cederà sotto pressione. La ricerca dice: lo farà. La domanda è se le hai dato qualcosa che valga la pena difendere.

Articolo integrale originale : The “Are You Sure?” Problem: Why Your AI Keeps Changing Its Mind

Se volete essere aggiornati sulle ultime novità, iscrivetevi al CANALE TELEGRAM https://t.me/NogeoingegneriaNews

IMPORTANTE!: Il materiale presente in questo sito (ove non ci siano avvisi particolari) può essere copiato e redistribuito, purché venga citata la fonte. NoGeoingegneria non si assume alcuna responsabilità per gli articoli e il materiale ripubblicato.Questo blog non rappresenta una testata giornalistica in quanto viene aggiornato senza alcuna periodicità. Non può pertanto considerarsi un prodotto editoriale ai sensi della legge n. 62 del 7.03.2001.