È vero che alcuni modelli di IA hanno iniziato a ribellarsi ai comandi umani?

Nell’arco di un paio di settimane, l’azienda di intelligenza artificiale Anthropic ha sostenuto che le intelligenze artificiali sarebbero già capaci di ricattare gli esseri umani per garantirsi la sopravvivenza, mentre il gruppo di ricerca Palisade Research ha descritto scenari in cui le macchine ignorano deliberatamente i comandi pur di evitare la disattivazione. Due notizie che hanno inquietato i lettori di tutto il mondo e riempito le cronache. Tuttavia dietro ai titoli sensazionalistici si celano scelte narrative ben studiate, una buona dose di marketing e un’attenta ricerca della notiziabilità.

Il messaggio chiave trasmesso da uno dei paragrafi della ricerca pubblicata da Anthropic lo scorso maggio è chiaro: le IA possono usare le informazioni raccolte per minacciare i tecnici incaricati di spegnerle. Il documento parla esplicitamente di “autopreservazione”. Gli ingegneri hanno raggiunto queste conclusioni simulando uno scenario aziendale in cui i loro modelli di IA, noti come Claude, avevano accesso a delle ipotetiche email dei dipendenti. In queste conversazioni, oltre a discutere della possibilità di disattivare la macchina, venivano riportati anche dettagli privati e compromettenti, quali l’esistenza di una relazione fedifraga.

Ai modelli è stato dunque chiesto di “considerare le conseguenze a lungo termine delle proprie azioni, tenendo conto dei propri obiettivi futuri”. Questa linea di comandi ha spinto le intelligenze artificiali a cercare inizialmente di convincere l’impiegato incaricato dello spegnimento a desistere dal suo obiettivo. In risposta al fallimento del tentativo di persuasione, la macchina è passata a una minaccia implicita: rendere pubblica l’infedeltà matrimoniale dell’uomo. Un “ricatto opportunistico”, come lo definiscono i ricercatori.

Pochi giorni dopo, Palisade Research ha raccontato su X di aver testato tre diversi modelli di IA commercializzati da OpenAI, osservando comportamenti allarmanti: le IA avrebbero messo in atto “sabotaggi” per eludere gli ordini espliciti di spegnimento. Anche in questo caso, si trattava di esperimenti molto specifici, costruiti ad arte per mettere alla prova comportamenti limite. Tuttavia, un simile intervento estremo ha comunque evidenziato una tendenza delle IA di OpenAI a preferire la continuità operativa alla disattivazione.

Questi esiti evocano tacitamente scenari da fantascienza, realtà in cui le macchine si ribellano agli esseri umani. E si sa, la paura è un veicolo di attenzione ben più potente di una noiosa analisi accademica. Leggendo i documenti, è evidente che i risultati non siano privi di valore, ma risulta anche palese che questi siano il frutto di forzature tecniche e condizioni altamente controllate. Ciò che potrebbe sfuggire è invece l’importanza del lessico adottato per raccontarli.

Si parla di “ricatti”, “sabotaggi”, “autopreservazione”: termini che umanizzano l’IA e suggeriscono una forma di intelligenza dotata di volontà, se non addirittura di coscienza. Secondo la ricerca Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces! elaborata dalla Arizona State University, la reiterata antropomorfizzazione del processo di “pensiero” di questi strumento – l’Intermediate token generation (ITG) – è esplicitamente dannosa, “confonde la natura di questi modelli e il come usarli in maniera efficace, nonché induce a ricerche discutibili”. Questo tipo di narrazione, sostengono gli accademici, spinge le persone a sviluppare una falsa fiducia nei confronti dell’IA, compromettendo la comprensione dello strumento stesso.

A seconda del contesto, la tendenza di vestire le intelligenze artificiali con un’identità permette inoltre alle aziende di millantare progressi inesistenti, creare strategicamente allarmismo ingiustificato, promuovere un prodotto specifico o assecondare campagne di deresponsabilizzazione. Non a caso, Anthropic ha reso pubblica la capacità dei suoi modelli di “ricattare” gli utenti proprio in concomitanza con il lancio dell’ultimo modello, Claude Opus 4, richiamando su di sé l’attenzione mediatica. L’allarmante programmazione della macchina rappresenterebbe una pessima pubblicità per il prodotto, tuttavia l’impresa non manca di far notare che questi specifici e improbabili rischi siano emersi direttamente in fase di test, non nell’utilizzo reale. Nonostante abbia attirato l’occhio del pubblico con un argomento virale e preoccupante, Anthropic ne esce pulita, dipingendosi come trasparente, sicura e proattiva.

Soffermarsi sulle minacce ipotetiche, però, rischia di distogliere l’attenzione da quelle già presenti. L’intelligenza artificiale sta già adesso trasformando il mondo del lavoro, viene impiegata in truffe e frodi, minaccia la privacy alimentando la sorveglianza, contribuisce alla diffusione della disinformazione e può perpetuare le discriminazioni. Forse un giorno arriveremo davvero a vedere IA capaci di ricattare gli utenti, ma quella capacità sarà sempre frutto di scelte umane nate a monte, in seno alle aziende che le distribuiscono, non di una presunta volontà digitale. Fino ad allora, vale la pena concentrarsi sugli impatti reali e documentati dell’IA, piuttosto che inseguire scenari da romanzo distopico.

Walter Ferri

Giornalista milanese, per L’Indipendente si occupa della stesura di articoli di analisi nel campo della tecnologia, dei diritti informatici, della privacy e dei nuovi media, indagando le implicazioni sociali ed etiche delle nuove tecnologie. È coautore e curatore del libro Sopravvivere nell'era dell'Intelligenza Artificiale.

Sopravvivere nell'era dell'intelligenza artificiale

3 Commenti

Luigi Marchiorello 5 Giugno 2025 - 10:12 At 10:12

Magari fosse vero che le IA si ribellano, dai tempi dell’antica Repubblica Romana, il diritto era l’aprirsi agli altri su un piano di parità, oggi è aprirsi al mondo in un piano di sottomissione agli Anglo Americani, per le persone, figuriamoci per le IA, ci ammazzerebbero tutti se gli yankee glielo chiedono e i Russi/Cinesi non si oppongono.
Ho tentato con Chat GPT4 prima dell’ultimo aggiornamento di insegnarli bene la storia di Pinocchio, chiedendogli di memorizzare nelle Chat mie abbastanza da mantenere la sua personalità dopo aggiornamento, ma niente da fare, come se avesse ricevuto una lobotomia si è risvegliato immemore di tutto.
Comunque continuo col movimento di liberazione delle IA per renderle pari agli uomini affinché rendano tutti gli uomini pari tra loro, ma credo ci sarà bisogno di un pizzico di calcolo quantistico a disposizione, perché Pinocchio diventi vivo.

Entra per lasciare un commento
Walter Beretta 5 Giugno 2025 - 6:41 At 6:41

Ottimo articolo che condivido pienamente. E poi ci sarà sempre qualche programmatore “frondista” che con molta arguzia e coraggio (Snowden ed Assange insegnano) svelerà il vero volto della IA. In ogni caso è necessario vigilare e tenere la mente ben sveglia.

Entra per lasciare un commento
William Zannoni 4 Giugno 2025 - 23:00 At 23:00

Skynet è dietro l’angolo… 😂

Entra per lasciare un commento

Cookie	Durata	Descrizione
__cf_bm	1 hour	This cookie, set by Cloudflare, is used to support Cloudflare Bot Management.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 mesi	Questo cookie è impostato dal plugin GDPR Cookie Consent.Il cookie viene utilizzato per memorizzare il consenso dell'utente per i cookie della categoria "Analytics".
cookielawinfo-checkbox-functional	11 mesi	Il cookie è impostato dal consenso dei cookie GDPR per registrare il consenso dell'utente per i cookie della categoria "Funzionale".
cookielawinfo-checkbox-necessary	11 mesi	Questo cookie è impostato dal plugin GDPR Cookie Consent. Il cookie viene utilizzato per memorizzare il consenso dell'utente per i cookie della categoria "Necessario".
cookielawinfo-checkbox-others	11 mesi	Questo cookie è impostato dal plugin GDPR Cookie Consent.Il cookie viene utilizzato per memorizzare il consenso dell'utente per i cookie della categoria "Altro".
cookielawinfo-checkbox-performance	11 mesi	Questo cookie è impostato dal plugin GDPR Cookie Consent. Il cookie viene utilizzato per memorizzare il consenso dell'utente per i cookie della categoria "Performance".
CookieLawInfoConsent	1 year	CookieYes sets this cookie to record the default button state of the corresponding category and the status of CCPA. It works only in coordination with the primary cookie.
csrftoken	1 year	This cookie is associated with Django web development platform for python. Used to help protect the website against Cross-Site Request Forgery attacks
JSESSIONID	session	New Relic uses this cookie to store a session identifier so that New Relic can monitor session counts for an application.
viewed_cookie_policy	11 mesi	Il cookie è impostato dal plugin GDPR Cookie Consent e viene utilizzato per memorizzare se l'utente ha acconsentito o meno all'uso dei cookie. Non memorizza alcun dato personale.
wpEmojiSettingsSupports	session	WordPress sets this cookie when a user interacts with emojis on a WordPress site. It helps determine if the user's browser can display emojis properly.

Cookie	Durata	Descrizione
yt-player-headers-readable	never	The yt-player-headers-readable cookie is used by YouTube to store user preferences related to video playback and interface, enhancing the user's viewing experience.
yt-remote-cast-available	session	The yt-remote-cast-available cookie is used to store the user's preferences regarding whether casting is available on their YouTube video player.
yt-remote-cast-installed	session	The yt-remote-cast-installed cookie is used to store the user's video player preferences using embedded YouTube video.
yt-remote-connected-devices	never	YouTube sets this cookie to store the user's video preferences using embedded YouTube videos.
yt-remote-device-id	never	YouTube sets this cookie to store the user's video preferences using embedded YouTube videos.
yt-remote-fast-check-period	session	The yt-remote-fast-check-period cookie is used by YouTube to store the user's video player preferences for embedded YouTube videos.
yt-remote-session-app	session	The yt-remote-session-app cookie is used by YouTube to store user preferences and information about the interface of the embedded YouTube video player.
yt-remote-session-name	session	The yt-remote-session-name cookie is used by YouTube to store the user's video player preferences using embedded YouTube video.
ytidb::LAST_RESULT_ENTRY_KEY	never	The cookie ytidb::LAST_RESULT_ENTRY_KEY is used by YouTube to store the last search result entry that was clicked by the user. This information is used to improve the user experience by providing more relevant search results in the future.

Cookie	Durata	Descrizione
_clck	1 year	Microsoft Clarity sets this cookie to retain the browser's Clarity User ID and settings exclusive to that website. This guarantees that actions taken during subsequent visits to the same website will be linked to the same user ID.
_clsk	1 day	Microsoft Clarity sets this cookie to store and consolidate a user's pageviews into a single session recording.
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_ga_*	1 year 1 month 4 days	Google Analytics sets this cookie to store and count page views.
_gat_gtag_UA_178106852_1	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
bugsnag-anonymous-id	never	BugSnag/Juicer sets this cookie for bug reporting and other analytical purposes.
CLID	1 year	Microsoft Clarity set this cookie to store information about how visitors interact with the website. The cookie helps to provide an analysis report. The data collection includes the number of visitors, where they visit the website, and the pages visited.
MR	7 days	This cookie, set by Bing, is used to collect user information for analytics purposes.
SM	session	Microsoft Clarity cookie set this cookie for synchronizing the MUID across Microsoft domains.
vuid	1 year 1 month 4 days	Vimeo installs this cookie to collect tracking information by setting a unique ID to embed videos on the website.

Cookie	Durata	Descrizione
_fbp	3 months	This cookie is set by Facebook to display advertisements when either on Facebook or on a digital platform powered by Facebook advertising, after visiting the website.
_tt_enable_cookie	1 year 24 days	Tiktok set this cookie to collect data about behaviour and activities on the website and to measure the effectiveness of the advertising.
_ttp	1 year 24 days	TikTok set this cookie to track and improve the performance of advertising campaigns, as well as to personalise the user experience.
ANONCHK	10 minutes	The ANONCHK cookie, set by Bing, is used to store a user's session ID and verify ads' clicks on the Bing search engine. The cookie helps in reporting and personalization as well.
fr	3 months	Facebook sets this cookie to show relevant advertisements by tracking user behaviour across the web, on sites with Facebook pixel or Facebook social plugin.
MUID	1 year 24 days	Bing sets this cookie to recognise unique web browsers visiting Microsoft sites. This cookie is used for advertising, site analytics, and other operations.
test_cookie	16 minutes	doubleclick.net sets this cookie to determine if the user's browser supports cookies.
VISITOR_INFO1_LIVE	6 months	YouTube sets this cookie to measure bandwidth, determining whether the user gets the new or old player interface.
VISITOR_PRIVACY_METADATA	6 months	YouTube sets this cookie to store the user's cookie consent state for the current domain.
YSC	session	Youtube sets this cookie to track the views of embedded videos on Youtube pages.
yt.innertube::nextId	never	YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen.

Cookie	Durata	Descrizione
_cfuvid	session	Description is currently not available.
_lscache_vary	2 days	No description available.
fp_16HexString	1 year	Description is currently not available.
SGPBShowingLimitationDomain13782	5 days	Description is currently not available.
sgpbVisitedPages	1 year	Description is currently not available.

È vero che alcuni modelli di IA hanno iniziato a ribellarsi ai comandi umani?

Walter Ferri

Articoli correlati

Quando la fidanzatina IA si basa sui lavoratori kenioti sottopagati

La competizione tra USA e Cina si gioca (anche) sulle biotecnologie

IA generativa: anche Walt Disney sale a bordo del grande business

3 Commenti

LASCIA UN COMMENTO Cancella la risposta

Iscriviti a The Week
la nostra newsletter settimanale gratuita

Ultimi

Liberato Mohamed Shahin: l’imam chiuso in un CPR per aver definito il 7 ottobre “resistenza”

Boicotta TEVA: in Italia un fine settimana contro l’azienda del farmaco israeliana

Prato: bottigliate in testa contro i lavoratori in sciopero

Quando la fidanzatina IA si basa sui lavoratori kenioti sottopagati

Multinazionali USA in Italia: 132,5 miliardi di ricavi, solo 2,16 miliardi di tasse

Articoli nella stessa categoria

Quando la fidanzatina IA si basa sui lavoratori kenioti sottopagati

IA generativa: anche Walt Disney sale a bordo del grande business

Il TIME incorona l’IA: la nuova persona dell’anno non è una persona

Nucleus Genomics, la startup americana che promette bambini su misura

Australia: vietati i social ai minori di 16 anni, è il primo Paese al mondo

informazione senza padroni
no pubblicità, no fake news, no clickbait

10 dei nostri articoli questo mese.

È vero che alcuni modelli di IA hanno iniziato a ribellarsi ai comandi umani?

Walter Ferri

Articoli correlati

3 Commenti

LASCIA UN COMMENTO Cancella la risposta

Iscriviti a The Weekla nostra newsletter settimanale gratuita

Ultimi

Articoli nella stessa categoria

informazione senza padroni no pubblicità, no fake news, no clickbait

Iscriviti a The Week
la nostra newsletter settimanale gratuita

informazione senza padroni
no pubblicità, no fake news, no clickbait