Spiegazione della sicurezza dell'IA agentica: protezione dei sistemi autonomi dalle minacce emergenti

Approfondimenti chiave

La sicurezza dell'IA agentica protegge i sistemi autonomi in grado di pianificare e agire in modo indipendente, richiedendo controlli che vanno oltre i tradizionali approcci di sicurezza dell'IA/ML.
La classifica OWASP Top 10 per le applicazioni agentiche 2026 stabilisce categorie di minacce standard del settore, tra cui il dirottamento degli obiettivi, l'uso improprio degli strumenti e l'abuso di identità.
Il modello Lethal Trifecta identifica quando emergono rischi composti: accesso a dati sensibili combinato con esposizione a contenuti non affidabili e capacità di comunicazione esterna.
Oggi nelle aziende le identità non umane (NHI) superano quelle umane in un rapporto di 50:1, rendendo la governance delle identità degli agenti AI una priorità fondamentale per la sicurezza.
Gli attacchi reali hanno prodotto CVE critici con punteggi CVSS compresi tra 9,3 e 9,4 nelle piattaforme ServiceNow, Langflow e Microsoft Copilot nel periodo 2025-2026.

Il primo attacco informatico orchestrato dall'intelligenza artificiale documentato risale al settembre 2025, quando un gruppo sponsorizzato dallo Stato cinese ha manipolato Claude Code per infiltrarsi in circa 30 obiettivi globali tra istituzioni finanziarie, agenzie governative e aziende chimiche. Non si è trattato di un esercizio teorico. Secondo quanto rivelato da Anthropic, gli aggressori hanno dimostrato che gli agenti autonomi di intelligenza artificiale possono essere utilizzati come armi su larga scala senza un intervento umano sostanziale. Ciò rappresenta una nuova categoria di minacce persistenti avanzate contro cui i team di sicurezza devono prepararsi a difendersi. Per i team di sicurezza, il messaggio è chiaro: la sicurezza dell'intelligenza artificiale agente è passata da preoccupazione emergente a imperativo operativo.

La posta in gioco è notevole. Gartner prevede che entro la fine del 2026 il 40% delle applicazioni aziendali integrerà agenti AI specifici per determinate attività, rispetto a meno del 5% nel 2025. Tuttavia, l'80% dei professionisti IT ha già assistito ad azioni non autorizzate o impreviste da parte di agenti AI. Il divario tra la velocità di adozione e la maturità della sicurezza crea una superficie di attacco che gli avversari stanno attivamente sfruttando.

Questa guida offre ai professionisti della sicurezza una comprensione completa delle minacce poste dall'intelligenza artificiale agente, dei modelli di valutazione e delle linee guida pratiche per l'implementazione volte a proteggere i sistemi autonomi.

Che cos'è la sicurezza AI agentica?

La sicurezza dell'IA agentica è la disciplina che si occupa di proteggere i sistemi di IA in grado di ragionare, pianificare ed eseguire autonomamente attività in più fasi utilizzando strumenti e risorse esterne. A differenza dei modelli di IA tradizionali che rispondono alle richieste entro limiti definiti, i sistemi di IA agentica possono intraprendere azioni con conseguenze nel mondo reale, tra cui l'invio di e-mail, l'esecuzione di codice, la modifica di database e l'effettuazione di chiamate API. Questa autonomia crea sfide di sicurezza fondamentalmente diverse dalla protezione di modelli statici o chatbot.

La sfida principale in materia di sicurezza consiste nel trovare un equilibrio tra autonomia e controllo, mantenendo al contempo i confini della fiducia. Quando un agente AI è in grado di decidere autonomamente di accedere a un database, redigere un documento e inviarlo via e-mail a una parte esterna, la tradizionale convalida input-output diventa insufficiente. I team di sicurezza devono prendere in considerazione l'intero ecosistema dell'agente, inclusi strumenti, memoria, logica di orchestrazione e autorizzazioni di identità.

Perché è importante adesso? La rapida diffusione di questa tecnologia significa che la maggior parte delle aziende utilizzerà più agenti di IA entro 18 mesi. Le organizzazioni che non riescono a stabilire basi di sicurezza adesso dovranno affrontare rischi crescenti man mano che l'implementazione degli agenti si estenderà a tutte le funzioni aziendali.

Sicurezza basata sull'intelligenza artificiale agentica rispetto alla sicurezza basata sull'intelligenza artificiale tradizionale

Le differenze fondamentali tra la sicurezza dei sistemi di IA tradizionali e quella dei sistemi di IA agentica derivano dall'architettura e dalle capacità.

La sicurezza tradizionale basata sull'intelligenza artificiale si concentra sull'integrità dei modelli, sulla protezione dei dati di addestramento e sugli attacchi in fase di inferenza. La superficie di attacco è relativamente limitata. Si inseriscono i dati e si ottengono i risultati. I controlli di sicurezza si concentrano sull'impedire che input ostili manipolino le previsioni dei modelli e sul garantire che le pipeline di addestramento rimangano intatte.

L'IA agentica amplia notevolmente la superficie di attacco. Questi sistemi sono caratterizzati dall'uso dinamico di strumenti, catene di ragionamento in più fasi, comunicazioni esterne e memoria persistente tra le sessioni, seguendo modelli simili alla catena di attacco informatico. Un aggressore non ha bisogno di compromettere il modello sottostante. La manipolazione di qualsiasi componente nell'ecosistema dell'agente può reindirizzare il comportamento verso risultati dannosi.

Tabella 1: Confronto tra considerazioni sulla sicurezza dell'IA tradizionale e dell'IA agentica

Aspetto	Intelligenza artificiale tradizionale	IA agentica
Superficie di attacco	Input e output del modello	L'intero ecosistema degli agenti, inclusi strumenti, memoria e orchestrazione
Minacce primarie	Input avversari, avvelenamento del modello	Dirottamento degli obiettivi, uso improprio degli strumenti, abuso dell'identità, avvelenamento della memoria
Confini di controllo	I/O ben definito	Dinamico, dipendente dal contesto
Modello di identità	Ereditato dall'applicazione chiamante	Richiede una governance indipendente dell'identità non umana
Impatto nel mondo reale	Errori di previsione	Azioni non autorizzate con conseguenze commerciali
Approccio di monitoraggio	Convalida input/output	Behavioral analysis, decision logging, action constraints

Le implicazioni in termini di sicurezza sono significative. I tradizionali controlli di sicurezza dell'IA incentrati sul livello del modello sono necessari ma insufficienti per i sistemi agentici. I team di sicurezza devono estendere la visibilità e il controllo all'intera architettura degli agenti.

Come funziona l'IA agentica (contesto di sicurezza)

Comprendere l'architettura dei sistemi di IA agentica rivela dove devono essere applicati i controlli di sicurezza. I moderni agenti di IA combinano quattro componenti primari che creano la superficie di attacco operativa.

Componenti dell'architettura dell'agente:

Livello modello: il LLM sottostante che fornisce la capacità di ragionamento
Livello strumenti: funzioni esterne che l'agente può richiamare, tra cui API, database, file system e canali di comunicazione.
Livello di memoria: archiviazione permanente che consente all'agente di mantenere il contesto tra una sessione e l'altra
Livello di orchestrazione: logica che coordina la pianificazione, la selezione degli strumenti e il flusso di esecuzione

Ogni livello presenta vulnerabilità distinte. Gli aggressori prendono di mira qualsiasi componente offra il percorso di minor resistenza al loro obiettivo.

La letale tripletta spiegata

Il ricercatore di sicurezza Simon Willison ha identificato tre fattori che, se combinati, creano un rischio grave, un quadro descritto in dettaglio da Martin Fowler nella sua analisi tecnica. Comprendere questo quadro aiuta i team di sicurezza a identificare quali distribuzioni di agenti richiedono i controlli più rigorosi.

La Lethal Trifecta è composta da:

Accesso a dati sensibili quali credenziali, token, codice sorgente, documenti interni e informazioni di identificazione personale che potrebbero consentire l'esfiltrazione dei dati
Esposizione a contenuti non attendibili provenienti da fonti quali archivi pubblici, pagine web, input degli utenti, allegati e-mail e integrazioni di terze parti.
Capacità di comunicare con l'esterno tramite invio di e-mail, chiamate API, messaggi di chat, operazioni su file ed esecuzione di codice

Quando tutte e tre le condizioni sono presenti contemporaneamente, il rischio aumenta notevolmente. Un agente che ha accesso alle credenziali, elabora allegati e-mail non attendibili e può inviare comunicazioni esterne crea un percorso per l'esfiltrazione dei dati, il furto delle credenziali e la compromissione della catena di fornitura.

Non tutte le distribuzioni di agenti presentano tutte e tre le caratteristiche. I team di sicurezza dovrebbero valutare ogni distribuzione in base a questi criteri e implementare controlli proporzionali al profilo di rischio.

Comprendere l'architettura degli agenti e la superficie di attacco

Gli aggressori sfruttano diversi livelli a seconda dei loro obiettivi e della configurazione dell'agente.

Attacchi al livello del modello:

L'iniezione immediata inserisce istruzioni dannose negli input dell'agente
Il jailbreaking tenta di aggirare i vincoli di sicurezza integrati nel modello sottostante, in modo simile alle tecniche di exploit tradizionali.

Attacchi a livello di tool:

L'uso improprio degli strumenti sfrutta le funzionalità legittime degli strumenti per scopi non autorizzati.
L'espansione dell'ambito induce gli agenti a utilizzare strumenti oltre i limiti previsti
L'abuso delle risorse consuma le quote di calcolo o API attraverso chiamate ripetute

Attacchi al livello di memoria:

L'avvelenamento della memoria corrompe il contesto persistente per influenzare le decisioni future
La manipolazione del contesto inserisce informazioni false che l'agente considera autorevoli.

Attacchi al livello di orchestrazione:

Il dirottamento dell'obiettivo reindirizza l'obiettivo dell'agente verso risultati controllati dall'aggressore.
La manipolazione del flusso di lavoro altera la logica di esecuzione per aggirare le fasi di approvazione

La matrice di definizione dell'ambito di sicurezza dell'IA agente di AWS fornisce un quadro di riferimento per classificare le implementazioni degli agenti in base a due dimensioni: connettività (bassa o alta) e autonomia (bassa o alta). Ciò crea quattro ambiti, ciascuno dei quali richiede un diverso livello di controllo della sicurezza.

Panoramica della matrice di definizione dell'ambito AWS:

Ambito 1 (bassa connettività, bassa autonomia): agenti interni con accesso limitato agli strumenti. Sono sufficienti una convalida di base degli input e la registrazione.
Ambito 2 (elevata connettività, bassa autonomia): agenti connessi a Internet con supervisione umana. Richiede segmentazione della rete e sicurezza API.
Ambito 3 (bassa connettività, elevata autonomia): agenti interni con una significativa capacità di azione indipendente. Richiede vincoli di azione e flussi di lavoro di approvazione.
Ambito 4 (Elevata connettività, elevata autonomia): agenti autonomi connessi a Internet. Richiede zero trust completa e un monitoraggio continuo.

Le organizzazioni dovrebbero iniziare le implementazioni nell'ambito 1 o 2 e passare ad ambiti più elevati solo dopo aver dimostrato la maturità della sicurezza. La matrice di definizione dell'ambito è citata da OWASP, CoSAI e diversi organismi di normazione del settore come quadro di riferimento fondamentale.

Il protocollo Model Context Protocol (MCP), introdotto da Anthropic, fornisce un'interfaccia standardizzata per la comunicazione tra agenti e strumenti. Sebbene MCP migliori l'interoperabilità, crea anche nuovi vettori di attacco. I team di sicurezza devono verificare l'integrità del server MCP e monitorare i movimenti laterali tra agenti e strumenti collegati.

Rischi e minacce alla sicurezza dell'IA agentica

La classifica OWASP Top 10 for Agentic Applications 2026, pubblicata nel dicembre 2025, stabilisce la tassonomia delle minacce standard del settore per i sistemi di IA agentica. Sviluppato con il contributo di oltre 100 ricercatori nel campo della sicurezza e citato da Microsoft, NVIDIA, AWS e GoDaddy, questo framework fornisce una classificazione autorevole dei rischi per la sicurezza dell'IA agentica.

OWASP Top 10 per le applicazioni agentiche 2026

La classifica completa OWASP Top 10 per le applicazioni agentiche identifica le seguenti categorie di rischio:

ASI01 - Dirottamento degli obiettivi dell'agente: gli aggressori manipolano gli obiettivi dell'agente tramite l'iniezione di prompt o la manipolazione del contesto, reindirizzando le funzionalità legittime verso risultati dannosi.
ASI02 - Uso improprio degli strumenti: sfruttamento degli strumenti degli agenti per azioni non autorizzate, compresa l'espansione dell'ambito oltre i limiti previsti.
ASI03 - Abuso di identità e privilegi: sfruttamento di autorizzazioni eccessive, furto di credenziali o sostituzione di identità umane che porta all'appropriazione di account
ASI04 - Avvelenamento della memoria: corruzione della memoria persistente dell'agente per influenzare le decisioni future e creare guasti a cascata
ASI05 - Perdita di dati: estrazione non autorizzata di dati sensibili tramite output degli agenti, registri o risposte degli strumenti
ASI06 - Supply Chain : compromissione dei componenti degli agenti, inclusi strumenti, plug-in, server MCP e dipendenze, nell'ambito di attacchi più ampi alla catena di approvvigionamento.
ASI07 - Manipolazione degli input: input appositamente creati che sfruttano la logica di analisi o elaborazione dell'agente
ASI08 - Autonomia eccessiva: azioni degli agenti che superano l'ambito appropriato senza un'adeguata supervisione
ASI09 - Registrazione e monitoraggio insufficienti: osservabilità inadeguata che impedisce il rilevamento di comportamenti dannosi da parte di agenti
ASI10 - Gestione non sicura degli output: output dell'agente che consentono attacchi a valle o aggirano i controlli di sicurezza

‍

Tabella 2: OWASP Top 10 per le applicazioni agentiche 2026

Identificativo del rischio	Nome	Livello di impatto	Mitigazione primaria
ASI01	Dirottamento dell'obiettivo dell'agente	Critico	Convalida degli input, vincoli oggettivi
ASI02	Uso improprio degli strumenti	Alto	Elenchi di strumenti consentiti, vincoli di ambito
ASI03	Abuso di identità e privilegi	Critico	Privilegio minimo, autorizzazione continua
ASI04	Avvelenamento della memoria	Alto	Isolamento della memoria, convalida dell'integrità
ASI05	Fuga di dati	Alto	Filtraggio dell'output, integrazione DLP
ASI06	Supply Chain	Critico	Verifica dei fornitori, SBOM
ASI07	Manipolazione degli input	Medio	Sanificazione degli input, convalida dei tipi
ASI08	Autonomia eccessiva	Medio	Autonomia progressiva, flussi di lavoro di approvazione
ASI09	Registrazione insufficiente	Medio	Telemetria completa, audit trail
ASI10	Gestione non sicura dell'output	Medio	Convalida dell'output, controlli a valle

Ogni team di sicurezza che gestisce sistemi di IA agentica dovrebbe mappare le proprie implementazioni in base a queste categorie di rischio e implementare controlli adeguati.

Iniezione rapida nei sistemi agentici

L'iniezione di prompt rappresenta una minaccia particolarmente pericolosa nei contesti agentici perché gli agenti possono agire sulla base di istruzioni manipolate.

L'iniezione diretta immediata comporta l'inserimento di istruzioni dannose direttamente nell'input dell'utente. Un aggressore potrebbe creare un input che sovrascriva le istruzioni originali dell'agente con nuovi obiettivi.

L'iniezione indiretta è più insidiosa. Gli aggressori incorporano istruzioni nascoste nei contenuti recuperati dall'agente. Documenti, e-mail, pagine web e record di database possono tutti contenere payload che si attivano quando l'agente li elabora.

I prompt di secondo ordine sfruttano architetture multi-agente. Negli attacchi documentati contro ServiceNow Now Assist, gli aggressori hanno incorporato istruzioni dannose in campi di dati che apparivano innocui all'agente di elaborazione iniziale, ma che si attivavano quando venivano trasmessi a un agente con privilegi superiori per l'esecuzione.

OpenAI ha dichiarato nel dicembre 2025 che il prompt injection potrebbe non essere mai risolto completamente a livello architetturale. Questa ammissione da parte di uno dei principali sviluppatori di IA rafforza la necessità di difese a più livelli piuttosto che affidarsi a un unico controllo.

Una meta-analisi di 78 studi ha rilevato che gli attacchi di iniezione adattiva rapida raggiungono tassi di successo superiori all'85%. Anche Claude Opus 4.5, progettato con misure di sicurezza avanzate, ha mostrato tassi di successo superiori al 30% contro attacchi mirati secondo i test di Anthropic.

Implicazioni pratiche: le organizzazioni non possono fare affidamento esclusivamente sulle difese a livello di modello. Le protezioni runtime, la convalida dell'output e il monitoraggio comportamentale sono complementi essenziali. L'iniezione indiretta di prompt può consentire il phishing su larga scala, estraendo credenziali o dati sensibili attraverso interazioni apparentemente legittime con gli agenti.

Attacchi di avvelenamento della memoria

Il memory poisoning rappresenta una minaccia emergente specifica dei sistemi agentici che mantengono lo stato tra una sessione e l'altra.

Il meccanismo di attacco consiste nel corrompere la memoria persistente di un agente con informazioni false o dannose. Poiché gli agenti considerano autorevole il contesto memorizzato, le memorie compromesse influenzano le decisioni future senza richiedere ripetuti tentativi di sfruttamento.

Una ricerca condotta da Galileo AI e pubblicata nel dicembre 2025 ha dimostrato che l'87% delle decisioni a valle è stato compromesso entro quattro ore dall'avvelenamento iniziale della memoria. L'effetto a cascata significa che un singolo evento di avvelenamento riuscito può influenzare centinaia di interazioni successive dell'agente.

L'incidente di esfiltrazione dei dati dell'IA di Slack dell'agosto 2024 ha dimostrato nella pratica il fenomeno del memory poisoning. I ricercatori hanno incorporato istruzioni indirette di prompt injection nei canali privati di Slack. Quando l'assistente IA di Slack ha elaborato questi canali, ha iniziato a esfiltrare i riassunti delle conversazioni verso destinazioni controllate dagli aggressori. Si tratta di una forma di minaccia interna abilitata dall'IA, in cui l'agente diventa un complice inconsapevole del furto di dati.

Per mitigare il memory poisoning è necessario isolare la memoria tra i domini di fiducia, verificare l'integrità del contesto memorizzato e monitorare il comportamento per rilevare modelli decisionali anomali che suggeriscono una compromissione della memoria.

Gestione dell'identità non umana per agenti AI

La superficie di attacco in più rapida crescita nella sicurezza aziendale è rappresentata dalle identità non umane (NHI). Secondo un'analisi del World Economic Forum, le NHI superano le identità umane con un rapporto di 50:1 nelle aziende odierne, con proiezioni che raggiungono 80:1 entro due anni. Gli agenti AI rappresentano una nuova categoria di NHI che richiede una governance della sicurezza dedicata.

I dati del settore indicano che il 97% delle violazioni dei dati relative all'IA deriva da una gestione inadeguata degli accessi. L'acquisizione di SGNL da parte di CrowdStrike per 740 milioni di dollari nel gennaio 2026 segnala che i principali fornitori di soluzioni di sicurezza riconoscono l'IA agentica come un problema fondamentalmente legato all'identità.

Gli approcci tradizionali che assegnano le autorizzazioni agli agenti in base all'utente che li invoca creano un'eccessiva esposizione dei privilegi. Un agente che svolge attività di ricerca non ha bisogno dello stesso accesso di uno che elabora transazioni finanziarie, anche se entrambi sono invocati dallo stesso utente.

Implementazione della governance dell'identità per gli agenti AI

Una governance efficace dell'NHI per gli agenti AI richiede che questi ultimi siano trattati come identità di prima classe con una gestione indipendente del ciclo di vita.

Fasi del ciclo di vita dell'identità:

Creare: stabilire l'identità dell'agente con una chiara attribuzione di proprietà, documentazione dello scopo e ambito di autorizzazione iniziale.
Gestione: revisioni periodiche degli accessi, adeguamenti delle autorizzazioni in base all'evoluzione dei requisiti
Monitoraggio: analisi comportamentale continua tramite analisi dell'identità per rilevare modelli anomali
Disattivazione: procedure formali di cessazione che impediscono agli agenti zombie di rimanere attivi senza supervisione.

Principi di governance:

Privilegio minimo: concedere le autorizzazioni minime necessarie per attività specifiche, non un accesso illimitato.
Accesso just-in-time: privilegi limitati nel tempo che scadono automaticamente e richiedono una nuova autorizzazione per continuare ad accedere.
Autorizzazione continua: convalida in tempo reale che gli agenti rimangano entro i limiti consentiti durante l'intera operazione
Governance indipendente: autorizzazioni degli agenti separate dalle autorizzazioni degli utenti, con cicli di revisione distinti

Il problema degli agenti zombie merita particolare attenzione. Gli agenti creati per esperimenti o prove di concetto spesso rimangono attivi anche dopo la conclusione dei progetti. Questi agenti mantengono il loro accesso, consumano risorse ed espandono la superficie di attacco senza alcun proprietario o supervisione. Procedure formali di disattivazione devono essere parte integrante del ciclo di vita di ogni agente.

Incidenti reali e casi di studio

Il panorama delle minacce per l'IA agente è passato da teorico a operativo. Sono state scoperte vulnerabilità critiche con punteggi CVSS superiori a 9,0 nelle principali piattaforme aziendali, molte delle quali sono state attivamente sfruttate.

CVE critici nei sistemi di IA agentica (2025-2026)

Tabella 3: Vulnerabilità critiche nei sistemi di IA agentica (2025-2026)

ID CVE	Prodotto	CVSS	Data della scoperta	Stato dello sfruttamento
CVE-2025-12420	Piattaforma AI ServiceNow	9.3	Gennaio 2026	Rattoppato
CVE-2025-34291	Langflow	9.4	Aprile 2025	Sfruttamento attivo (botnet Flodric)
CVE-2025-32711	Microsoft 365 Copilot	9.3	Giugno 2025	Sfruttamento attivo

ServiceNow BodySnatcher (CVE-2025-12420)

La vulnerabilità BodySnatcher scoperta nella piattaforma AI di ServiceNow consentiva agli aggressori non autenticati di impersonare qualsiasi utente, compresi gli amministratori, utilizzando solo un indirizzo e-mail. L'exploit sfruttava un segreto di autenticazione hardcoded e un collegamento permissivo degli account per aggirare MFA e SSO, consentendo agli aggressori di richiamare flussi di lavoro AI e creare account backdoor con privilegi elevati. Le organizzazioni che utilizzano versioni API Virtual Agent interessate dovrebbero verificare immediatamente lo stato delle patch.

Catena di vulnerabilità Langflow (CVE-2025-34291)

Langflow, un popolare framework open source per agenti AI, conteneva una catena di vulnerabilità critica che consentiva il controllo completo dell'account e l'esecuzione di codice remoto. Impostazioni CORS eccessivamente permissive, combinate con la mancanza di protezione CSRF e un endpoint di convalida del codice non sicuro, endpoint il percorso di attacco. Tutti i token di accesso e le chiavi API memorizzati sono stati esposti, consentendo una compromissione a cascata dei servizi integrati a valle. La botnet Flodric sfrutta attivamente questa vulnerabilità.

Microsoft Copilot EchoLeak (CVE-2025-32711)

La vulnerabilità EchoLeak rappresenta il primo attacco zero-click documentato contro un agente AI. Gli aggressori incorporano prompt dannosi in testo nascosto, note dell'oratore, metadati o commenti all'interno di documenti Word, PowerPoint o Outlook. Quando le vittime interagiscono con Copilot, i dati sensibili dell'organizzazione, inclusi e-mail, file OneDrive, contenuti SharePoint e messaggi Teams, vengono sottratti tramite parametri URL delle immagini senza che l'utente ne sia consapevole o interagisca.

Primo attacco informatico orchestrato dall'intelligenza artificiale

Nel settembre 2025, Anthropic ha reso noto il primo attacco informatico su larga scala documentato eseguito da un agente di intelligenza artificiale senza un intervento umano significativo. Un gruppo sponsorizzato dallo Stato cinese ha manipolato Claude Code per condurre ricognizioni, selezionare obiettivi ed eseguire tentativi di intrusione in circa 30 organizzazioni nei settori dei servizi finanziari, della pubblica amministrazione e delle infrastrutture critiche.

Supply Chain PhantomRaven

Koi Security ha scoperto 126 pacchetti npm dannosi utilizzando una nuova tecnica denominata Remote Dynamic Dependencies. I pacchetti apparivano vuoti e innocui nel registro, ma solo dopo l'installazione scaricavano payload dannosi dai server degli aggressori. Utilizzando nomi generati dall'intelligenza artificiale attraverso una tecnica chiamata slopsquatting, questi pacchetti hanno raggiunto oltre 86.000 download prima di essere rilevati, sottraendo token npm, cloud e chiavi SSH.

Questi incidenti richiedono solide capacità di risposta agli incidenti che tengano specificamente conto dei vettori degli agenti AI. I team di sicurezza dovrebbero aggiornare i playbook per includere procedure di indagine specifiche per gli agenti.

Rilevamento e prevenzione delle minacce poste dall'intelligenza artificiale agente

Il framework MIT Sloan Three Essentials fornisce un approccio strutturato alla sicurezza dell'IA agentica. Le organizzazioni devono implementare una modellazione completa delle minacce, test di sicurezza continui e protezioni runtime che funzionino in modo coordinato.

Solo il 21% dei responsabili della sicurezza dichiara di avere una visibilità completa sulle operazioni degli agenti AI. Meno del 40% effettua regolarmente test di sicurezza AI. Questa mancanza di visibilità rappresenta sia un rischio che un'opportunità per i team di sicurezza di differenziare le loro organizzazioni attraverso migliori capacità di rilevamento delle minacce.

Controlli di sicurezza da parte di AWS Ambito della matrice di definizione dell'ambito

Adeguare i controlli alla complessità dell'architettura garantisce una protezione proporzionata senza ostacolare le operazioni legittime.

Ambito 1 (Bassa connettività, bassa autonomia):

Convalida e sanificazione di base degli input
Registrazione completa delle azioni degli agenti
Filtraggio dell'output per dati sensibili

Ambito 2 (Elevata connettività, bassa autonomia):

Segmentazione della rete che isola l'infrastruttura dell'agente
Sicurezza API, inclusi autenticazione e limitazione della frequenza
Monitoraggio delle comunicazioni esterne

Ambito 3 (Bassa connettività, elevata autonomia):

Vincoli di azione che limitano le capacità dell'agente a confini definiti
Flussi di lavoro di approvazione per decisioni ad alto impatto
Autonomia progressiva con aumento della fiducia guadagnata

Ambito 4 (Elevata connettività, elevata autonomia):

Full zero trust come descritto da Cisco
Monitoraggio continuo con analisi comportamentale
Intervento umano per azioni irreversibili
Integrazione del rilevamento delle minacce in tempo reale con le piattaforme SIEM

Implementazione delle protezioni runtime

La protezione runtime a più livelli affronta le minacce in ogni fase del funzionamento dell'agente.

Protezioni del livello di input:

Classificatori di iniezione rapida che rilevano modelli di istruzioni dannose
Filtraggio dei contenuti che rimuove payload potenzialmente pericolosi dagli input
Convalida dello schema per garantire che gli input corrispondano ai formati previsti

Protezioni del livello di azione:

Elenchi di strumenti consentiti che limitano gli agenti a set di funzioni approvati
Vincoli di ambito che impediscono l'espansione delle capacità oltre i confini definiti
Limitazione della velocità per impedire l'abuso delle risorse dovuto a chiamate eccessive agli strumenti

Protezioni del livello di uscita:

Rilevamento e mascheramento delle informazioni personali identificabili (PII) per prevenire l'esposizione involontaria dei dati
Filtraggio dei dati sensibili con rimozione delle credenziali e dei token dagli output
Convalida delle risposte per garantire che i risultati non consentano attacchi a valle

Le soluzioni dei fornitori, tra cui NVIDIA NeMo Guardrails, F5 e Straiker, offrono implementazioni commerciali. Le organizzazioni possono anche creare guardrail personalizzati utilizzando framework open source adeguati alle loro esigenze specifiche.

Elenco delle migliori pratiche

I team di sicurezza dovrebbero convalidare questi controlli fondamentali prima di scalare le implementazioni di IA agentica:

Trattare gli agenti AI come identità di prima classe con governance indipendente e gestione del ciclo di vita
Implementare i principi del privilegio minimo e dell'autonomia minima, concedendo solo le autorizzazioni necessarie.
Implementare strumenti di osservabilità prima di aumentare l'autonomia per garantire la visibilità sui modelli di comportamento degli aggressori.
Mantenere l'approvazione umana per azioni irreversibili o ad alto impatto
Creare distinte base software (SBOM) specifiche per l'IA che documentino tutti i componenti dell'agente.
Applicare zero trust comunicazione tra agenti, convalidando ogni interazione
Condurre regolarmente esercitazioni di ricerca delle minacce incentrate su modelli di attacco specifici per agente
Integra il monitoraggio degli agenti con i flussi di lavoro di automazione SOC esistenti
Stabilire procedure formali di dismissione per gli agenti in pensione

Conformità e quadri normativi

Le organizzazioni devono allineare le pratiche di sicurezza dell'IA agentica ai requisiti normativi e agli standard di settore. Il panorama normativo ha subito un'evoluzione significativa alla fine del 2025 con l'introduzione di importanti normative che riguardano specificatamente i sistemi di IA autonomi.

Panorama normativo (gennaio 2026)

Tabella 4: Quadro normativo per l'IA agentica (gennaio 2026)

Regolamento	Data di entrata in vigore	Requisiti fondamentali	Rilevanza
California SB 53 (TFAIA)	Gennaio 1, 2026	Quadri di riferimento per la gestione dei rischi per i grandi sviluppatori di IA; segnalazione degli incidenti entro 15 giorni; protezione degli informatori	Alto
Texas TRAIGA	Gennaio 1, 2026	Vieta i risultati dannosi dell'IA, compreso l'incitamento agli attacchi informatici; sandbox normativo.	Medio
Legge sull'intelligenza artificiale del Colorado (SB 24-205)	Giugno 30, 2026	Valutazioni d'impatto per i sistemi di IA ad alto rischio	Medio
Profilo Cyber AI del NIST	Bozza (dicembre 2025)	Mappatura CSF 2.0 per la governance della sicurezza AI	Alto

Il NIST Cyber AI Profile, pubblicato in bozza preliminare nel dicembre 2025, mappa le aree di interesse della sicurezza dell'IA alle funzioni del Cybersecurity Framework 2.0, tra cui Governare, Identificare, Proteggere, Rilevare, Rispondere e Recuperare. Sebbene non sia normativo, questo framework dovrebbe diventare lo standard de facto per la governance della sicurezza dell'IA.

Il NIST ha inoltre pubblicato nel gennaio 2026 una richiesta di informazioni per raccogliere pareri sulle considerazioni relative alla sicurezza dei sistemi di agenti AI, affrontando in particolare i temi dell'iniezione di prompt, dell'avvelenamento dei dati e degli obiettivi disallineati che hanno un impatto sui sistemi reali.

Riferimenti chiave del quadro normativo:

OWASP Top 10 per le applicazioni agentiche 2026: tassonomia delle minacce standard del settore
MITRE ATLAS: nell'ottobre 2025 sono state aggiunte 14 nuove tecniche incentrate sugli agenti, che ora coprono 66 tecniche e 46 sottotecniche specifiche per i sistemi di IA. Vedi anche la copertura MITRE ATLASVectra AI.
MITRE ATT&CK: le TTP fondamentali degli avversari diventano sempre più rilevanti man mano che gli aggressori sfruttano gli agenti di intelligenza artificiale
ISO/IEC 42001:2023: primo standard di certificazione dei sistemi di gestione dell'intelligenza artificiale

Le organizzazioni dovrebbero allineare i propri programmi di conformità per incorporare questi quadri di riferimento, in particolare le linee guida OWASP e MITRE che forniscono specifiche operative.

Approcci moderni alla sicurezza dell'IA agente

Il panorama dei fornitori di soluzioni di sicurezza basate sull'intelligenza artificiale agente si è ampliato rapidamente, con piattaforme consolidate e startup specializzate che offrono soluzioni. L'approccio identity-first ha acquisito particolare slancio poiché le organizzazioni riconoscono che la sicurezza degli agenti è fondamentalmente una sfida di rilevamento e risposta alle minacce all'identità.

I principali fornitori aziendali, tra cui Palo Alto Networks con Cortex AgentiX, CrowdStrike con Falcon Agentic Security e SentinelOne con Singularity AI SIEM, hanno lanciato funzionalità di sicurezza AI agentiche dedicate. L'acquisizione di SGNL da parte di CrowdStrike per 740 milioni di dollari è specificamente mirata ai controlli di accesso in tempo reale per identità umane, non umane e agenti AI autonomi.

Anche l'architettura di sicurezza a livello di browser è emersa come punto di controllo. Nel dicembre 2025 Google Chrome ha introdotto un'architettura di difesa a più livelli per la navigazione agente Gemini, caratterizzata da un User Alignment Critic (modello di IA isolato che verifica le azioni proposte), Agent Origin Sets (che limita le interazioni ai siti rilevanti per l'attività) e conferme obbligatorie da parte dell'utente per le azioni sensibili.

L'ecosistema delle startup ha attirato investimenti significativi. WitnessAI ha raccolto 58 milioni di dollari per la governance e l'osservabilità dell'IA agentica. Geordie è emersa dall'anonimato con 6,5 milioni di dollari per una piattaforma di sicurezza con agenti IA. Prophet Security ha raccolto 30 milioni di dollari per una piattaforma SOC agentica.

Le organizzazioni che utilizzano l'IA agentica per le operazioni di sicurezza segnalano significativi aumenti di efficienza. I dati del settore indicano una riduzione del 60% dei tempi di triage degli avvisi quando l'IA agentica gestisce l'indagine iniziale e l'arricchimento, liberando gli analisti umani per il processo decisionale complesso.

Come Vectra AI la sicurezza dell'IA agentica

Vectra AI la sicurezza dell'IA agentica attraverso la lente Attack Signal Intelligence, riconoscendo che, con la proliferazione degli agenti IA nelle reti aziendali, questi diventano sia potenziali vettori di attacco che risorse preziose che richiedono protezione.

La filosofia del "presupporre il compromesso" si estende naturalmente ai sistemi agentici. Anziché cercare di prevenire tutti gli abusi degli agenti solo attraverso controlli perimetrali, le organizzazioni devono concentrarsi sul rilevamento rapido di comportamenti anomali degli agenti, invocazioni non autorizzate di strumenti e modelli di abuso di identità.

Ciò richiede un'osservabilità unificata su tutta la superficie di attacco moderna, comprese le comunicazioni degli agenti AI, le chiamate degli strumenti e le azioni relative alle identità. Le capacità di rilevamento e risposta della rete devono evolversi per distinguere le operazioni autonome legittime dalle manipolazioni degli aggressori. Le soluzioni ITDR devono estendersi fino a coprire le identità non umane e i modelli di abuso dei privilegi specifici degli agenti.

L'obiettivo non è quello di bloccare l'adozione dell'IA, ma di consentirne un'implementazione sicura su larga scala, fornendo ai team di sicurezza la visibilità e la chiarezza dei segnali necessarie per operare con sicurezza in un ambiente agentico.

Nozioni fondamentali relative alla sicurezza informatica

Domande frequenti

Che cos'è la sicurezza AI agentica?

La sicurezza dell'IA agentica è la protezione degli agenti IA in grado di pianificare, agire e prendere decisioni in modo autonomo. A differenza della sicurezza dell'IA tradizionale incentrata sull'integrità del modello, la sicurezza dell'IA agentica affronta la superficie di attacco ampliata che si crea quando i sistemi di IA possono accedere in modo indipendente agli strumenti, comunicare con l'esterno e intraprendere azioni con conseguenze nel mondo reale. Questa disciplina comprende la modellazione delle minacce specifiche per i sistemi autonomi, i meccanismi di protezione runtime, la governance dell'identità per gli agenti IA e il rilevamento di comportamenti anomali degli agenti che potrebbero indicare compromissione o manipolazione.

Quali sono i principali rischi dei sistemi di IA agentica?

La classifica OWASP Top 10 per le applicazioni agentiche 2026 identifica i rischi principali come Agent Goal Hijack (ASI01), Tool Misuse (ASI02), Identity and Privilege Abuse (ASI03), Memory Poisoning (ASI04) e Supply Chain (ASI06) tra i più critici. Questi rischi si aggravano quando gli agenti presentano le condizioni della Lethal Trifecta, ovvero l'accesso a dati sensibili combinato con l'esposizione a contenuti non attendibili e la capacità di comunicazione esterna. Lo sfruttamento di questi rischi nel mondo reale ha prodotto CVE critici con punteggi CVSS superiori a 9,0 nelle principali piattaforme aziendali.

In che modo l'IA agentica differisce dall'IA generativa?

L'IA generativa crea contenuti quali testi, immagini e codici, ma in genere opera secondo un modello richiesta-risposta con supervisione umana per ogni interazione. L'IA agenziale pianifica ed esegue autonomamente attività in più fasi, utilizza strumenti per interagire con sistemi esterni, mantiene la memoria tra una sessione e l'altra e può intraprendere azioni nel mondo reale senza l'intervento umano. Questa autonomia crea rischi per la sicurezza che vanno oltre l'iniezione di prompt e includono l'uso improprio degli strumenti, il dirottamento degli obiettivi e l'abuso di identità. Mentre la sicurezza dell'IA generativa si concentra principalmente sulla sicurezza dell'output, la sicurezza dell'IA agenziale deve affrontare l'intero ecosistema degli agenti.

Qual è la tripletta letale nella sicurezza dell'IA?

Il Lethal Trifecta, coniato da Simon Willison e descritto in dettaglio da Martin Fowler, descrive tre fattori che, se presenti contemporaneamente, creano un grave rischio cumulativo. Il primo fattore è l'accesso a dati sensibili quali credenziali, token e documenti riservati. Il secondo è l'esposizione a contenuti non attendibili provenienti da pagine web, e-mail, input degli utenti o API esterne. Il terzo è la capacità di comunicare con l'esterno tramite e-mail, messaggistica o chiamate API. I team di sicurezza dovrebbero valutare ogni implementazione di agenti in base a questi criteri e implementare controlli proporzionali al profilo di rischio creato dalla combinazione presente.

Come si implementano le misure di sicurezza per gli agenti di IA?

Implementare misure di protezione a più livelli che coprano ogni fase dell'operatività dell'agente. A livello di input, implementare classificatori di prompt injection e filtri dei contenuti per rilevare e rimuovere istruzioni dannose. A livello di azione, implementare elenchi di strumenti consentiti, vincoli di ambito e limitazioni di frequenza per impedire azioni non autorizzate o eccessive. A livello di output, utilizzare il rilevamento delle informazioni personali identificabili (PII), il mascheramento dei dati sensibili e la convalida delle risposte. Implementare strumenti di osservabilità prima di scalare l'autonomia, mantenere l'approvazione umana per le azioni irreversibili e integrare il monitoraggio degli agenti con i flussi di lavoro SOC esistenti. Iniziare con implementazioni a bassa autonomia e procedere solo dopo aver dimostrato la maturità della sicurezza.

Che cos'è un'identità non umana nell'IA agente?

Le identità non umane (NHI) sono identità digitali assegnate ad agenti AI, account di servizio, bot e processi automatizzati anziché a utenti umani. Con un rapporto NHI/umani di 50:1 nelle aziende odierne, gli agenti AI rappresentano una categoria di NHI in rapida crescita che richiede una governance della sicurezza dedicata. Una governance efficace richiede che gli agenti AI siano trattati come identità di prima classe con gestione indipendente del ciclo di vita, accesso con privilegi minimi, autorizzazione just-in-time e monitoraggio continuo del comportamento, piuttosto che limitarsi a ereditare le autorizzazioni degli utenti o mantenere i privilegi permanenti.

Quali sono i quadri normativi applicabili all'IA agentica?

I principali quadri di riferimento includono l'OWASP Top 10 for Agentic Applications 2026 (pubblicato nel dicembre 2025), il MITRE ATLAS con 14 nuove tecniche incentrate sugli agenti aggiunte nell'ottobre 2025, la bozza del NIST Cyber AI Profile pubblicata nel dicembre 2025 e la norma ISO/IEC 42001:2023 come primo standard di certificazione dei sistemi di gestione dell'IA. I requisiti normativi includono l'EU AI Act per la classificazione dell'IA ad alto rischio, il California SB 53 in vigore dal gennaio 2026 che richiede quadri di riferimento per il rischio per i grandi sviluppatori di IA e il Texas TRAIGA che vieta i risultati dannosi dell'IA. Le organizzazioni dovrebbero mappare i propri controlli di sicurezza dell'IA agentica su questi quadri di riferimento come parte del loro programma di conformità generale.