Il primo attacco informatico orchestrato dall'intelligenza artificiale documentato risale al settembre 2025, quando un gruppo sponsorizzato dallo Stato cinese ha manipolato Claude Code per infiltrarsi in circa 30 obiettivi globali tra istituzioni finanziarie, agenzie governative e aziende chimiche. Non si è trattato di un esercizio teorico. Secondo quanto rivelato da Anthropic, gli aggressori hanno dimostrato che gli agenti autonomi di intelligenza artificiale possono essere utilizzati come armi su larga scala senza un intervento umano sostanziale. Ciò rappresenta una nuova categoria di minacce persistenti avanzate contro cui i team di sicurezza devono prepararsi a difendersi. Per i team di sicurezza, il messaggio è chiaro: la sicurezza dell'intelligenza artificiale agente è passata da preoccupazione emergente a imperativo operativo.
La posta in gioco è notevole. Gartner prevede che entro la fine del 2026 il 40% delle applicazioni aziendali integrerà agenti AI specifici per determinate attività, rispetto a meno del 5% nel 2025. Tuttavia, l'80% dei professionisti IT ha già assistito ad azioni non autorizzate o impreviste da parte di agenti AI. Il divario tra la velocità di adozione e la maturità della sicurezza crea una superficie di attacco che gli avversari stanno attivamente sfruttando.
Questa guida offre ai professionisti della sicurezza una comprensione completa delle minacce poste dall'intelligenza artificiale agente, dei modelli di valutazione e delle linee guida pratiche per l'implementazione volte a proteggere i sistemi autonomi.
La sicurezza dell'IA agentica è la disciplina che si occupa di proteggere i sistemi di IA in grado di ragionare, pianificare ed eseguire autonomamente attività in più fasi utilizzando strumenti e risorse esterne. A differenza dei modelli di IA tradizionali che rispondono alle richieste entro limiti definiti, i sistemi di IA agentica possono intraprendere azioni con conseguenze nel mondo reale, tra cui l'invio di e-mail, l'esecuzione di codice, la modifica di database e l'effettuazione di chiamate API. Questa autonomia crea sfide di sicurezza fondamentalmente diverse dalla protezione di modelli statici o chatbot.
La sfida principale in materia di sicurezza consiste nel trovare un equilibrio tra autonomia e controllo, mantenendo al contempo i confini della fiducia. Quando un agente AI è in grado di decidere autonomamente di accedere a un database, redigere un documento e inviarlo via e-mail a una parte esterna, la tradizionale convalida input-output diventa insufficiente. I team di sicurezza devono prendere in considerazione l'intero ecosistema dell'agente, inclusi strumenti, memoria, logica di orchestrazione e autorizzazioni di identità.
Perché è importante adesso? La rapida diffusione di questa tecnologia significa che la maggior parte delle aziende utilizzerà più agenti di IA entro 18 mesi. Le organizzazioni che non riescono a stabilire basi di sicurezza adesso dovranno affrontare rischi crescenti man mano che l'implementazione degli agenti si estenderà a tutte le funzioni aziendali.
Le differenze fondamentali tra la sicurezza dei sistemi di IA tradizionali e quella dei sistemi di IA agentica derivano dall'architettura e dalle capacità.
La sicurezza tradizionale basata sull'intelligenza artificiale si concentra sull'integrità dei modelli, sulla protezione dei dati di addestramento e sugli attacchi in fase di inferenza. La superficie di attacco è relativamente limitata. Si inseriscono i dati e si ottengono i risultati. I controlli di sicurezza si concentrano sull'impedire che input ostili manipolino le previsioni dei modelli e sul garantire che le pipeline di addestramento rimangano intatte.
L'IA agentica amplia notevolmente la superficie di attacco. Questi sistemi sono caratterizzati dall'uso dinamico di strumenti, catene di ragionamento in più fasi, comunicazioni esterne e memoria persistente tra le sessioni, seguendo modelli simili alla catena di attacco informatico. Un aggressore non ha bisogno di compromettere il modello sottostante. La manipolazione di qualsiasi componente nell'ecosistema dell'agente può reindirizzare il comportamento verso risultati dannosi.
Tabella 1: Confronto tra considerazioni sulla sicurezza dell'IA tradizionale e dell'IA agentica
Le implicazioni in termini di sicurezza sono significative. I tradizionali controlli di sicurezza dell'IA incentrati sul livello del modello sono necessari ma insufficienti per i sistemi agentici. I team di sicurezza devono estendere la visibilità e il controllo all'intera architettura degli agenti.
Comprendere l'architettura dei sistemi di IA agentica rivela dove devono essere applicati i controlli di sicurezza. I moderni agenti di IA combinano quattro componenti primari che creano la superficie di attacco operativa.
Componenti dell'architettura dell'agente:
Ogni livello presenta vulnerabilità distinte. Gli aggressori prendono di mira qualsiasi componente offra il percorso di minor resistenza al loro obiettivo.
Il ricercatore di sicurezza Simon Willison ha identificato tre fattori che, se combinati, creano un rischio grave, un quadro descritto in dettaglio da Martin Fowler nella sua analisi tecnica. Comprendere questo quadro aiuta i team di sicurezza a identificare quali distribuzioni di agenti richiedono i controlli più rigorosi.
La Lethal Trifecta è composta da:
Quando tutte e tre le condizioni sono presenti contemporaneamente, il rischio aumenta notevolmente. Un agente che ha accesso alle credenziali, elabora allegati e-mail non attendibili e può inviare comunicazioni esterne crea un percorso per l'esfiltrazione dei dati, il furto delle credenziali e la compromissione della catena di fornitura.
Non tutte le distribuzioni di agenti presentano tutte e tre le caratteristiche. I team di sicurezza dovrebbero valutare ogni distribuzione in base a questi criteri e implementare controlli proporzionali al profilo di rischio.
Gli aggressori sfruttano diversi livelli a seconda dei loro obiettivi e della configurazione dell'agente.
Attacchi al livello del modello:
Attacchi a livello di tool:
Attacchi al livello di memoria:
Attacchi al livello di orchestrazione:
La matrice di definizione dell'ambito di sicurezza dell'IA agente di AWS fornisce un quadro di riferimento per classificare le implementazioni degli agenti in base a due dimensioni: connettività (bassa o alta) e autonomia (bassa o alta). Ciò crea quattro ambiti, ciascuno dei quali richiede un diverso livello di controllo della sicurezza.
Panoramica della matrice di definizione dell'ambito AWS:
Le organizzazioni dovrebbero iniziare le implementazioni nell'ambito 1 o 2 e passare ad ambiti più elevati solo dopo aver dimostrato la maturità della sicurezza. La matrice di definizione dell'ambito è citata da OWASP, CoSAI e diversi organismi di normazione del settore come quadro di riferimento fondamentale.
Il protocollo Model Context Protocol (MCP), introdotto da Anthropic, fornisce un'interfaccia standardizzata per la comunicazione tra agenti e strumenti. Sebbene MCP migliori l'interoperabilità, crea anche nuovi vettori di attacco. I team di sicurezza devono verificare l'integrità del server MCP e monitorare i movimenti laterali tra agenti e strumenti collegati.
La classifica OWASP Top 10 for Agentic Applications 2026, pubblicata nel dicembre 2025, stabilisce la tassonomia delle minacce standard del settore per i sistemi di IA agentica. Sviluppato con il contributo di oltre 100 ricercatori nel campo della sicurezza e citato da Microsoft, NVIDIA, AWS e GoDaddy, questo framework fornisce una classificazione autorevole dei rischi per la sicurezza dell'IA agentica.
La classifica completa OWASP Top 10 per le applicazioni agentiche identifica le seguenti categorie di rischio:
Tabella 2: OWASP Top 10 per le applicazioni agentiche 2026
Ogni team di sicurezza che gestisce sistemi di IA agentica dovrebbe mappare le proprie implementazioni in base a queste categorie di rischio e implementare controlli adeguati.
L'iniezione di prompt rappresenta una minaccia particolarmente pericolosa nei contesti agentici perché gli agenti possono agire sulla base di istruzioni manipolate.
L'iniezione diretta immediata comporta l'inserimento di istruzioni dannose direttamente nell'input dell'utente. Un aggressore potrebbe creare un input che sovrascriva le istruzioni originali dell'agente con nuovi obiettivi.
L'iniezione indiretta è più insidiosa. Gli aggressori incorporano istruzioni nascoste nei contenuti recuperati dall'agente. Documenti, e-mail, pagine web e record di database possono tutti contenere payload che si attivano quando l'agente li elabora.
I prompt di secondo ordine sfruttano architetture multi-agente. Negli attacchi documentati contro ServiceNow Now Assist, gli aggressori hanno incorporato istruzioni dannose in campi di dati che apparivano innocui all'agente di elaborazione iniziale, ma che si attivavano quando venivano trasmessi a un agente con privilegi superiori per l'esecuzione.
OpenAI ha dichiarato nel dicembre 2025 che il prompt injection potrebbe non essere mai risolto completamente a livello architetturale. Questa ammissione da parte di uno dei principali sviluppatori di IA rafforza la necessità di difese a più livelli piuttosto che affidarsi a un unico controllo.
Una meta-analisi di 78 studi ha rilevato che gli attacchi di iniezione adattiva rapida raggiungono tassi di successo superiori all'85%. Anche Claude Opus 4.5, progettato con misure di sicurezza avanzate, ha mostrato tassi di successo superiori al 30% contro attacchi mirati secondo i test di Anthropic.
Implicazioni pratiche: le organizzazioni non possono fare affidamento esclusivamente sulle difese a livello di modello. Le protezioni runtime, la convalida dell'output e il monitoraggio comportamentale sono complementi essenziali. L'iniezione indiretta di prompt può consentire il phishing su larga scala, estraendo credenziali o dati sensibili attraverso interazioni apparentemente legittime con gli agenti.
Il memory poisoning rappresenta una minaccia emergente specifica dei sistemi agentici che mantengono lo stato tra una sessione e l'altra.
Il meccanismo di attacco consiste nel corrompere la memoria persistente di un agente con informazioni false o dannose. Poiché gli agenti considerano autorevole il contesto memorizzato, le memorie compromesse influenzano le decisioni future senza richiedere ripetuti tentativi di sfruttamento.
Una ricerca condotta da Galileo AI e pubblicata nel dicembre 2025 ha dimostrato che l'87% delle decisioni a valle è stato compromesso entro quattro ore dall'avvelenamento iniziale della memoria. L'effetto a cascata significa che un singolo evento di avvelenamento riuscito può influenzare centinaia di interazioni successive dell'agente.
L'incidente di esfiltrazione dei dati dell'IA di Slack dell'agosto 2024 ha dimostrato nella pratica il fenomeno del memory poisoning. I ricercatori hanno incorporato istruzioni indirette di prompt injection nei canali privati di Slack. Quando l'assistente IA di Slack ha elaborato questi canali, ha iniziato a esfiltrare i riassunti delle conversazioni verso destinazioni controllate dagli aggressori. Si tratta di una forma di minaccia interna abilitata dall'IA, in cui l'agente diventa un complice inconsapevole del furto di dati.
Per mitigare il memory poisoning è necessario isolare la memoria tra i domini di fiducia, verificare l'integrità del contesto memorizzato e monitorare il comportamento per rilevare modelli decisionali anomali che suggeriscono una compromissione della memoria.
La superficie di attacco in più rapida crescita nella sicurezza aziendale è rappresentata dalle identità non umane (NHI). Secondo un'analisi del World Economic Forum, le NHI superano le identità umane con un rapporto di 50:1 nelle aziende odierne, con proiezioni che raggiungono 80:1 entro due anni. Gli agenti AI rappresentano una nuova categoria di NHI che richiede una governance della sicurezza dedicata.
I dati del settore indicano che il 97% delle violazioni dei dati relative all'IA deriva da una gestione inadeguata degli accessi. L'acquisizione di SGNL da parte di CrowdStrike per 740 milioni di dollari nel gennaio 2026 segnala che i principali fornitori di soluzioni di sicurezza riconoscono l'IA agentica come un problema fondamentalmente legato all'identità.
Gli approcci tradizionali che assegnano le autorizzazioni agli agenti in base all'utente che li invoca creano un'eccessiva esposizione dei privilegi. Un agente che svolge attività di ricerca non ha bisogno dello stesso accesso di uno che elabora transazioni finanziarie, anche se entrambi sono invocati dallo stesso utente.
Una governance efficace dell'NHI per gli agenti AI richiede che questi ultimi siano trattati come identità di prima classe con una gestione indipendente del ciclo di vita.
Fasi del ciclo di vita dell'identità:
Principi di governance:
Il problema degli agenti zombie merita particolare attenzione. Gli agenti creati per esperimenti o prove di concetto spesso rimangono attivi anche dopo la conclusione dei progetti. Questi agenti mantengono il loro accesso, consumano risorse ed espandono la superficie di attacco senza alcun proprietario o supervisione. Procedure formali di disattivazione devono essere parte integrante del ciclo di vita di ogni agente.
Il panorama delle minacce per l'IA agente è passato da teorico a operativo. Sono state scoperte vulnerabilità critiche con punteggi CVSS superiori a 9,0 nelle principali piattaforme aziendali, molte delle quali sono state attivamente sfruttate.
Tabella 3: Vulnerabilità critiche nei sistemi di IA agentica (2025-2026)
ServiceNow BodySnatcher (CVE-2025-12420)
La vulnerabilità BodySnatcher scoperta nella piattaforma AI di ServiceNow consentiva agli aggressori non autenticati di impersonare qualsiasi utente, compresi gli amministratori, utilizzando solo un indirizzo e-mail. L'exploit sfruttava un segreto di autenticazione hardcoded e un collegamento permissivo degli account per aggirare MFA e SSO, consentendo agli aggressori di richiamare flussi di lavoro AI e creare account backdoor con privilegi elevati. Le organizzazioni che utilizzano versioni API Virtual Agent interessate dovrebbero verificare immediatamente lo stato delle patch.
Catena di vulnerabilità Langflow (CVE-2025-34291)
Langflow, un popolare framework open source per agenti AI, conteneva una catena di vulnerabilità critica che consentiva il controllo completo dell'account e l'esecuzione di codice remoto. Impostazioni CORS eccessivamente permissive, combinate con la mancanza di protezione CSRF e un endpoint di convalida del codice non sicuro, endpoint il percorso di attacco. Tutti i token di accesso e le chiavi API memorizzati sono stati esposti, consentendo una compromissione a cascata dei servizi integrati a valle. La botnet Flodric sfrutta attivamente questa vulnerabilità.
Microsoft Copilot EchoLeak (CVE-2025-32711)
La vulnerabilità EchoLeak rappresenta il primo attacco zero-click documentato contro un agente AI. Gli aggressori incorporano prompt dannosi in testo nascosto, note dell'oratore, metadati o commenti all'interno di documenti Word, PowerPoint o Outlook. Quando le vittime interagiscono con Copilot, i dati sensibili dell'organizzazione, inclusi e-mail, file OneDrive, contenuti SharePoint e messaggi Teams, vengono sottratti tramite parametri URL delle immagini senza che l'utente ne sia consapevole o interagisca.
Primo attacco informatico orchestrato dall'intelligenza artificiale
Nel settembre 2025, Anthropic ha reso noto il primo attacco informatico su larga scala documentato eseguito da un agente di intelligenza artificiale senza un intervento umano significativo. Un gruppo sponsorizzato dallo Stato cinese ha manipolato Claude Code per condurre ricognizioni, selezionare obiettivi ed eseguire tentativi di intrusione in circa 30 organizzazioni nei settori dei servizi finanziari, della pubblica amministrazione e delle infrastrutture critiche.
Supply Chain PhantomRaven
Koi Security ha scoperto 126 pacchetti npm dannosi utilizzando una nuova tecnica denominata Remote Dynamic Dependencies. I pacchetti apparivano vuoti e innocui nel registro, ma solo dopo l'installazione scaricavano payload dannosi dai server degli aggressori. Utilizzando nomi generati dall'intelligenza artificiale attraverso una tecnica chiamata slopsquatting, questi pacchetti hanno raggiunto oltre 86.000 download prima di essere rilevati, sottraendo token npm, cloud e chiavi SSH.
Questi incidenti richiedono solide capacità di risposta agli incidenti che tengano specificamente conto dei vettori degli agenti AI. I team di sicurezza dovrebbero aggiornare i playbook per includere procedure di indagine specifiche per gli agenti.
Il framework MIT Sloan Three Essentials fornisce un approccio strutturato alla sicurezza dell'IA agentica. Le organizzazioni devono implementare una modellazione completa delle minacce, test di sicurezza continui e protezioni runtime che funzionino in modo coordinato.
Solo il 21% dei responsabili della sicurezza dichiara di avere una visibilità completa sulle operazioni degli agenti AI. Meno del 40% effettua regolarmente test di sicurezza AI. Questa mancanza di visibilità rappresenta sia un rischio che un'opportunità per i team di sicurezza di differenziare le loro organizzazioni attraverso migliori capacità di rilevamento delle minacce.
Adeguare i controlli alla complessità dell'architettura garantisce una protezione proporzionata senza ostacolare le operazioni legittime.
Ambito 1 (Bassa connettività, bassa autonomia):
Ambito 2 (Elevata connettività, bassa autonomia):
Ambito 3 (Bassa connettività, elevata autonomia):
Ambito 4 (Elevata connettività, elevata autonomia):
La protezione runtime a più livelli affronta le minacce in ogni fase del funzionamento dell'agente.
Protezioni del livello di input:
Protezioni del livello di azione:
Protezioni del livello di uscita:
Le soluzioni dei fornitori, tra cui NVIDIA NeMo Guardrails, F5 e Straiker, offrono implementazioni commerciali. Le organizzazioni possono anche creare guardrail personalizzati utilizzando framework open source adeguati alle loro esigenze specifiche.
I team di sicurezza dovrebbero convalidare questi controlli fondamentali prima di scalare le implementazioni di IA agentica:
Le organizzazioni devono allineare le pratiche di sicurezza dell'IA agentica ai requisiti normativi e agli standard di settore. Il panorama normativo ha subito un'evoluzione significativa alla fine del 2025 con l'introduzione di importanti normative che riguardano specificatamente i sistemi di IA autonomi.
Tabella 4: Quadro normativo per l'IA agentica (gennaio 2026)
Il NIST Cyber AI Profile, pubblicato in bozza preliminare nel dicembre 2025, mappa le aree di interesse della sicurezza dell'IA alle funzioni del Cybersecurity Framework 2.0, tra cui Governare, Identificare, Proteggere, Rilevare, Rispondere e Recuperare. Sebbene non sia normativo, questo framework dovrebbe diventare lo standard de facto per la governance della sicurezza dell'IA.
Il NIST ha inoltre pubblicato nel gennaio 2026 una richiesta di informazioni per raccogliere pareri sulle considerazioni relative alla sicurezza dei sistemi di agenti AI, affrontando in particolare i temi dell'iniezione di prompt, dell'avvelenamento dei dati e degli obiettivi disallineati che hanno un impatto sui sistemi reali.
Riferimenti chiave del quadro normativo:
Le organizzazioni dovrebbero allineare i propri programmi di conformità per incorporare questi quadri di riferimento, in particolare le linee guida OWASP e MITRE che forniscono specifiche operative.
Il panorama dei fornitori di soluzioni di sicurezza basate sull'intelligenza artificiale agente si è ampliato rapidamente, con piattaforme consolidate e startup specializzate che offrono soluzioni. L'approccio identity-first ha acquisito particolare slancio poiché le organizzazioni riconoscono che la sicurezza degli agenti è fondamentalmente una sfida di rilevamento e risposta alle minacce all'identità.
I principali fornitori aziendali, tra cui Palo Alto Networks con Cortex AgentiX, CrowdStrike con Falcon Agentic Security e SentinelOne con Singularity AI SIEM, hanno lanciato funzionalità di sicurezza AI agentiche dedicate. L'acquisizione di SGNL da parte di CrowdStrike per 740 milioni di dollari è specificamente mirata ai controlli di accesso in tempo reale per identità umane, non umane e agenti AI autonomi.
Anche l'architettura di sicurezza a livello di browser è emersa come punto di controllo. Nel dicembre 2025 Google Chrome ha introdotto un'architettura di difesa a più livelli per la navigazione agente Gemini, caratterizzata da un User Alignment Critic (modello di IA isolato che verifica le azioni proposte), Agent Origin Sets (che limita le interazioni ai siti rilevanti per l'attività) e conferme obbligatorie da parte dell'utente per le azioni sensibili.
L'ecosistema delle startup ha attirato investimenti significativi. WitnessAI ha raccolto 58 milioni di dollari per la governance e l'osservabilità dell'IA agentica. Geordie è emersa dall'anonimato con 6,5 milioni di dollari per una piattaforma di sicurezza con agenti IA. Prophet Security ha raccolto 30 milioni di dollari per una piattaforma SOC agentica.
Le organizzazioni che utilizzano l'IA agentica per le operazioni di sicurezza segnalano significativi aumenti di efficienza. I dati del settore indicano una riduzione del 60% dei tempi di triage degli avvisi quando l'IA agentica gestisce l'indagine iniziale e l'arricchimento, liberando gli analisti umani per il processo decisionale complesso.
Vectra AI la sicurezza dell'IA agentica attraverso la lente Attack Signal Intelligence, riconoscendo che, con la proliferazione degli agenti IA nelle reti aziendali, questi diventano sia potenziali vettori di attacco che risorse preziose che richiedono protezione.
La filosofia del "presupporre il compromesso" si estende naturalmente ai sistemi agentici. Anziché cercare di prevenire tutti gli abusi degli agenti solo attraverso controlli perimetrali, le organizzazioni devono concentrarsi sul rilevamento rapido di comportamenti anomali degli agenti, invocazioni non autorizzate di strumenti e modelli di abuso di identità.
Ciò richiede un'osservabilità unificata su tutta la superficie di attacco moderna, comprese le comunicazioni degli agenti AI, le chiamate degli strumenti e le azioni relative alle identità. Le capacità di rilevamento e risposta della rete devono evolversi per distinguere le operazioni autonome legittime dalle manipolazioni degli aggressori. Le soluzioni ITDR devono estendersi fino a coprire le identità non umane e i modelli di abuso dei privilegi specifici degli agenti.
L'obiettivo non è quello di bloccare l'adozione dell'IA, ma di consentirne un'implementazione sicura su larga scala, fornendo ai team di sicurezza la visibilità e la chiarezza dei segnali necessarie per operare con sicurezza in un ambiente agentico.
La sicurezza dell'IA agentica è la protezione degli agenti IA in grado di pianificare, agire e prendere decisioni in modo autonomo. A differenza della sicurezza dell'IA tradizionale incentrata sull'integrità del modello, la sicurezza dell'IA agentica affronta la superficie di attacco ampliata che si crea quando i sistemi di IA possono accedere in modo indipendente agli strumenti, comunicare con l'esterno e intraprendere azioni con conseguenze nel mondo reale. Questa disciplina comprende la modellazione delle minacce specifiche per i sistemi autonomi, i meccanismi di protezione runtime, la governance dell'identità per gli agenti IA e il rilevamento di comportamenti anomali degli agenti che potrebbero indicare compromissione o manipolazione.
La classifica OWASP Top 10 per le applicazioni agentiche 2026 identifica i rischi principali come Agent Goal Hijack (ASI01), Tool Misuse (ASI02), Identity and Privilege Abuse (ASI03), Memory Poisoning (ASI04) e Supply Chain (ASI06) tra i più critici. Questi rischi si aggravano quando gli agenti presentano le condizioni della Lethal Trifecta, ovvero l'accesso a dati sensibili combinato con l'esposizione a contenuti non attendibili e la capacità di comunicazione esterna. Lo sfruttamento di questi rischi nel mondo reale ha prodotto CVE critici con punteggi CVSS superiori a 9,0 nelle principali piattaforme aziendali.
L'IA generativa crea contenuti quali testi, immagini e codici, ma in genere opera secondo un modello richiesta-risposta con supervisione umana per ogni interazione. L'IA agenziale pianifica ed esegue autonomamente attività in più fasi, utilizza strumenti per interagire con sistemi esterni, mantiene la memoria tra una sessione e l'altra e può intraprendere azioni nel mondo reale senza l'intervento umano. Questa autonomia crea rischi per la sicurezza che vanno oltre l'iniezione di prompt e includono l'uso improprio degli strumenti, il dirottamento degli obiettivi e l'abuso di identità. Mentre la sicurezza dell'IA generativa si concentra principalmente sulla sicurezza dell'output, la sicurezza dell'IA agenziale deve affrontare l'intero ecosistema degli agenti.
Il Lethal Trifecta, coniato da Simon Willison e descritto in dettaglio da Martin Fowler, descrive tre fattori che, se presenti contemporaneamente, creano un grave rischio cumulativo. Il primo fattore è l'accesso a dati sensibili quali credenziali, token e documenti riservati. Il secondo è l'esposizione a contenuti non attendibili provenienti da pagine web, e-mail, input degli utenti o API esterne. Il terzo è la capacità di comunicare con l'esterno tramite e-mail, messaggistica o chiamate API. I team di sicurezza dovrebbero valutare ogni implementazione di agenti in base a questi criteri e implementare controlli proporzionali al profilo di rischio creato dalla combinazione presente.
Implementare misure di protezione a più livelli che coprano ogni fase dell'operatività dell'agente. A livello di input, implementare classificatori di prompt injection e filtri dei contenuti per rilevare e rimuovere istruzioni dannose. A livello di azione, implementare elenchi di strumenti consentiti, vincoli di ambito e limitazioni di frequenza per impedire azioni non autorizzate o eccessive. A livello di output, utilizzare il rilevamento delle informazioni personali identificabili (PII), il mascheramento dei dati sensibili e la convalida delle risposte. Implementare strumenti di osservabilità prima di scalare l'autonomia, mantenere l'approvazione umana per le azioni irreversibili e integrare il monitoraggio degli agenti con i flussi di lavoro SOC esistenti. Iniziare con implementazioni a bassa autonomia e procedere solo dopo aver dimostrato la maturità della sicurezza.
Le identità non umane (NHI) sono identità digitali assegnate ad agenti AI, account di servizio, bot e processi automatizzati anziché a utenti umani. Con un rapporto NHI/umani di 50:1 nelle aziende odierne, gli agenti AI rappresentano una categoria di NHI in rapida crescita che richiede una governance della sicurezza dedicata. Una governance efficace richiede che gli agenti AI siano trattati come identità di prima classe con gestione indipendente del ciclo di vita, accesso con privilegi minimi, autorizzazione just-in-time e monitoraggio continuo del comportamento, piuttosto che limitarsi a ereditare le autorizzazioni degli utenti o mantenere i privilegi permanenti.
I principali quadri di riferimento includono l'OWASP Top 10 for Agentic Applications 2026 (pubblicato nel dicembre 2025), il MITRE ATLAS con 14 nuove tecniche incentrate sugli agenti aggiunte nell'ottobre 2025, la bozza del NIST Cyber AI Profile pubblicata nel dicembre 2025 e la norma ISO/IEC 42001:2023 come primo standard di certificazione dei sistemi di gestione dell'IA. I requisiti normativi includono l'EU AI Act per la classificazione dell'IA ad alto rischio, il California SB 53 in vigore dal gennaio 2026 che richiede quadri di riferimento per il rischio per i grandi sviluppatori di IA e il Texas TRAIGA che vieta i risultati dannosi dell'IA. Le organizzazioni dovrebbero mappare i propri controlli di sicurezza dell'IA agentica su questi quadri di riferimento come parte del loro programma di conformità generale.