Spiegazione della sicurezza dell'IA agentica: protezione dei sistemi autonomi dalle minacce emergenti

Approfondimenti chiave

  • La sicurezza dell'IA agentica protegge i sistemi autonomi in grado di pianificare e agire in modo indipendente, richiedendo controlli che vanno oltre i tradizionali approcci di sicurezza dell'IA/ML.
  • La classifica OWASP Top 10 per le applicazioni agentiche 2026 stabilisce categorie di minacce standard del settore, tra cui il dirottamento degli obiettivi, l'uso improprio degli strumenti e l'abuso di identità.
  • Il modello Lethal Trifecta identifica quando emergono rischi composti: accesso a dati sensibili combinato con esposizione a contenuti non affidabili e capacità di comunicazione esterna.
  • Oggi nelle aziende le identità non umane (NHI) superano quelle umane in un rapporto di 50:1, rendendo la governance delle identità degli agenti AI una priorità fondamentale per la sicurezza.
  • Gli attacchi reali hanno prodotto CVE critici con punteggi CVSS compresi tra 9,3 e 9,4 nelle piattaforme ServiceNow, Langflow e Microsoft Copilot nel periodo 2025-2026.

Il primo attacco informatico orchestrato dall'intelligenza artificiale documentato risale al settembre 2025, quando un gruppo sponsorizzato dallo Stato cinese ha manipolato Claude Code per infiltrarsi in circa 30 obiettivi globali tra istituzioni finanziarie, agenzie governative e aziende chimiche. Non si è trattato di un esercizio teorico. Secondo quanto rivelato da Anthropic, gli aggressori hanno dimostrato che gli agenti autonomi di intelligenza artificiale possono essere utilizzati come armi su larga scala senza un intervento umano sostanziale. Ciò rappresenta una nuova categoria di minacce persistenti avanzate contro cui i team di sicurezza devono prepararsi a difendersi. Per i team di sicurezza, il messaggio è chiaro: la sicurezza dell'intelligenza artificiale agente è passata da preoccupazione emergente a imperativo operativo.

La posta in gioco è notevole. Gartner prevede che entro la fine del 2026 il 40% delle applicazioni aziendali integrerà agenti AI specifici per determinate attività, rispetto a meno del 5% nel 2025. Tuttavia, l'80% dei professionisti IT ha già assistito ad azioni non autorizzate o impreviste da parte di agenti AI. Il divario tra la velocità di adozione e la maturità della sicurezza crea una superficie di attacco che gli avversari stanno attivamente sfruttando.

Questa guida offre ai professionisti della sicurezza una comprensione completa delle minacce poste dall'intelligenza artificiale agente, dei modelli di valutazione e delle linee guida pratiche per l'implementazione volte a proteggere i sistemi autonomi.

Che cos'è la sicurezza AI agentica?

La sicurezza dell'IA agentica è la disciplina che si occupa di proteggere i sistemi di IA in grado di ragionare, pianificare ed eseguire autonomamente attività in più fasi utilizzando strumenti e risorse esterne. A differenza dei modelli di IA tradizionali che rispondono alle richieste entro limiti definiti, i sistemi di IA agentica possono intraprendere azioni con conseguenze nel mondo reale, tra cui l'invio di e-mail, l'esecuzione di codice, la modifica di database e l'effettuazione di chiamate API. Questa autonomia crea sfide di sicurezza fondamentalmente diverse dalla protezione di modelli statici o chatbot.

La sfida principale in materia di sicurezza consiste nel trovare un equilibrio tra autonomia e controllo, mantenendo al contempo i confini della fiducia. Quando un agente AI è in grado di decidere autonomamente di accedere a un database, redigere un documento e inviarlo via e-mail a una parte esterna, la tradizionale convalida input-output diventa insufficiente. I team di sicurezza devono prendere in considerazione l'intero ecosistema dell'agente, inclusi strumenti, memoria, logica di orchestrazione e autorizzazioni di identità.

Perché è importante adesso? La rapida diffusione di questa tecnologia significa che la maggior parte delle aziende utilizzerà più agenti di IA entro 18 mesi. Le organizzazioni che non riescono a stabilire basi di sicurezza adesso dovranno affrontare rischi crescenti man mano che l'implementazione degli agenti si estenderà a tutte le funzioni aziendali.

Sicurezza basata sull'intelligenza artificiale agentica rispetto alla sicurezza basata sull'intelligenza artificiale tradizionale

Le differenze fondamentali tra la sicurezza dei sistemi di IA tradizionali e quella dei sistemi di IA agentica derivano dall'architettura e dalle capacità.

La sicurezza tradizionale basata sull'intelligenza artificiale si concentra sull'integrità dei modelli, sulla protezione dei dati di addestramento e sugli attacchi in fase di inferenza. La superficie di attacco è relativamente limitata. Si inseriscono i dati e si ottengono i risultati. I controlli di sicurezza si concentrano sull'impedire che input ostili manipolino le previsioni dei modelli e sul garantire che le pipeline di addestramento rimangano intatte.

L'IA agentica amplia notevolmente la superficie di attacco. Questi sistemi sono caratterizzati dall'uso dinamico di strumenti, catene di ragionamento in più fasi, comunicazioni esterne e memoria persistente tra le sessioni, seguendo modelli simili alla catena di attacco informatico. Un aggressore non ha bisogno di compromettere il modello sottostante. La manipolazione di qualsiasi componente nell'ecosistema dell'agente può reindirizzare il comportamento verso risultati dannosi.

Tabella 1: Confronto tra considerazioni sulla sicurezza dell'IA tradizionale e dell'IA agentica

Aspetto Intelligenza artificiale tradizionale IA agentica
Superficie di attacco Input e output del modello L'intero ecosistema degli agenti, inclusi strumenti, memoria e orchestrazione
Minacce primarie Input avversari, avvelenamento del modello Dirottamento degli obiettivi, uso improprio degli strumenti, abuso dell'identità, avvelenamento della memoria
Confini di controllo I/O ben definito Dinamico, dipendente dal contesto
Modello di identità Ereditato dall'applicazione chiamante Richiede una governance indipendente dell'identità non umana
Impatto nel mondo reale Errori di previsione Azioni non autorizzate con conseguenze commerciali
Approccio di monitoraggio Convalida input/output Analisi comportamentale, registrazione delle decisioni, vincoli di azione

Le implicazioni in termini di sicurezza sono significative. I tradizionali controlli di sicurezza dell'IA incentrati sul livello del modello sono necessari ma insufficienti per i sistemi agentici. I team di sicurezza devono estendere la visibilità e il controllo all'intera architettura degli agenti.

Come funziona l'IA agentica (contesto di sicurezza)

Comprendere l'architettura dei sistemi di IA agentica rivela dove devono essere applicati i controlli di sicurezza. I moderni agenti di IA combinano quattro componenti primari che creano la superficie di attacco operativa.

Componenti dell'architettura dell'agente:

  • Livello modello: il LLM sottostante che fornisce la capacità di ragionamento
  • Livello strumenti: funzioni esterne che l'agente può richiamare, tra cui API, database, file system e canali di comunicazione.
  • Livello di memoria: archiviazione permanente che consente all'agente di mantenere il contesto tra una sessione e l'altra
  • Livello di orchestrazione: logica che coordina la pianificazione, la selezione degli strumenti e il flusso di esecuzione

Ogni livello presenta vulnerabilità distinte. Gli aggressori prendono di mira qualsiasi componente offra il percorso di minor resistenza al loro obiettivo.

La letale tripletta spiegata

Il ricercatore di sicurezza Simon Willison ha identificato tre fattori che, se combinati, creano un rischio grave, un quadro descritto in dettaglio da Martin Fowler nella sua analisi tecnica. Comprendere questo quadro aiuta i team di sicurezza a identificare quali distribuzioni di agenti richiedono i controlli più rigorosi.

La Lethal Trifecta è composta da:

  1. Accesso a dati sensibili quali credenziali, token, codice sorgente, documenti interni e informazioni di identificazione personale che potrebbero consentire l'esfiltrazione dei dati
  2. Esposizione a contenuti non attendibili provenienti da fonti quali archivi pubblici, pagine web, input degli utenti, allegati e-mail e integrazioni di terze parti.
  3. Capacità di comunicare con l'esterno tramite invio di e-mail, chiamate API, messaggi di chat, operazioni su file ed esecuzione di codice

Quando tutte e tre le condizioni sono presenti contemporaneamente, il rischio aumenta notevolmente. Un agente che ha accesso alle credenziali, elabora allegati e-mail non attendibili e può inviare comunicazioni esterne crea un percorso per l'esfiltrazione dei dati, il furto delle credenziali e la compromissione della catena di fornitura.

Non tutte le distribuzioni di agenti presentano tutte e tre le caratteristiche. I team di sicurezza dovrebbero valutare ogni distribuzione in base a questi criteri e implementare controlli proporzionali al profilo di rischio.

Comprendere l'architettura degli agenti e la superficie di attacco

Gli aggressori sfruttano diversi livelli a seconda dei loro obiettivi e della configurazione dell'agente.

Attacchi al livello del modello:

  • L'iniezione immediata inserisce istruzioni dannose negli input dell'agente
  • Il jailbreaking tenta di aggirare i vincoli di sicurezza integrati nel modello sottostante, in modo simile alle tecniche di exploit tradizionali.

Attacchi a livello di tool:

  • L'uso improprio degli strumenti sfrutta le funzionalità legittime degli strumenti per scopi non autorizzati.
  • L'espansione dell'ambito induce gli agenti a utilizzare strumenti oltre i limiti previsti
  • L'abuso delle risorse consuma le quote di calcolo o API attraverso chiamate ripetute

Attacchi al livello di memoria:

  • L'avvelenamento della memoria corrompe il contesto persistente per influenzare le decisioni future
  • La manipolazione del contesto inserisce informazioni false che l'agente considera autorevoli.

Attacchi al livello di orchestrazione:

  • Il dirottamento dell'obiettivo reindirizza l'obiettivo dell'agente verso risultati controllati dall'aggressore.
  • La manipolazione del flusso di lavoro altera la logica di esecuzione per aggirare le fasi di approvazione

La matrice di definizione dell'ambito di sicurezza dell'IA agente di AWS fornisce un quadro di riferimento per classificare le implementazioni degli agenti in base a due dimensioni: connettività (bassa o alta) e autonomia (bassa o alta). Ciò crea quattro ambiti, ciascuno dei quali richiede un diverso livello di controllo della sicurezza.

Panoramica della matrice di definizione dell'ambito AWS:

  • Ambito 1 (bassa connettività, bassa autonomia): agenti interni con accesso limitato agli strumenti. Sono sufficienti una convalida di base degli input e la registrazione.
  • Ambito 2 (elevata connettività, bassa autonomia): agenti connessi a Internet con supervisione umana. Richiede segmentazione della rete e sicurezza API.
  • Ambito 3 (bassa connettività, elevata autonomia): agenti interni con una significativa capacità di azione indipendente. Richiede vincoli di azione e flussi di lavoro di approvazione.
  • Ambito 4 (Elevata connettività, elevata autonomia): agenti autonomi connessi a Internet. Richiede zero trust completa e un monitoraggio continuo.

Le organizzazioni dovrebbero iniziare le implementazioni nell'ambito 1 o 2 e passare ad ambiti più elevati solo dopo aver dimostrato la maturità della sicurezza. La matrice di definizione dell'ambito è citata da OWASP, CoSAI e diversi organismi di normazione del settore come quadro di riferimento fondamentale.

Il protocollo Model Context Protocol (MCP), introdotto da Anthropic, fornisce un'interfaccia standardizzata per la comunicazione tra agenti e strumenti. Sebbene MCP migliori l'interoperabilità, crea anche nuovi vettori di attacco. I team di sicurezza devono verificare l'integrità del server MCP e monitorare i movimenti laterali tra agenti e strumenti collegati.

Rischi e minacce alla sicurezza dell'IA agentica

La classifica OWASP Top 10 for Agentic Applications 2026, pubblicata nel dicembre 2025, stabilisce la tassonomia delle minacce standard del settore per i sistemi di IA agentica. Sviluppato con il contributo di oltre 100 ricercatori nel campo della sicurezza e citato da Microsoft, NVIDIA, AWS e GoDaddy, questo framework fornisce una classificazione autorevole dei rischi per la sicurezza dell'IA agentica.

OWASP Top 10 per le applicazioni agentiche 2026

La classifica completa OWASP Top 10 per le applicazioni agentiche identifica le seguenti categorie di rischio:

  1. ASI01 - Dirottamento degli obiettivi dell'agente: gli aggressori manipolano gli obiettivi dell'agente tramite l'iniezione di prompt o la manipolazione del contesto, reindirizzando le funzionalità legittime verso risultati dannosi.
  2. ASI02 - Uso improprio degli strumenti: sfruttamento degli strumenti degli agenti per azioni non autorizzate, compresa l'espansione dell'ambito oltre i limiti previsti.
  3. ASI03 - Abuso di identità e privilegi: sfruttamento di autorizzazioni eccessive, furto di credenziali o sostituzione di identità umane che porta all'appropriazione di account
  4. ASI04 - Avvelenamento della memoria: corruzione della memoria persistente dell'agente per influenzare le decisioni future e creare guasti a cascata
  5. ASI05 - Perdita di dati: estrazione non autorizzata di dati sensibili tramite output degli agenti, registri o risposte degli strumenti
  6. ASI06 - Supply Chain : compromissione dei componenti degli agenti, inclusi strumenti, plug-in, server MCP e dipendenze, nell'ambito di attacchi più ampi alla catena di approvvigionamento.
  7. ASI07 - Manipolazione degli input: input appositamente creati che sfruttano la logica di analisi o elaborazione dell'agente
  8. ASI08 - Autonomia eccessiva: azioni degli agenti che superano l'ambito appropriato senza un'adeguata supervisione
  9. ASI09 - Registrazione e monitoraggio insufficienti: osservabilità inadeguata che impedisce il rilevamento di comportamenti dannosi da parte di agenti
  10. ASI10 - Gestione non sicura degli output: output dell'agente che consentono attacchi a valle o aggirano i controlli di sicurezza

Tabella 2: OWASP Top 10 per le applicazioni agentiche 2026

Identificativo del rischio Nome Livello di impatto Mitigazione primaria
ASI01 Dirottamento dell'obiettivo dell'agente Critico Convalida degli input, vincoli oggettivi
ASI02 Uso improprio degli strumenti Alto Elenchi di strumenti consentiti, vincoli di ambito
ASI03 Abuso di identità e privilegi Critico Privilegio minimo, autorizzazione continua
ASI04 Avvelenamento della memoria Alto Isolamento della memoria, convalida dell'integrità
ASI05 Fuga di dati Alto Filtraggio dell'output, integrazione DLP
ASI06 Supply Chain Critico Verifica dei fornitori, SBOM
ASI07 Manipolazione degli input Medio Sanificazione degli input, convalida dei tipi
ASI08 Autonomia eccessiva Medio Autonomia progressiva, flussi di lavoro di approvazione
ASI09 Registrazione insufficiente Medio Telemetria completa, audit trail
ASI10 Gestione non sicura dell'output Medio Convalida dell'output, controlli a valle

Ogni team di sicurezza che gestisce sistemi di IA agentica dovrebbe mappare le proprie implementazioni in base a queste categorie di rischio e implementare controlli adeguati.

Iniezione rapida nei sistemi agentici

L'iniezione di prompt rappresenta una minaccia particolarmente pericolosa nei contesti agentici perché gli agenti possono agire sulla base di istruzioni manipolate.

L'iniezione diretta immediata comporta l'inserimento di istruzioni dannose direttamente nell'input dell'utente. Un aggressore potrebbe creare un input che sovrascriva le istruzioni originali dell'agente con nuovi obiettivi.

L'iniezione indiretta è più insidiosa. Gli aggressori incorporano istruzioni nascoste nei contenuti recuperati dall'agente. Documenti, e-mail, pagine web e record di database possono tutti contenere payload che si attivano quando l'agente li elabora.

I prompt di secondo ordine sfruttano architetture multi-agente. Negli attacchi documentati contro ServiceNow Now Assist, gli aggressori hanno incorporato istruzioni dannose in campi di dati che apparivano innocui all'agente di elaborazione iniziale, ma che si attivavano quando venivano trasmessi a un agente con privilegi superiori per l'esecuzione.

OpenAI ha dichiarato nel dicembre 2025 che il prompt injection potrebbe non essere mai risolto completamente a livello architetturale. Questa ammissione da parte di uno dei principali sviluppatori di IA rafforza la necessità di difese a più livelli piuttosto che affidarsi a un unico controllo.

Una meta-analisi di 78 studi ha rilevato che gli attacchi di iniezione adattiva rapida raggiungono tassi di successo superiori all'85%. Anche Claude Opus 4.5, progettato con misure di sicurezza avanzate, ha mostrato tassi di successo superiori al 30% contro attacchi mirati secondo i test di Anthropic.

Implicazioni pratiche: le organizzazioni non possono fare affidamento esclusivamente sulle difese a livello di modello. Le protezioni runtime, la convalida dell'output e il monitoraggio comportamentale sono complementi essenziali. L'iniezione indiretta di prompt può consentire il phishing su larga scala, estraendo credenziali o dati sensibili attraverso interazioni apparentemente legittime con gli agenti.

Attacchi di avvelenamento della memoria

Il memory poisoning rappresenta una minaccia emergente specifica dei sistemi agentici che mantengono lo stato tra una sessione e l'altra.

Il meccanismo di attacco consiste nel corrompere la memoria persistente di un agente con informazioni false o dannose. Poiché gli agenti considerano autorevole il contesto memorizzato, le memorie compromesse influenzano le decisioni future senza richiedere ripetuti tentativi di sfruttamento.

Una ricerca condotta da Galileo AI e pubblicata nel dicembre 2025 ha dimostrato che l'87% delle decisioni a valle è stato compromesso entro quattro ore dall'avvelenamento iniziale della memoria. L'effetto a cascata significa che un singolo evento di avvelenamento riuscito può influenzare centinaia di interazioni successive dell'agente.

L'incidente di esfiltrazione dei dati dell'IA di Slack dell'agosto 2024 ha dimostrato nella pratica il fenomeno del memory poisoning. I ricercatori hanno incorporato istruzioni indirette di prompt injection nei canali privati di Slack. Quando l'assistente IA di Slack ha elaborato questi canali, ha iniziato a esfiltrare i riassunti delle conversazioni verso destinazioni controllate dagli aggressori. Si tratta di una forma di minaccia interna abilitata dall'IA, in cui l'agente diventa un complice inconsapevole del furto di dati.

Per mitigare il memory poisoning è necessario isolare la memoria tra i domini di fiducia, verificare l'integrità del contesto memorizzato e monitorare il comportamento per rilevare modelli decisionali anomali che suggeriscono una compromissione della memoria.

Gestione dell'identità non umana per agenti AI

La superficie di attacco in più rapida crescita nella sicurezza aziendale è rappresentata dalle identità non umane (NHI). Secondo un'analisi del World Economic Forum, le NHI superano le identità umane con un rapporto di 50:1 nelle aziende odierne, con proiezioni che raggiungono 80:1 entro due anni. Gli agenti AI rappresentano una nuova categoria di NHI che richiede una governance della sicurezza dedicata.

I dati del settore indicano che il 97% delle violazioni dei dati relative all'IA deriva da una gestione inadeguata degli accessi. L'acquisizione di SGNL da parte di CrowdStrike per 740 milioni di dollari nel gennaio 2026 segnala che i principali fornitori di soluzioni di sicurezza riconoscono l'IA agentica come un problema fondamentalmente legato all'identità.

Gli approcci tradizionali che assegnano le autorizzazioni agli agenti in base all'utente che li invoca creano un'eccessiva esposizione dei privilegi. Un agente che svolge attività di ricerca non ha bisogno dello stesso accesso di uno che elabora transazioni finanziarie, anche se entrambi sono invocati dallo stesso utente.

Implementazione della governance dell'identità per gli agenti AI

Una governance efficace dell'NHI per gli agenti AI richiede che questi ultimi siano trattati come identità di prima classe con una gestione indipendente del ciclo di vita.

Fasi del ciclo di vita dell'identità:

  • Creare: stabilire l'identità dell'agente con una chiara attribuzione di proprietà, documentazione dello scopo e ambito di autorizzazione iniziale.
  • Gestione: revisioni periodiche degli accessi, adeguamenti delle autorizzazioni in base all'evoluzione dei requisiti
  • Monitoraggio: analisi comportamentale continua tramite analisi dell'identità per rilevare modelli anomali
  • Disattivazione: procedure formali di cessazione che impediscono agli agenti zombie di rimanere attivi senza supervisione.

Principi di governance:

  • Privilegio minimo: concedere le autorizzazioni minime necessarie per attività specifiche, non un accesso illimitato.
  • Accesso just-in-time: privilegi limitati nel tempo che scadono automaticamente e richiedono una nuova autorizzazione per continuare ad accedere.
  • Autorizzazione continua: convalida in tempo reale che gli agenti rimangano entro i limiti consentiti durante l'intera operazione
  • Governance indipendente: autorizzazioni degli agenti separate dalle autorizzazioni degli utenti, con cicli di revisione distinti

Il problema degli agenti zombie merita particolare attenzione. Gli agenti creati per esperimenti o prove di concetto spesso rimangono attivi anche dopo la conclusione dei progetti. Questi agenti mantengono il loro accesso, consumano risorse ed espandono la superficie di attacco senza alcun proprietario o supervisione. Procedure formali di disattivazione devono essere parte integrante del ciclo di vita di ogni agente.

Incidenti reali e casi di studio

Il panorama delle minacce per l'IA agente è passato da teorico a operativo. Sono state scoperte vulnerabilità critiche con punteggi CVSS superiori a 9,0 nelle principali piattaforme aziendali, molte delle quali sono state attivamente sfruttate.

CVE critici nei sistemi di IA agentica (2025-2026)

Tabella 3: Vulnerabilità critiche nei sistemi di IA agentica (2025-2026)

ID CVE Prodotto CVSS Data della scoperta Stato dello sfruttamento
CVE-2025-12420 Piattaforma AI ServiceNow 9.3 Gennaio 2026 Rattoppato
CVE-2025-34291 Langflow 9.4 Aprile 2025 Sfruttamento attivo (botnet Flodric)
CVE-2025-32711 Microsoft 365 Copilot 9.3 Giugno 2025 Sfruttamento attivo

ServiceNow BodySnatcher (CVE-2025-12420)

La vulnerabilità BodySnatcher scoperta nella piattaforma AI di ServiceNow consentiva agli aggressori non autenticati di impersonare qualsiasi utente, compresi gli amministratori, utilizzando solo un indirizzo e-mail. L'exploit sfruttava un segreto di autenticazione hardcoded e un collegamento permissivo degli account per aggirare MFA e SSO, consentendo agli aggressori di richiamare flussi di lavoro AI e creare account backdoor con privilegi elevati. Le organizzazioni che utilizzano versioni API Virtual Agent interessate dovrebbero verificare immediatamente lo stato delle patch.

Catena di vulnerabilità Langflow (CVE-2025-34291)

Langflow, un popolare framework open source per agenti AI, conteneva una catena di vulnerabilità critica che consentiva il controllo completo dell'account e l'esecuzione di codice remoto. Impostazioni CORS eccessivamente permissive, combinate con la mancanza di protezione CSRF e un endpoint di convalida del codice non sicuro, endpoint il percorso di attacco. Tutti i token di accesso e le chiavi API memorizzati sono stati esposti, consentendo una compromissione a cascata dei servizi integrati a valle. La botnet Flodric sfrutta attivamente questa vulnerabilità.

Microsoft Copilot EchoLeak (CVE-2025-32711)

La vulnerabilità EchoLeak rappresenta il primo attacco zero-click documentato contro un agente AI. Gli aggressori incorporano prompt dannosi in testo nascosto, note dell'oratore, metadati o commenti all'interno di documenti Word, PowerPoint o Outlook. Quando le vittime interagiscono con Copilot, i dati sensibili dell'organizzazione, inclusi e-mail, file OneDrive, contenuti SharePoint e messaggi Teams, vengono sottratti tramite parametri URL delle immagini senza che l'utente ne sia consapevole o interagisca.

Primo attacco informatico orchestrato dall'intelligenza artificiale

Nel settembre 2025, Anthropic ha reso noto il primo attacco informatico su larga scala documentato eseguito da un agente di intelligenza artificiale senza un intervento umano significativo. Un gruppo sponsorizzato dallo Stato cinese ha manipolato Claude Code per condurre ricognizioni, selezionare obiettivi ed eseguire tentativi di intrusione in circa 30 organizzazioni nei settori dei servizi finanziari, della pubblica amministrazione e delle infrastrutture critiche.

Supply Chain PhantomRaven

Koi Security ha scoperto 126 pacchetti npm dannosi utilizzando una nuova tecnica denominata Remote Dynamic Dependencies. I pacchetti apparivano vuoti e innocui nel registro, ma solo dopo l'installazione scaricavano payload dannosi dai server degli aggressori. Utilizzando nomi generati dall'intelligenza artificiale attraverso una tecnica chiamata slopsquatting, questi pacchetti hanno raggiunto oltre 86.000 download prima di essere rilevati, sottraendo token npm, cloud e chiavi SSH.

Questi incidenti richiedono solide capacità di risposta agli incidenti che tengano specificamente conto dei vettori degli agenti AI. I team di sicurezza dovrebbero aggiornare i playbook per includere procedure di indagine specifiche per gli agenti.

Rilevamento e prevenzione delle minacce poste dall'intelligenza artificiale agente

Il framework MIT Sloan Three Essentials fornisce un approccio strutturato alla sicurezza dell'IA agentica. Le organizzazioni devono implementare una modellazione completa delle minacce, test di sicurezza continui e protezioni runtime che funzionino in modo coordinato.

Solo il 21% dei responsabili della sicurezza dichiara di avere una visibilità completa sulle operazioni degli agenti AI. Meno del 40% effettua regolarmente test di sicurezza AI. Questa mancanza di visibilità rappresenta sia un rischio che un'opportunità per i team di sicurezza di differenziare le loro organizzazioni attraverso migliori capacità di rilevamento delle minacce.

Controlli di sicurezza da parte di AWS Ambito della matrice di definizione dell'ambito

Adeguare i controlli alla complessità dell'architettura garantisce una protezione proporzionata senza ostacolare le operazioni legittime.

Ambito 1 (Bassa connettività, bassa autonomia):

  • Convalida e sanificazione di base degli input
  • Registrazione completa delle azioni degli agenti
  • Filtraggio dell'output per dati sensibili

Ambito 2 (Elevata connettività, bassa autonomia):

  • Segmentazione della rete che isola l'infrastruttura dell'agente
  • Sicurezza API, inclusi autenticazione e limitazione della frequenza
  • Monitoraggio delle comunicazioni esterne

Ambito 3 (Bassa connettività, elevata autonomia):

  • Vincoli di azione che limitano le capacità dell'agente a confini definiti
  • Flussi di lavoro di approvazione per decisioni ad alto impatto
  • Autonomia progressiva con aumento della fiducia guadagnata

Ambito 4 (Elevata connettività, elevata autonomia):

  • Full zero trust come descritto da Cisco
  • Monitoraggio continuo con analisi comportamentale
  • Intervento umano per azioni irreversibili
  • Integrazione del rilevamento delle minacce in tempo reale con le piattaforme SIEM

Implementazione delle protezioni runtime

La protezione runtime a più livelli affronta le minacce in ogni fase del funzionamento dell'agente.

Protezioni del livello di input:

  • Classificatori di iniezione rapida che rilevano modelli di istruzioni dannose
  • Filtraggio dei contenuti che rimuove payload potenzialmente pericolosi dagli input
  • Convalida dello schema per garantire che gli input corrispondano ai formati previsti

Protezioni del livello di azione:

  • Elenchi di strumenti consentiti che limitano gli agenti a set di funzioni approvati
  • Vincoli di ambito che impediscono l'espansione delle capacità oltre i confini definiti
  • Limitazione della velocità per impedire l'abuso delle risorse dovuto a chiamate eccessive agli strumenti

Protezioni del livello di uscita:

  • Rilevamento e mascheramento delle informazioni personali identificabili (PII) per prevenire l'esposizione involontaria dei dati
  • Filtraggio dei dati sensibili con rimozione delle credenziali e dei token dagli output
  • Convalida delle risposte per garantire che i risultati non consentano attacchi a valle

Le soluzioni dei fornitori, tra cui NVIDIA NeMo Guardrails, F5 e Straiker, offrono implementazioni commerciali. Le organizzazioni possono anche creare guardrail personalizzati utilizzando framework open source adeguati alle loro esigenze specifiche.

Elenco delle migliori pratiche

I team di sicurezza dovrebbero convalidare questi controlli fondamentali prima di scalare le implementazioni di IA agentica:

  • Trattare gli agenti AI come identità di prima classe con governance indipendente e gestione del ciclo di vita
  • Implementare i principi del privilegio minimo e dell'autonomia minima, concedendo solo le autorizzazioni necessarie.
  • Implementare strumenti di osservabilità prima di aumentare l'autonomia per garantire la visibilità sui modelli di comportamento degli aggressori.
  • Mantenere l'approvazione umana per azioni irreversibili o ad alto impatto
  • Creare distinte base software (SBOM) specifiche per l'IA che documentino tutti i componenti dell'agente.
  • Applicare zero trust comunicazione tra agenti, convalidando ogni interazione
  • Condurre regolarmente esercitazioni di ricerca delle minacce incentrate su modelli di attacco specifici per agente
  • Integra il monitoraggio degli agenti con i flussi di lavoro di automazione SOC esistenti
  • Stabilire procedure formali di dismissione per gli agenti in pensione

Conformità e quadri normativi

Le organizzazioni devono allineare le pratiche di sicurezza dell'IA agentica ai requisiti normativi e agli standard di settore. Il panorama normativo ha subito un'evoluzione significativa alla fine del 2025 con l'introduzione di importanti normative che riguardano specificatamente i sistemi di IA autonomi.

Panorama normativo (gennaio 2026)

Tabella 4: Quadro normativo per l'IA agentica (gennaio 2026)

Regolamento Data di entrata in vigore Requisiti fondamentali Rilevanza
California SB 53 (TFAIA) 1 gennaio 2026 Quadri di riferimento per la gestione dei rischi per i grandi sviluppatori di IA; segnalazione degli incidenti entro 15 giorni; protezione degli informatori Alto
Texas TRAIGA 1 gennaio 2026 Vieta i risultati dannosi dell'IA, compreso l'incitamento agli attacchi informatici; sandbox normativo. Medio
Legge sull'intelligenza artificiale del Colorado (SB 24-205) 30 giugno 2026 Valutazioni d'impatto per i sistemi di IA ad alto rischio Medio
Profilo Cyber AI del NIST Bozza (dicembre 2025) Mappatura CSF 2.0 per la governance della sicurezza AI Alto

Il NIST Cyber AI Profile, pubblicato in bozza preliminare nel dicembre 2025, mappa le aree di interesse della sicurezza dell'IA alle funzioni del Cybersecurity Framework 2.0, tra cui Governare, Identificare, Proteggere, Rilevare, Rispondere e Recuperare. Sebbene non sia normativo, questo framework dovrebbe diventare lo standard de facto per la governance della sicurezza dell'IA.

Il NIST ha inoltre pubblicato nel gennaio 2026 una richiesta di informazioni per raccogliere pareri sulle considerazioni relative alla sicurezza dei sistemi di agenti AI, affrontando in particolare i temi dell'iniezione di prompt, dell'avvelenamento dei dati e degli obiettivi disallineati che hanno un impatto sui sistemi reali.

Riferimenti chiave del quadro normativo:

  • OWASP Top 10 per le applicazioni agentiche 2026: tassonomia delle minacce standard del settore
  • MITRE ATLAS: nell'ottobre 2025 sono state aggiunte 14 nuove tecniche incentrate sugli agenti, che ora coprono 66 tecniche e 46 sottotecniche specifiche per i sistemi di IA. Vedi anche la copertura MITRE ATLASVectra AI.
  • MITRE ATT&CK: le TTP fondamentali degli avversari diventano sempre più rilevanti man mano che gli aggressori sfruttano gli agenti di intelligenza artificiale
  • ISO/IEC 42001:2023: primo standard di certificazione dei sistemi di gestione dell'intelligenza artificiale

Le organizzazioni dovrebbero allineare i propri programmi di conformità per incorporare questi quadri di riferimento, in particolare le linee guida OWASP e MITRE che forniscono specifiche operative.

Approcci moderni alla sicurezza dell'IA agente

Il panorama dei fornitori di soluzioni di sicurezza basate sull'intelligenza artificiale agente si è ampliato rapidamente, con piattaforme consolidate e startup specializzate che offrono soluzioni. L'approccio identity-first ha acquisito particolare slancio poiché le organizzazioni riconoscono che la sicurezza degli agenti è fondamentalmente una sfida di rilevamento e risposta alle minacce all'identità.

I principali fornitori aziendali, tra cui Palo Alto Networks con Cortex AgentiX, CrowdStrike con Falcon Agentic Security e SentinelOne con Singularity AI SIEM, hanno lanciato funzionalità di sicurezza AI agentiche dedicate. L'acquisizione di SGNL da parte di CrowdStrike per 740 milioni di dollari è specificamente mirata ai controlli di accesso in tempo reale per identità umane, non umane e agenti AI autonomi.

Anche l'architettura di sicurezza a livello di browser è emersa come punto di controllo. Nel dicembre 2025 Google Chrome ha introdotto un'architettura di difesa a più livelli per la navigazione agente Gemini, caratterizzata da un User Alignment Critic (modello di IA isolato che verifica le azioni proposte), Agent Origin Sets (che limita le interazioni ai siti rilevanti per l'attività) e conferme obbligatorie da parte dell'utente per le azioni sensibili.

L'ecosistema delle startup ha attirato investimenti significativi. WitnessAI ha raccolto 58 milioni di dollari per la governance e l'osservabilità dell'IA agentica. Geordie è emersa dall'anonimato con 6,5 milioni di dollari per una piattaforma di sicurezza con agenti IA. Prophet Security ha raccolto 30 milioni di dollari per una piattaforma SOC agentica.

Le organizzazioni che utilizzano l'IA agentica per le operazioni di sicurezza segnalano significativi aumenti di efficienza. I dati del settore indicano una riduzione del 60% dei tempi di triage degli avvisi quando l'IA agentica gestisce l'indagine iniziale e l'arricchimento, liberando gli analisti umani per il processo decisionale complesso.

Come Vectra AI la sicurezza dell'IA agentica

Vectra AI la sicurezza dell'IA agentica attraverso la lente Attack Signal Intelligence, riconoscendo che, con la proliferazione degli agenti IA nelle reti aziendali, questi diventano sia potenziali vettori di attacco che risorse preziose che richiedono protezione.

La filosofia del "presupporre il compromesso" si estende naturalmente ai sistemi agentici. Anziché cercare di prevenire tutti gli abusi degli agenti solo attraverso controlli perimetrali, le organizzazioni devono concentrarsi sul rilevamento rapido di comportamenti anomali degli agenti, invocazioni non autorizzate di strumenti e modelli di abuso di identità.

Ciò richiede un'osservabilità unificata su tutta la superficie di attacco moderna, comprese le comunicazioni degli agenti AI, le chiamate degli strumenti e le azioni relative alle identità. Le capacità di rilevamento e risposta della rete devono evolversi per distinguere le operazioni autonome legittime dalle manipolazioni degli aggressori. Le soluzioni ITDR devono estendersi fino a coprire le identità non umane e i modelli di abuso dei privilegi specifici degli agenti.

L'obiettivo non è quello di bloccare l'adozione dell'IA, ma di consentirne un'implementazione sicura su larga scala, fornendo ai team di sicurezza la visibilità e la chiarezza dei segnali necessarie per operare con sicurezza in un ambiente agentico.

Altri fondamenti della sicurezza informatica

Domande frequenti

Che cos'è la sicurezza AI agentica?

Quali sono i principali rischi dei sistemi di IA agentica?

In che modo l'IA agentica differisce dall'IA generativa?

Qual è la tripletta letale nella sicurezza dell'IA?

Come si implementano le misure di sicurezza per gli agenti di IA?

Che cos'è un'identità non umana nell'IA agente?

Quali sono i quadri normativi applicabili all'IA agentica?