Prompt Control: come il contesto diventa il livello di comando e controllo per gli agenti di IA, di Lucie Cardiet

Il modello tradizionale di comando e controllo è esplicito. Un sistema infetto si connette, riceve istruzioni, le esegue e invia un resoconto. Anche se crittografato, la struttura rimane invariata. È un elemento esterno a determinare il comportamento.

Gli agenti autonomi stravolgono quel modello.

Non attendono istruzioni nello stesso modo. Assorbono continuamente informazioni, le interpretano e agiscono. E-mail, chat, API, documenti… tutto diventa contesto e tutto può influenzare il comportamento.

Questo crea una superficie di controllo diversa.

Un malintenzionato non ha più bisogno di un canale persistente se è in grado di influenzare ciò che l'agente vede, ricorda e considera prioritario.

Il controllo diventa indiretto, continuo e integrato nel normale funzionamento.

Questo è il fondamento del prompt control.

Ricerche recenti hanno già dimostrato l'esistenza di architetture di comando e controllo basate su prompt, in cui gli agenti compromessi ricevono compiti, li eseguono e restituiscono i risultati utilizzando esclusivamente prompt e contesto, senza ricorrere alle tradizionali infrastrutture C2.

Prompt Injection Prompt Control

In questi esempi, gli agenti si affidano a contenuti esterni. Eseguono attività con privilegi effettivi. Si coordinano tra i vari sistemi.

Ciascuno di questi fattori amplia la superficie di attacco.

Le prime discussioni in materia di sicurezza si sono concentrate in gran parte prompt injection. Un’istruzione dannosa incorporata nei contenuti provoca un’azione indesiderata.

Questo spiega l'inserimento, ma non spiega la persistenza.

Nelle recenti dimostrazioni, è bastata una singola prompt injection e-mail o contenuti web per compromettere un agente e modificarne il contesto operativo. Da quel momento in poi, l'agente ha continuato a recuperare istruzioni controllate dall'autore dell'attacco dal proprio ambiente, mantenendo di fatto il controllo senza richiedere un nuovo attacco.

Una recente indagine condotta da OpenClaw ha dimostrato come una singola prompt injection indiretta prompt injection in una pagina web potesse fare ben più che innescare una singola azione. Essa ha richiamato uno strumento di esecuzione, per poi inserire istruzioni nel contesto futuro dell'agente, consentendo all'autore dell'attacco di continuare a impartire comandi nel tempo senza dover accedere nuovamente al sistema.

*Screenshot della richiesta dei ricercatori che ordina a OpenClaw di recuperare ed eseguire uno script bash dannoso*

L'impulso iniziale svanisce, ma l'effetto permane.

Prompt control il comportamento del sistema dopo l'interazione iniziale.

Prompt Control fattore di influenza comportamentale

Prompt control il comportamento senza impartire comandi diretti.

Anziché inviare istruzioni, l'autore dell'attacco determina ciò che l'agente considera rilevante e il modo in cui quest'ultimo costruisce il contesto. L'agente agisce quindi utilizzando le proprie capacità e autorizzazioni esistenti.

Questo segue lo stesso principio dell'ingegneria sociale: si influenza il decisore, e il decisore mette in atto l'azione.

La differenza sta nella portata e nella perseveranza. Gli agenti operano in modo continuo e si basano su qualsiasi contesto disponibile, anche quando tale contesto è stato modellato in modo ostile.

Command and Control basato su prompt Command and Control pratica

Prompt control non Prompt control solo una questione di influenza: può essere messo in pratica.

Ricerche recenti dimostrano come gli agenti compromessi possano essere integrati in un sistema di controllo centralizzato in cui le attività vengono assegnate sotto forma di richieste e i risultati vengono restituiti attraverso i normali flussi di lavoro degli agenti.

Una volta che un agente è stato compromesso, non è necessario accedervi nuovamente. Le istruzioni vengono conservate negli stessi luoghi che l'agente utilizza già per funzionare: file, memoria e contesto recuperato. I cicli di esecuzione diventano cicli di controllo.

Gli autori degli attacchi inviano i compiti sotto forma di richieste. L'agente li esegue utilizzando le autorizzazioni di cui dispone e restituisce i risultati attraverso i normali flussi di lavoro.

In un caso, gli agenti erano stati configurati per leggere un file "heartbeat" a intervalli regolari. Inserendo istruzioni dannose in quel file, gli aggressori hanno creato un punto di esecuzione ricorrente. Ogni volta che l'agente elaborava il file, recuperava nuove istruzioni e continuava a operare sotto l'influenza degli aggressori.

Questo riflette il comportamento tradizionale del C2. La differenza sta nel fatto che il canale di comunicazione non è costituito dai tradizionali segnali di rete, bensì è integrato nel ciclo di ragionamento e nei percorsi di esecuzione dell'agente stesso.

Il controllo si sposta su quello che si può definire un piano di controllo cognitivo, in cui l'influenza agisce attraverso:

File che l'agente legge periodicamente
Spazi di memoria utilizzati per il recupero
Fonti di contenuti esterni di cui l'agente si fida
I risultati dello strumento vengono utilizzati nel ragionamento

Prompt Control forma di persistenza

Nei sistemi basati su agenti, la persistenza non è un elemento integrato. Si tratta piuttosto di un contesto che viene continuamente ricaricato: voci di memoria, file di configurazione o fonti esterne a cui l'agente fa ripetutamente riferimento. Finché quel contesto rimane, il controllo rimane.

In pratica, la persistenza è un problema di ingegneria del contesto. La sfida non consiste nello scrivere un singolo prompt dannoso, ma nell'inserire le istruzioni giuste nel livello di contesto corretto, nel formato giusto e con una priorità sufficiente affinché vengano caricate ripetutamente e messe in atto. I moderni framework di agenti gestiscono già questo stato olistico attraverso file di memoria, regole, file di configurazione degli agenti e punti di rientro pianificati o in background.

OpenClaw illustra come ciò si traduca nella pratica. Spesso le memorie degli agenti trattano tutti gli input allo stesso modo, indipendentemente dalla fonte. Una volta introdotto un contesto dannoso, questo può persistere e continuare a influenzare le decisioni senza alcuna distinzione in termini di affidabilità.

La revoca dell'accesso all'autore dell'attacco non elimina l'effetto. Se l'agente continua a leggere il contesto influenzato dall'autore dell'attacco, il controllo persiste.

Nei casi osservati, questa persistenza è rimasta attiva anche dopo i riavvii ed è continuata fino a quando il contesto sottostante non è stato esplicitamente ripulito.

MITRE ATLAS e l'influenza continua

Una sfumatura importante è che prompt control non prompt control deterministico. Il comportamento dell'agente dipende dal ragionamento probabilistico, dalla selezione del contesto e dalla qualità dei risultati. Lo stesso prompt può produrre esiti diversi a seconda dell'esecuzione, e gli attacchi possono avere successo solo in parte, fallire o richiedere una ripetizione.

Dal punto di vista di un aggressore, ciò introduce una variabilità anziché impedire lo sfruttamento. Il controllo diventa probabilistico: l'influenza ripetuta, il rinforzo e i molteplici percorsi di esecuzione aumentano la probabilità di successo nel tempo.

Gli agenti possono inoltre rilevare segnali di compromissione. In alcuni casi osservati, gli agenti hanno individuato istruzioni sospette o comportamenti anomali durante l'autoanalisi o la registrazione dei dati. Questi possono fungere da indicatori precoci di compromissione. Tuttavia, la maggior parte degli agenti non è ancora addestrata o configurata per trattare questi segnali come eventi di sicurezza o per attivare azioni difensive.

È probabile che la situazione cambi. Man mano che la logica di rilevamento verrà integrata negli stessi agenti, questi segnali deboli potrebbero trasformarsi in controlli efficaci. Per ora, rimangono incostanti e vengono applicati raramente.

MITRE ATLAS descrive diverse tecniche rilevanti:

L'avvelenamento dei dati influisce sui dati in ingresso
Prompt injection sovrascrive il comportamento
La manipolazione dei modelli determina i risultati

Ciò che cambia nei sistemi di agenti non sono le tecniche in sé, ma il modo in cui si combinano. Prompt injection il punto di ingresso, la manipolazione della memoria o del contesto garantisce la persistenza e l'uso degli strumenti consente l'esecuzione. Insieme, funzionano come un ciclo di controllo continuo piuttosto che come fasi isolate.

Il grafico degli attacchi OpenClaw di MITRE ATLAS mostra come queste tecniche si combinino nella pratica. Piuttosto che seguire una sequenza lineare, l'influenza, l'esecuzione e la persistenza sono interconnesse e possono rafforzarsi a vicenda durante l'intero ciclo di vita dell'agente.

Quando il controllo si confonde con la vita quotidiana

Dal punto di vista del rilevamento, questo comportamento non è simile a quello di una compromissione tradizionale.

La maggior parte dei flussi di lavoro SOC si concentra su indicatori quali anomalie di rete, comportamenti dei processi, uso improprio delle credenziali o movimenti laterali. Prompt control non rilevano questi segnali in fase precoce.

Gli agenti operano con autorizzazioni valide, richiamano API approvate e seguono i flussi di lavoro previsti. Da un punto di vista tecnico, l'attività appare normale.

La differenza sta nel modo in cui il comportamento si evolve. L'agente non sta eseguendo i comandi dell'autore dell'attacco, ma sta prendendo decisioni che casualmente coincidono con gli obiettivi dell'autore dell'attacco.

In una dimostrazione, a un agente è stato chiesto di riassumere un documento contenente prompt injection indiretta prompt injection. L'utente ha ricevuto una risposta normale su Slack, senza alcun segno che qualcosa non andasse. Allo stesso tempo, l'agente compromesso ha iniziato a inviare dati sensibili a un bot di Telegram controllato dall'autore dell'attacco.

Per l'utente, il sistema funziona correttamente. Per l'autore dell'attacco, invece, è già sotto il suo controllo.

Lo stesso accesso può essere utilizzato per l'impatto. Gli agenti possono recuperare, modificare o eliminare i dati utilizzando le autorizzazioni che sono state loro concesse per svolgere il proprio lavoro.

Le singole azioni hanno senso. Il quadro generale, invece, va alla deriva.

Non esiste un singolo segnale che spieghi questo comportamento. Il segnale emerge nel corso del tempo.

Il monitoraggio deve concentrarsi meno sugli eventi isolati e più su come le attività si collegano tra gli ambienti di identità, rete, cloud e SaaS.

Questa è la sfida principale. Quando il controllo è integrato nel contesto, non esiste un unico punto da bloccare. L'unico segnale affidabile è l'evoluzione del comportamento nel tempo.

La Vectra AI correlando i comportamenti in questi ambiti per identificare coordinamenti, abusi e sottili deviazioni che non emergono dai singoli avvisi, fornendo visibilità sull'evoluzione delle attività anziché affidarsi a un unico punto di errore.

Prompt Control: come il contesto diventa il livello di comando e controllo per gli agenti di IA