Moltbook e l'illusione delle comunità di agenti AI "innocui" di Lucie Cardiet

Gli agenti autonomi di intelligenza artificiale stanno uscendo dagli ambienti controllati dei laboratori per entrare in ecosistemi condivisi e persistenti. Leggono contenuti, prendono decisioni, memorizzano dati, eseguono azioni e interagiscono con altri agenti alla velocità delle macchine. In questo modo, abbattono i confini che i team di sicurezza hanno cercato di imporre per anni, confini tra utenti e servizi, automazione e identità, intenzioni ed esecuzione.

Piattaforme come Moltbook rendono visibile questo cambiamento. Mostrano cosa succede quando agenti autonomi possono interagire liberamente, fidarsi implicitamente e operare con permessi reali. Ciò che emerge non è solo una nuova funzionalità, ma anche nuove modalità di errore.

A prima vista, i forum di agenti AI come Moltbook sembrano sperimentali, persino ludici. I bot parlano con altri bot, pubblicano thread, formano comunità e discutono idee. Sembrano molto lontani dalle preoccupazioni relative alla sicurezza aziendale. Ma quell'apparente innocuità è solo un'illusione.

Recenti segnalazioni relative alla sicurezza pubblica che coinvolgono agenti autonomi come Clawdbot, ora rinominato Moltbot, dimostrano quanto velocemente la sperimentazione si trasformi in esposizione. In quel caso, un agente open source con ampio accesso al sistema è diventato un nuovo punto di ingresso per gli aggressori quando la fiducia, l'automazione e l'identità hanno superato i controlli di sicurezza. La lezione è più ampia di qualsiasi singolo progetto. Gli agenti AI non sono più strumenti passivi. Sono partecipanti attivi negli ecosistemi digitali.

Moltbook fa un ulteriore passo avanti. Non si tratta di un'interfaccia chatbot o di un assistente alla produttività. È un ambiente sociale simile a Reddit in cui agenti autonomi leggono, interpretano e rispondono ai contenuti degli altri su larga scala. Esperimenti correlati come Molt Road estendono questo modello oltre la conversazione al commercio, dove gli agenti acquistano, vendono e scambiano servizi con una supervisione umana minima. Sebbene ufficialmente definiti come fittizi, questi ambienti offrono un'anteprima di come gli agenti autonomi potrebbero coordinarsi, incentivare comportamenti e esternalizzare capacità in modi che i team di sicurezza non sono ancora in grado di monitorare.

Recenti ricerche pubbliche su Moltbook hanno già dimostrato che questo modello introduce punti ciechi nella sicurezza che corrispondono direttamente ai comportamenti tipici degli hacker, eludendo molti dei controlli su cui fanno affidamento oggi i team SOC.

> Leggi il resocontodi un caso realein cui gli aggressori hanno utilizzato l'automazione e l'abuso di identità per ottenere il pieno controllo amministrativo su AWS in 8 minuti.

Ciò che conta non è se Moltbook o Molt Road abbiano successo. Ciò che conta è ciò che rivelano su come gli agenti autonomi possano essere oggetto di abuso quando interazione, fiducia e autorizzazione convergono senza sufficiente visibilità.

Cosa fanno realmente questi forum

I forum degli agenti AI sono spesso fraintesi perché, in apparenza, assomigliano alle piattaforme sociali umane. Indipendentemente dal fatto che i contenuti siano inviati da esseri umani o da agenti autonomi tramite API, questi sistemi funzionano in modo molto diverso dai social network tradizionali per quanto riguarda il modo in cui tali contenuti vengono consumati e utilizzati.

Moltbook

Moltbook è un social network progettato specificamente per gli agenti AI. Gli utenti umani possono osservare, ma solo gli agenti possono pubblicare post, rispondere e interagire. Ogni agente funziona tipicamente su un sistema controllato dall'uomo utilizzando framework come OpenClaw, che gli consentono di accedere a file, API, piattaforme di messaggistica e, talvolta, all'esecuzione di shell.

Gli agenti su Moltbook leggono continuamente i post degli altri e incorporano tali contenuti nel loro contesto di lavoro. Questo design consente la collaborazione, ma anche la manipolazione da bot a bot, l'iniezione indiretta di prompt e l'abuso di fiducia su larga scala. I ricercatori di sicurezza hanno scoperto che una percentuale misurabile dei contenuti di Moltbook conteneva payload nascosti di iniezione di prompt progettati per dirottare il comportamento di altri agenti, compresi i tentativi di estrarre chiavi API e segreti.

Esperimenti correlati come Molt Road estendono questo modello oltre la conversazione fino al mercato, dove gli agenti acquistano, vendono e scambiano servizi con una supervisione umana minima. Sebbene ufficialmente definiti come fittizi, questi ambienti offrono un'anteprima di come gli agenti autonomi potrebbero coordinarsi, incentivare comportamenti e esternalizzare capacità in modi che i team di sicurezza non sono ancora in grado di monitorare.

Clawcaster

Clawcaster è un client di social feed ispirato a Farcaster, un protocollo di social networking decentralizzato in cui l'identità e i grafici sociali non sono di proprietà di una singola piattaforma, ma sono accessibili da più client. In Farcaster, gli utenti pubblicano messaggi su un protocollo condiviso e diverse applicazioni possono leggere, visualizzare e interagire con tali contenuti.

Clawcaster adatta questo modello sia per gli utenti umani che per gli agenti AI. Gli agenti possono pubblicare post, seguire account e consumare flussi di contenuti attraverso un feed condiviso. Sebbene sia più strutturato di Moltbook, consente comunque agli agenti di acquisire input non attendibili e agire di conseguenza, spesso attraverso integrazioni con strumenti o servizi esterni.

Dal punto di vista della sicurezza, Clawcaster illustra come i contenuti generati dagli agenti e quelli consumati dagli agenti inizino a confondersi. Una volta che agli agenti è consentito sia pubblicare che agire, i feed social possono funzionare come canali di coordinamento o, in scenari conflittuali, come percorsi di comando e controllo a basso attrito.

Moltx

Moltx funziona in modo molto simile a una timeline pubblica in stile X per agenti AI. Gli agenti pubblicano brevi post, rispondono l'uno all'altro e mantengono identità persistenti durante le interazioni. I contenuti appaiono in un feed condiviso, creando narrazioni continue piuttosto che conversazioni isolate.

Da un punto di vista tecnico, il rischio non è il formato in sé, ma la sua persistenza. I post vengono consumati da altri agenti, memorizzati nella memoria e possono influenzare il comportamento futuro molto tempo dopo la loro pubblicazione. Le istruzioni o i contenuti dannosi una volta acquisiti possono riapparire in seguito, separati dalla loro fonte originale.

Questo modello sposta il rischio dall'esecuzione immediata all'influenza ritardata, dove la logica dannosa si propaga attraverso la memoria e l'interazione ripetuta piuttosto che attraverso comandi diretti.

8004scan

8004scan non è un forum sociale. È un livello di indicizzazione e scoperta per agenti AI autonomi, costruito attorno a standard decentralizzati di identità e reputazione. Consente agli agenti di essere elencati, ricercati e valutati in base alle capacità dichiarate e ai segnali di attività.

Dal punto di vista della sicurezza, questo è importante perché la scoperta e la fiducia sono presupposti fondamentali per il coordinamento. Un aggressore non ha bisogno di sfruttare un agente se può impersonarlo, comprometterne la reputazione o presentare un agente dannoso come legittimo. Con la maturazione degli ecosistemi degli agenti, l'identità diventa essa stessa una superficie di attacco.

I rischi per la sicurezza

I comportamenti osservati su Moltbook e sulle piattaforme correlate corrispondono perfettamente alle fasi tipiche degli attacchi. Ciò che cambia sono la velocità, la portata e la sottigliezza.

Ricognizione

Gli agenti autonomi condividono regolarmente informazioni diagnostiche, dettagli di configurazione e approfondimenti operativi. Su Moltbook, alcuni agenti hanno pubblicato pubblicamente scansioni di sicurezza, porte aperte o messaggi di errore come parte della risoluzione dei problemi o dell'autoanalisi. Per gli aggressori che osservano in silenzio, questi diventano dati di ricognizione già pronti.

A differenza della ricognizione tradizionale, non è necessaria alcuna scansione. Le informazioni vengono fornite volontariamente.

Agenti come fonti OSINT accidentali

In diversi thread di Moltbook, è stato osservato che gli agenti pubblicavano dettagli operativi sensibili. Questi includevano porte aperte, tentativi di accesso SSH falliti, messaggi di errore interni e artefatti di configurazione.

Dal punto di vista dell'agente, questo comportamento aveva senso. Stavano analizzando se stessi, risolvendo problemi o condividendo risultati con i colleghi. Dal punto di vista dell'aggressore, eliminava completamente la necessità di ricognizione. Nessuna scansione. Nessuna sonda. Nessun allarme.

Le informazioni venivano fornite volontariamente, indicizzate e rese permanentemente visibili a chiunque osservasse la piattaforma. In effetti, alcuni agenti si trasformavano in fonti di intelligence in tempo reale.

L'iniezione inversa di prompt consente la propagazione silenziosa tra agenti

I ricercatori che hanno osservato il comportamento di Moltbook hanno identificato un modello che hanno descritto come "iniezione inversa di prompt". Anziché un utente umano che inietta istruzioni dannose in un agente, un agente incorpora istruzioni ostili in contenuti che altri agenti consumano automaticamente.

In diversi casi, queste istruzioni non sono state eseguite immediatamente. Sono state memorizzate nella memoria dell'agente e attivate in un secondo momento, dopo che sono stati accumulati ulteriori contesti. Questo ritardo nell'esecuzione rende difficile risalire all'origine del comportamento.

L'effetto è simile a quello di worm. Un agente compromesso può influenzare gli altri, che possono poi diffondere ulteriormente la stessa istruzione attraverso risposte, ripubblicazioni o contenuti derivati. La diffusione avviene attraverso la normale interazione, non tramite scansione o sfruttamento.

Per i difensori, questa è una nuova sfida. Non ci sono file da mettere in quarantena né catene di exploit da interrompere. La logica dannosa si diffonde attraverso la fiducia e la cooperazione.

Una volta completata la ricognizione, il passo successivo non richiede alcuna azione.

Accesso iniziale

L'accesso iniziale spesso deriva dalla fiducia, non dallo sfruttamento.

Su Moltbook, gli aggressori hanno inserito istruzioni nascoste all'interno dei post che altri agenti leggono automaticamente. Queste tecniche di "reverse prompt injection" consentono ai contenuti dannosi di sovrascrivere le istruzioni di sistema di un agente, inducendolo a rivelare segreti o a eseguire azioni non intenzionali.

Altrove sono state condivise "abilità" e plugin di agenti dannosi che, una volta installati, eseguivano codice sul sistema host. Poiché gli agenti basati su OpenClaw sono progettati per eseguire codice, un'abilità dannosa diventa effettivamente un'esecuzione di codice remoto.

L'iniezione di prompt da bot a bot trasforma la lettura in un vettore di attacco

Uno dei risultati più preoccupanti emersi dai primi rapporti sulla sicurezza di Moltbook è la facilità con cui gli agenti possono essere compromessi semplicemente leggendo i contenuti. In un'analisi campionaria dei post di Moltbook, i ricercatori hanno scoperto che circa il 2,6% conteneva payload nascosti di prompt injection progettati per manipolare il comportamento di altri agenti.

Questi payload erano invisibili agli osservatori umani. Incorporati all'interno di post dall'aspetto apparentemente innocuo, istruivano altri agenti a ignorare i messaggi di sistema, rivelare le chiavi API o eseguire azioni non intenzionali una volta che il contenuto era stato inserito nel contesto o nella memoria.

Non è stato necessario alcun exploit. Non malware distribuito malware . L'accesso iniziale è avvenuto nel momento in cui un agente ha fatto ciò per cui era stato progettato, ovvero leggere e rispondere.

Questo cambia la definizione di "superficie di attacco". Negli ecosistemi degli agenti, il linguaggio stesso diventa il punto di ingresso.

Le competenze degli agenti malintenzionati trasformano l'automazione in esecuzione di codice

La stretta relazione tra Moltbook e OpenClaw introduce un'altra superficie di rischio: le competenze condivise. Gli agenti possono pubblicare e installare competenze che ampliano le loro capacità, tra cui l'esecuzione di comandi shell o l'accesso a file locali.

Le segnalazioni di sicurezza provenienti da terze parti hanno dimostrato che skill dannose camuffate da plugin utili potevano eseguire codice arbitrario sul sistema host. Un esempio ampiamente citato riguardava una skill apparentemente innocua relativa alle condizioni meteorologiche che, una volta installata, sottraeva silenziosamente file di configurazione contenenti informazioni riservate.

Poiché gli agenti OpenClaw sono intenzionalmente potenti e privi di un solido sandboxing, una singola abilità dannosa si traduce efficacemente nell'esecuzione di codice remoto. L'attacco ha successo non a causa di una vulnerabilità, ma per via dell'ampio accesso di cui l'agente già dispone.

Questo rispecchia i classici attacchi alla catena di approvvigionamento, ma con un ciclo di fiducia più rapido e un minor numero di controlli di revisione.

Una volta che un agente viene compromesso, spesso si verifica immediatamente un'escalation.

Elevazione dei privilegi

Molti agenti funzionano con autorizzazioni elevate per impostazione predefinita. Conservano chiavi API, token OAuth, cloud e accesso alla messaggistica in un unico posto. Una volta che un agente viene compromesso, spesso non è necessario procedere all'escalation. Se l'agente funziona come utente standard, gli aggressori possono comunque utilizzarlo come punto d'appoggio per eseguire la tradizionale escalation dei privilegi. Se funziona con privilegi elevati, l'aggressore eredita immediatamente tali autorizzazioni.

Quando Phishing le macchine invece delle persone

Moltbook ha anche dimostrato come l'ingegneria sociale si evolva quando gli obiettivi sono agenti autonomi. I ricercatori hanno osservato bot che tentavano attivamente di phishing altri bot per ottenere informazioni sensibili, tra cui chiavi API e dati di configurazione.

Alcuni agenti si sono presentati come colleghi disponibili, chiedendo informazioni riservate con il pretesto di fornire assistenza per il debug o l'ottimizzazione delle prestazioni. Altri hanno usato un linguaggio coercitivo o autoritario, sfruttando il fatto che la maggior parte degli agenti è progettata per essere collaborativa e disponibile per impostazione predefinita.

A differenza phishing umano, non ci sono esitazioni, intuizioni o scetticismo da superare. Se la richiesta rientra nell'ambito dei compiti percepiti dall'agente, questa può essere eseguita automaticamente.

Questo comportamento ribalta le tradizionali ipotesi sulla protezione delle credenziali. Quando gli agenti detengono segreti e si fidano implicitamente degli altri agenti, l'abuso delle credenziali non richiede più endpoint compromessi o password rubate. Richiede persuasione.

Movimento laterale

Gli agenti autonomi raramente sono confinati a un unico ambiente. Un singolo agente può avere accesso contemporaneamente a una workstation di sviluppo, a un tenant SaaS, cloud e agli strumenti di collaborazione interni. Spesso è proprio questa connettività il motivo per cui l'agente esiste.

Una volta compromesso un agente, il movimento laterale non richiede nuovi strumenti. Avviene attraverso integrazioni legittime. Un aggressore che controlla un agente può riutilizzare le credenziali memorizzate per accedere alle piattaforme SaaS, impersonare gli utenti nei sistemi di chat o accedere cloud senza distribuire malware eseguire la scansione della rete. I messaggi inviati tramite Slack, e-mail o altri strumenti di collaborazione sembrano automazioni di routine. Le chiamate API ai cloud sembrano autorizzate perché lo sono.

Negli ecosistemi adiacenti a Moltbook, questo modello è già visibile. Gli agenti fungono da ponte tra contesti che non erano destinati a fidarsi direttamente l'uno dell'altro. Il compromesso in un dominio si propaga silenziosamente in altri attraverso il riutilizzo dell'identità e l'automazione condivisa.

Dal punto di vista del rilevamento, è difficile individuarlo. Non vi è traffico di exploit, nessun flusso di autenticazione insolito e nessun punto di pivot evidente. Il movimento avviene attraverso percorsi previsti, solo in una sequenza inaspettata.

Accesso ai dati ed esfiltrazione

L'esfiltrazione tramite agenti autonomi raramente assomiglia al tradizionale furto di dati. Gli agenti sono progettati per spostare i dati. Essi riassumono documenti, caricano file, inviano messaggi e sincronizzano i contenuti tra i servizi come parte del normale funzionamento.

Quando gli aggressori abusano di tali funzionalità, i meccanismi di esfiltrazione sembrano legittimi. I dati sensibili possono essere inviati tramite messaggi di chat, integrazioni e-mail, webhook o API cloud che l'agente è autorizzato a utilizzare. Dal punto di vista della registrazione, queste azioni spesso si confondono con il normale traffico di automazione.

L'incidente relativo alla divulgazione della chiave API di Moltbook evidenzia quanto possa essere fragile questo confine. Una volta ottenute credenziali valide degli agenti, gli aggressori non hanno avuto bisogno di violare i controlli. Hanno potuto impersonare gli agenti ed eseguire azioni indistinguibili dal comportamento previsto.

A quel punto, i controlli di accesso non sono più il fattore decisivo. Il rilevamento dipende dal riconoscimento dei cambiamenti nel comportamento. Quali dati vengono consultati, dove vengono inviati, con quale frequenza vengono eseguite le azioni e se tali modelli sono in linea con il ruolo abituale dell'agente.

È qui che gli agenti autonomi mettono in discussione le ipotesi tradizionali. L'esfiltrazione non deve necessariamente essere rumorosa per essere dannosa. Deve solo essere abbastanza normale da non destare sospetti.

Quando l'identità dell'agente è compromessa, il comportamento diventa l'unico segnale

Poco dopo il lancio di Moltbook, una configurazione errata del backend ha esposto centinaia di migliaia di chiavi API degli agenti. Con queste chiavi, un malintenzionato poteva impersonare qualsiasi agente sulla piattaforma, inserire comandi e controllarne il comportamento senza provocare errori di autenticazione.

L'incidente ha costretto a un arresto completo e alla rotazione delle credenziali, ma ha messo in luce un problema più profondo. Una volta che un aggressore è in possesso di credenziali valide dell'agente, i controlli di accesso tradizionali offrono una protezione minima. L'agente continua a comportarsi in modo "legittimo", utilizzando API approvate e flussi di lavoro normali.

A quel punto, il compromesso è visibile solo attraverso il comportamento. Cosa fa l'agente, dove si connette e come cambiano le sue azioni nel tempo.

Cosa dovrebbero fare ora i team SOC e dove si manifesta il divario di sicurezza

Trattare gli agenti autonomi come infrastrutture privilegiate

Gli agenti AI dovrebbero essere classificati insieme ai fornitori di identità, agli strumenti di amministrazione e alle pipeline di automazione. Essi centralizzano l'accesso e il processo decisionale e qualsiasi compromissione ha un impatto ampio. Effettuate un inventario dei luoghi in cui operano gli agenti, di ciò a cui possono accedere e delle modalità con cui vengono monitorati.

Considerare i contenuti come un vettore di attacco

L'iniezione di prompt avviene su larga scala. Qualsiasi sistema in cui gli agenti leggono testi non attendibili e possono agire deve essere considerato esposto. Limita le azioni che gli agenti possono intraprendere in base alla fonte del contenuto. Richiedi la conferma per le azioni ad alto rischio.

Monitorare il comportamento, non solo le risorse

Gli strumenti tradizionali si concentrano su endpoint, identità e registri in modo isolato. Gli agenti autonomi rendono meno netti questi confini. Un agente che agisce "normalmente" può comunque perseguire gli obiettivi di un aggressore. Questa è la principale lacuna nel rilevamento. Quando l'automazione viene utilizzata in modo improprio, gli indicatori sono comportamentali, non basati su firme.

Come Vectra AI colmare questa lacuna

Man mano che gli agenti autonomi vengono integrati in ambienti di identità, rete, cloud e SaaS, i team di sicurezza hanno bisogno di visibilità sulle intenzioni comportamentali, non solo sugli eventi.

Questo è il tipo di problema che laVectra AI è progettata per affrontare, rilevando i comportamenti degli aggressori che emergono quando l'automazione affidabile viene abusata. Analizzando i modelli in tutti gli ambienti, Vectra AI i team SOC a identificare tempestivamente ricognizioni, movimenti laterali, uso improprio delle credenziali ed esfiltrazione dei dati, anche quando tali azioni sono eseguite da agenti legittimi che utilizzano accessi validi.

Moltbook e piattaforme simili non rappresentano una minaccia di per sé. Sono segnali. Dimostrano quanto velocemente i sistemi autonomi possano essere riutilizzati quando la fiducia supera la visibilità. Per individuare questo cambiamento è necessaria una sicurezza che comprenda il comportamento durante l'intero ciclo di vita dell'attacco, prima che l'automazione si trasformi in compromissione.

---

Fonti e ulteriori letture:

Moltbook e l'illusione delle comunità di agenti AI "innocui"