Orientamenti a breve e lungo termine per l'IA antagonista nella sicurezza informatica

12 settembre 2024
Sohrob Kazerounian
Distinguished AI Researcher
Orientamenti a breve e lungo termine per l'IA antagonista nella sicurezza informatica

Il ritmo frenetico con cui l'intelligenza artificiale (IA) ha fatto passi da gigante negli ultimi anni ha iniziato a produrre effetti trasformativi in una vasta gamma di settori. Se a questo si aggiunge un mondo sempre più (inter)connesso, in cui gli attacchi informatici si verificano con frequenza e portata allarmanti, non c'è da stupirsi che il settore della sicurezza informatica abbia ora rivolto la propria attenzione all'IA e all'apprendimento automatico (ML) per individuare e difendersi dagli avversari.

L'uso dell'IA nella sicurezza informatica non solo amplia la portata di ciò che un singolo esperto di sicurezza è in grado di monitorare, ma, cosa importante, consente anche di individuare attacchi che altrimenti sarebbero stati impossibili da rilevare da parte di un essere umano. Proprio come era quasi inevitabile che l'IA venisse utilizzata a fini difensivi, è innegabile che i sistemi di IA saranno presto utilizzati anche a fini offensivi.

Intelligenza artificiale spiegata - Parte 8

Qui delineiamo le traiettorie a breve e lungo termine che queste applicazioni antagonistiche dell'IA potrebbero seguire, considerando la storia e lo stato attuale dell'IA.6

Applicazioni immediate

Esistono diversi ambiti in cui lo sviluppo dell'intelligenza artificiale, e in particolare del deep learning, ha applicazioni specifiche che possono tuttavia essere modificate da hacker per scopi dannosi.

Ad esempio, molte tecniche all'avanguardia per l'elaborazione del linguaggio naturale utilizzano una forma di rete neurale ricorrente nota come LSTM per elaborare, classificare, generare e persino tradurre il linguaggio naturale. Un modello linguistico LSTM addestrato su un set di dati vocali o testuali può essere utilizzato per generare nuove frasi con la stessa voce o lo stesso stile del testo da cui è stato addestrato. Questo modello, che ha imparato a generare tweet con la voce di Trump, è un esempio di questo utilizzo:

Modelli come questi possono essere facilmente sfruttati dagli hacker come uno dei tanti strumenti a loro disposizione. Ad esempio, varie famiglie di malware algoritmi di generazione di domini (DGA) per creare in modo casuale nuovi domini come punti di incontro, in modo che i computer infetti possano raggiungere un server di comando e controllo. Se i domini fossero hardcoded, sarebbe banale per un amministratore di rete inserire semplicemente i domini dannosi nella lista nera.

Poiché i domini generati in modo casuale (ad esempio nawntgvcbixvwh.net) hanno un aspetto molto diverso dai domini che un essere umano registrerebbe, è relativamente facile creare modelli in grado di distinguere i domini normali da quelli DGA. Tuttavia, un modello LSTM addestrato su nomi di dominio normali potrebbe facilmente costruire domini falsi che sembrano indistinguibili da quelli che un essere umano potrebbe scegliere.

Un'altra classe di modelli (che spesso utilizzano anche le LSTM) è nota come modelli sequence-to-sequence (seq2seq). I modelli Seq2seq, attualmente all'avanguardia nel campo della traduzione, prendono come input una sequenza in un dominio o lingua (ad esempio, una frase in inglese) e producono come output una sequenza in un altro dominio o lingua (ad esempio, una frase in francese).

Questi modelli possono essere utilizzati anche per una tecnica nota come fuzzing, che automatizza il processo di individuazione di errori e falle di sicurezza nel codice. Le falle di sicurezza individuate con queste tecniche possono spesso portare a buffer overflow, SQL injection, ecc., che consentono agli aggressori di ottenere il controllo totale di un sistema.

Un modello RNN sequenza-sequenza per generare oggetti PDF

In generale, le aree in cui l'IA e l'ML sono più immediatamente applicabili hanno un ambito limitato e funzionano solo in combinazione con un aggressore umano che utilizza il sistema. Le aree di applicazione sono probabilmente limitate all'accelerazione dell'automazione di vari tipi di attività (come nel caso del fuzzing) o all'imitazione delle prestazioni e del comportamento umani (come nel caso del DGA).

Applicazioni a breve termine

Estratti di un documento PDF ben formattato.

Con l'evoluzione dell'intelligenza artificiale nei prossimi anni, tecniche sviluppate solo di recente, come le reti generative avversarie (GAN), inizieranno ad ampliare la gamma di possibilità di attacco.

È interessante notare che le GAN sono state inizialmente motivate dall'osservazione degli attacchi avversari ai metodi di deep learning esistenti: semplici modifiche agli input che sarebbero altrimenti indistinguibili per gli esseri umani, ma che confonderebbero al massimo una rete neurale. Si prenda il seguente esempio tratto da Goodfellow et al., (2014) [https://arxiv.org/abs/1412.6572]:

L'aggiunta di una leggera quantità di rumore all'immagine di un panda produce un'immagine di un panda che per la maggior parte delle persone è indistinguibile dall'originale.

L'aggiunta di una leggera quantità di rumore a un'immagine di un panda (lato sinistro dell'equazione nella figura sopra) produce un'immagine di un panda che è indistinguibile dall'originale per la maggior parte degli esseri umani (lato destro dell'immagine sopra). Tuttavia, questa leggera aggiunta modifica la previsione di una rete neurale che è stata addestrata a riconoscere oggetti nelle immagini da un "panda" a un "gibbone". Un esempio più recente è stato in grado di generare confusioni simili con la modifica di un solo pixel (https://arxiv.org/abs/1710.08864v2).

Attacchi one-pixel creati con l'algoritmo proposto che sono riusciti a ingannare una DNN bersaglio.

Questo tipo di attacchi diventerà sempre più frequente con la diffusione dell'intelligenza artificiale e dell'apprendimento automatico nella nostra vita quotidiana. Le reti neurali profonde del tipo di quelle attaccate negli esempi sopra riportati sono il cuore dei sistemi di visione che regolano le auto senza conducente, il riconoscimento facciale (si pensi alle telecamere che si incontrano quando si passa la sicurezza alla frontiera per rientrare negli Stati Uniti) e altro ancora.

I tipi di attacchi avversari sopra indicati saranno sempre più utilizzati per comportamenti dannosi, dato che sempre più sistemi si affidano a soluzioni di intelligenza artificiale automatizzate.

Le GAN, originariamente motivate dagli attacchi avversari, sono interessanti anche di per sé. Le GAN sono reti neurali accoppiate con competizione tra una rete generatrice, il cui compito è quello di generare un output, e una rete discriminatrice, il cui compito è quello di determinare se l'input che vede è stato generato dal generatore o tratto da un set di dati reale.

Sorprendentemente, il gioco teorico che si svolge tra le reti porta alla creazione di un generatore in grado di produrre risultati incredibilmente realistici. Ciò è particolarmente vero nel campo delle immagini, dove le GAN hanno iniziato a creare immagini dall'aspetto iperrealistico (ad esempio, volti di celebrità che non esistono: http://research.nvidia.com/publication/2017-10_Progressive-Growing-of), ma ora vengono utilizzate anche per generare linguaggio naturale.

Questi modelli saranno in grado di generare un linguaggio umano realistico con la voce o il codice di un'altra persona per raggiungere un obiettivo o svolgere un compito specifico. Probabilmente inizieranno a essere utilizzati per ingannare i sistemi e gli esseri umani generando risultati indistinguibili da quelli reali.

Immagini 1024 x 1024 generate utilizzando il set di dati CELEBA-HQ.

Direzioni a lungo termine

A lungo termine, prevediamo che l'uso dell'IA in contesti ostili o dannosi si sposterà sempre più verso il campo dell'apprendimento per rinforzo (RL). A differenza dei modelli discussi finora, l'RL consente a un agente IA non solo di elaborare gli input, ma anche di prendere decisioni in risposta a tali input in un modo che può influenzare l'ambiente stesso.

Senza la capacità di prendere decisioni e agire, un agente AI è effettivamente in grado solo di elaborare gli input.

La capacità di osservare un ambiente o uno stato di input e quindi agire in risposta ad esso chiude quello che Jean Piaget definiva il "circuito azione-percezione" negli esseri umani. Senza la capacità di prendere decisioni e agire, un agente AI è effettivamente in grado solo di elaborare gli input. L'RL è ciò che ha reso possibili le moderne IA per i giochi (ad esempio, https://deepmind.com/research/publications/playing-atari-deep-reinforcement-learning/) e che ha portato i sistemi di IA a battere i migliori giocatori di Go al mondo (https://deepmind.com/blog/alphago-zero-learning-scratch/).

In sostanza, RL funziona assegnando a un agente una ricompensa positiva quando raggiunge un obiettivo e una ricompensa negativa quando fallisce. Le ricompense dovrebbero quindi aumentare la probabilità di intraprendere azioni reattive che potrebbero portare a ricompense positive, inibendo al contempo le azioni che potrebbero portare a ricompense negative.

Per creare agenti AI in grado di ricognire, individuare e attaccare autonomamente una rete sarà necessaria una qualche forma di RL (o metodi correlati che ne derivano). Infatti, noi di Vectra abbiamo già costruito agenti rudimentali in grado di imparare a scansionare le reti in modo da eludere i sistemi di rilevamento. Questi sistemi sono stati addestrati ricompensando gli agenti per le informazioni raccolte e punendoli ogni volta che venivano scoperti.

Questo tipo di addestramento non è semplice, tuttavia, poiché non esistono metodi chiari per definire cosa sia un ambiente e quali siano gli spazi delle azioni possibili (a differenza di giochi come quelli Atari o anche di giochi notoriamente difficili come il Go, in cui lo spazio degli stati e lo spazio delle azioni sono relativamente chiari).

Esiste già un progetto che tenta di utilizzare l'API Metasploit per creare una serie di stati e azioni facilmente assimilabili dagli algoritmi RL, che possono poi essere utilizzati dagli algoritmi sviluppati in TensorFlow. Il progetto, chiamato DeepExploit, è stato presentato al Black Hat 2018 (https://github.com/13o-bbr-bbq/machine_learning_security/tree/master/DeepExploit).

In definitiva, è proprio quest'ultima categoria di IA utilizzata per comportamenti dannosi o aggressivi che ha storicamente catturato l'immaginazione degli scrittori di fantascienza e del grande pubblico. Ma molto prima che questo tipo di agenti vedano la luce, l'IA e l'apprendimento automatico saranno utilizzati per una vasta gamma di attacchi, alcuni dei quali possiamo già prevedere, mentre altri non potremo conoscerli fino a quando non si verificheranno.

Godefroid, P., Peleg, H., & Singh, R. (ottobre 2017). Learn&fuzz: Machine learning for input fuzzing. In Atti della 32a Conferenza internazionale IEEE/ACM sull'ingegneria del software automatizzata (pp. 50-59). IEEE Press.

Goodfellow, I. J., Shlens, J., & Szegedy, C. Spiegare e sfruttare gli esempi contraddittori (2014). Preprint arXiv arXiv:1412.6572.

Karras, T., Aila, T., Laine, S. e Lehtinen, J. (2017). Crescita progressiva dei gans per migliorare qualità, stabilità e variazione. Preprint arXiv arXiv:1710.10196.

Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M. (2013). Giocare ad Atari con l'apprendimento rinforzato profondo. Preprint arXiv arXiv:1312.5602.

Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., ... & Chen, Y. (2017). Padroneggiare il gioco del Go senza conoscenze umane. Nature, 550(7676), 354.

Su, J., Vargas, D. V. e Kouichi, S. (2017). Attacco a un pixel per ingannare le reti neurali profonde. Preprint arXiv arXiv:1710.08864.

Pubblicato originariamente nel 2018, questo post è stato ripubblicato per riportare le sue riflessioni al centro del dibattito.

Domande frequenti