L'intelligenza artificiale del vostro SOC è in grado di pensare? Valutazione degli LLM con il server MCP Vectra AI di Fabien Guillot

Avete presente quel momento in cui qualcuno dice: "Inseriamo ChatGPT nel SOC " e tutti annuiscono come se andasse benissimo? Sì, questo post parla di ciò che accade dopo quel momento.

Perché, per quanto possa sembrare bello, aggiungere GenAI a un SOC non è una magia. È disordinato. È affamato di dati. E se non si misura ciò che accade realmente sotto il cofano, si potrebbe finire per automatizzare la confusione.

Così... abbiamo deciso di misurarlo.

GenAI nel SOC: un'idea fantastica, una realtà difficile da realizzare

Cominciamo con l'ovvio: l'IA è ovunque nella sicurezza in questo momento.

In ogni slide deck sui SOC c'è una grande bolla con scritto "GenAI Assistant". Ma il vero banco di prova è rappresentato dalle prestazioni di questi assistenti di fronte a flussi di lavoro SOC reali.

Il server MCP di Vectra è il controllore del traffico aereo per tutti gli agenti AI.

Collega il vostro LLM (ad esempio ChatGPT o Claude) ai vostri strumenti di sicurezza (e ai loro dati!) - in questo caso, Vectra AI.

L'MCP orchestra l'arricchimento, la correlazione, il contenimento e il contesto, consentendo all'agente AI di interagire direttamente con i segnali che contano invece di perdersi nei dashboard.

E poiché vogliamo che tutti possano sfruttare e sperimentare queste capacità, abbiamo rilasciato 2 server MCP che consentono di collegare qualsiasi piattaforma Vectra ai flussi di lavoro AI.

☁️ RUX - il nostro SaaS: http://github.com/vectra-ai-research/vectra-ai-mcp-server

🖥️ QUX - la nostra versione on-prem: http://github.com/vectra-ai-research/vectra-ai-mcp-server-qux

Quindi, se avete pensato: "Vorrei poter collegare il mio LLM al mio stack di sicurezza e vedere cosa succede", ora potete farlo. Niente licenze, niente NDA, basta collegarlo e giocare.

Noi di Vectra AI crediamo sinceramente che GenAI + MCP cambieranno radicalmente il modo di operare dei SOC.

Non si tratta di un'idea "di un giorno": sta già accadendo e stiamo facendo in modo che gli utenti di Vectra AI siano completamente attrezzati per sfruttare questo cambiamento.

Questo è anche il motivo per cui passiamo molto tempo a parlare con clienti, potenziali clienti e partner, per capire la velocità con cui si muovono queste tecnologie e cosa significhi realmente "LLM-ready" in un SOC.

Così... abbiamo deciso di misurarlo.

Perché se la GenAI è destinata a rimodellare le operazioni di sicurezza, dobbiamo essere assolutamente certi che la nostra piattaforma, i nostri dati e le nostre integrazioni MCP possano inserirsi in questo nuovo mondo senza soluzione di continuità. La misurazione dell'efficacia non è un progetto secondario, ma è il modo in cui mettiamo il SOC a prova di futuro.

Non si tratta di avere più dati, ma di averne di migliori.

Saremo schietti: la GenAI senza dati validi è come assumere Sherlock Holmes e dargli una benda.

Per Vectra AI, i dati sono il fattore di differenziazione. Due cose lo rendono speciale:

Rilevamenti basati sull'intelligenza artificiale: costruiti sulla base di anni di ricerca sui comportamenti degli aggressori, non sulle anomalie. Sono progettati per essere robusti, ovvero per rimanere efficaci anche quando gli aggressori cambiano strumento. Ogni rilevamento si concentra sull'intento e sul comportamento piuttosto che su indicatori statici, dando ai team SOC la certezza che ciò che vedono è reale e pertinente.

Metadati di rete arricchiti: telemetria ad alto contesto che abbraccia ambienti ibridi, strutturata e correlata in modo da essere leggibile dalla macchina e immediatamente utilizzabile.

Questo è il tipo di dati che GenAI può effettivamente utilizzare. Dateli in pasto a un LLM e inizierà a ragionare come un analista esperto. Dategli in pasto i log grezzi e otterrete un'allucinazione molto sicura sul DNS.

Quindi, come si valuta un analista di IA?

Si scopre che non si può semplicemente chiedere di "trovare i cattivi più velocemente".

È necessario misurare il modo in cui ragiona. Quando si ha a che fare con un agente AI con MCP, si possono influenzare principalmente 3 cose:

Il modello (GPT-5, Claude, Deepseek, ecc.)

Il prompt (come gli si dice di agire - tono, struttura, obiettivi)

L'MCP stesso (come si inserisce nello stack di rilevamento)

Ognuno di questi elementi può spostare l'ago della bilancia delle prestazioni.

Cambiate leggermente il prompt e improvvisamente il vostro analista AI "sicuro di sé" dimentica come si scrive "PowerShell".

Cambiando il modello, la latenza raddoppia.

Cambiando l'integrazione MCP, metà del contesto scompare.

Ecco perché abbiamo costruito un banco di prova ripetibile: valutazione automatizzata, scenari SOC reali e un pizzico di brutale onestà.

Il banco di prova (ovvero "abbiamo provato")

Per la prima esecuzione, abbiamo mantenuto le cose intenzionalmente semplici: compiti di livello 1, ragionamento leggero (due hop al massimo), nessuna coreografia multi-agente.

La pila si presentava così:

n8n per la prototipazione rapida e l'automazione

Server MCP Vectra QUX per accedere ai dati e gestire la piattaforma.

Un prompt SOC minimo (in pratica: "Sei un analista di IA, aiutami. Se non lo sai, dillo").

Valutazione alimentata da un LLM Confronto tra risposte attese e risposte effettive

Ma non si trattava di un esperimento giocattolo. Abbiamo testato 28 compiti SOC reali, quelli che gli analisti devono affrontare ogni giorno. Cose come:

Elenco degli host in stato elevato o critico

Estrarre i rilevamenti per endpoint specifici (piper-desktop, deacon-desktop, ecc.).

Verifica dei rilevamenti di comandi e controlli legati a IP o domini

Trovare l'esfiltrazione oltre 1GB

Etichettatura ed eliminazione degli artefatti dell'host

Cercare i conti nei quadranti di rischio "alto" o "critico".

A caccia di account "Admin" coinvolti nelle operazioni EntraID

Interrogazione dei rilevamenti con impronte digitali JA3 specifiche

Assegnazione degli analisti agli host o ai rilevamenti

In pratica, tutto ciò che un analista SOC Tier-1 o Tier-2 potrebbe toccare in un affollato martedì mattina.

Ogni corsa è stata valutata in base alla correttezza, alla velocità, all'uso dei gettoni e all'attività dell'utensile, il tutto misurato su una scala da 1 a 5.

Cosa rende un buon agente GenAI?

La valutazione di GenAI all'interno di un SOC non riguarda il modello più intelligente. Si tratta dell'efficienza con cui pensa, agisce e impara. Un buon agente di IA si comporta come un analista acuto: non si limita a ottenere la risposta giusta, ma ci arriva in modo efficiente. Ecco cosa cercare:

Uso efficiente dei token. Meno parole servono per ragionare, meglio è. I modelli prolissi sprecano spazio di calcolo e di contesto.

Chiamate intelligenti di strumenti. Quando un modello continua a chiamare lo stesso strumento in continuazione, in pratica sta dicendo "fammi riprovare". I migliori capiscono quando e come usare uno strumento: minimo errore, massima precisione.

Velocità senza sciatteria. La velocità è un bene, ma solo se la precisione regge. Il modello ideale bilancia la reattività con la profondità del ragionamento.

In breve: il miglior analista di IA non si limita a parlare, ma pensa in modo efficiente.

Ecco cosa abbiamo trovato:

Punti salienti e spunti pratici

Il GPT-5 vince per precisione e profondità di ragionamento, ma è lento e costoso. Da usare quando la precisione è più importante della velocità.

Claude Sonnet 4.5 offre il miglior equilibrio complessivo: precisione, velocità ed efficienza. Ottimo per i SOC di produzione.

Claude Haiku 4.5 è perfetto per il triage veloce: rapido, economico e "abbastanza buono" per le decisioni di prima linea.

Deepseek 3.1 è il campione del valore: prestazioni impressionanti ad un costo ridotto.

Grok Code Fast 1 è per i flussi di lavoro che richiedono strumenti (automazione, arricchimento, ecc.), ma attenzione alla bolletta dei gettoni.

GPT-4.1... diciamo che non è stato invitato a tornare per un altro turno.

E poiché ogni buon articolo ha bisogno di grafici, eccone alcuni:

Confronto del punteggio di correttezza

GPT-5 è tecnicamente il vincitore con 4,32/5, ma onestamente? Claude Sonnet 4.5 e Deepseek 3.1 sono praticamente in parità a 4,11 e probabilmente non si noterà la differenza. Il vero colpo di scena? GPT 4.1 si piazza assolutamente in faccia con 2,61/5. Come dire, accidenti. Non usatelo per la sicurezza.

Tempo di esecuzione

Claude Haiku 4.5 è che vola attraverso queste query a 38 secondi. Nel frattempo GPT-5 sta facendo una tranquilla passeggiata di 93 secondi, letteralmente 2,5 volte più lento. Quando c'è un potenziale incidente di sicurezza, quei secondi in più sembrano un'eternità. Haiku lo fa.

Matrice della proposta di valore

Bolla più grande = meno gettoni utilizzati. La bolla di GPT 4.1 è enorme, ma non si tratta di una flessione: è come dire "ho finito il test supervelocemente" quando non l'hai superato. Economico e sbagliato non è una proposta di valore, è semplicemente... sbagliato. I modelli che volete davvero sono nell'angolo in alto a destra: Deepseek 3.1 (efficiente e preciso), Claude Sonnet 4.5 (una bestia equilibrata) e Grok Code Fast (solido in ogni sua parte). La microbolla di GPT-5 conferma che è l'opzione più costosa.

Cosa abbiamo imparato?

La precisione non è tutto. Un modello leggermente più preciso, ma che impiega il doppio del tempo e brucia cinque volte i gettoni, potrebbe non essere la scelta migliore. In un SOC, l'efficienza e la scala fanno parte della precisione.

L'uso degli strumenti è una finestra sul ragionamento. "Se un LLM ha bisogno di dieci chiamate allo strumento per rispondere a una semplice domanda, non è completo, è perso. I modelli che hanno ottenuto le migliori prestazioni non solo hanno ottenuto la risposta giusta, ma l'hanno ottenuta in modo efficiente, utilizzando una o due interrogazioni intelligenti attraverso l'MCP. L'uso dello strumento non è una questione di quantità, ma di quanto velocemente il modello individua il percorso giusto. La colpa non è sempre dell'LLM. Un buon server MCP è essenziale per un utilizzo ottimale degli strumenti. Ma teniamo la valutazione dell'MCP per un momento successivo.

La progettazione del prompt è sottovalutata. Il più piccolo ritocco nella formulazione può far oscillare in modo selvaggio l'accuratezza o i tassi di allucinazione. Abbiamo mantenuto il prompt minimale di proposito, come base per la messa a punto futura, ma è chiaro che le piccole scelte di design hanno grandi effetti.

Conclusione (e un piccolo controllo della realtà)

Quindi, il punto è che non si tratta di stabilire quale modello vince un concorso di bellezza. Certo, il GPT-5 potrebbe essere in vantaggio su Claude in base a qualche parametro, ma non è questo il punto.

La vera lezione è che la valutazione dell'agente AI non è facoltativa.
Se avete intenzione di affidarvi all'IA all'interno del vostro SOC - per trigitare gli avvisi, riassumere gli incidenti o persino chiamare azioni di contenimento - allora dovete sapere come si comporta, dove fallisce e come si evolve nel tempo.

L'IA senza valutazione è solo automazione senza responsabilità.

E, cosa altrettanto importante, i vostri strumenti di sicurezza devono parlare l'inglese.

Ciò significa dati strutturati, API pulite e un contesto leggibile dalla macchina, non bloccato in dashboard o silos di fornitori. Il modello più avanzato del mondo non può ragionare se viene alimentato con una telemetria non funzionante.

Ecco perché in Vectra AI siamo ossessionati dall'idea che la nostra piattaforma e il nostro server MCP siano pronti per l'LLM. I segnali che produciamo non sono destinati solo agli esseri umani, ma sono costruiti per essere consumati dalle macchine, da agenti AI in grado di ragionare, arricchire e agire.

Perché nella prossima ondata di operazioni di sicurezza non è sufficiente utilizzare l'IA: l'intero ecosistema deve essere compatibile con l'IA.

Il SOC del futuro non è solo alimentato dall'AI. È misurato dall'intelligenza artificiale, connesso all'intelligenza artificiale e pronto per l'intelligenza artificiale.

‍

L'intelligenza artificiale del vostro SOC è in grado di pensare? Valutazione degli LLM con il server MCP di Vectra AI