Modelli IA: vulnerabili nonostante difese avanzate

I modelli di Intelligenza Artificiale più sofisticati mostrano ancora debolezze significative di fronte a specifici attacchi esterni. Uno studio recente ha analizzato queste vulnerabilità, evidenziando la necessità di valutazioni continue per garantire la sicurezza.

Vulnerabilità dei modelli linguistici avanzati

Anche i sistemi di Intelligenza Artificiale all'avanguardia non sono immuni da minacce esterne. Questa è la conclusione principale di una ricerca condotta dall'Ai Security Lab dell'Istituto Italiano di Intelligenza Artificiale (AI4I). Il team, sotto la guida di Nicola Franco, ha pubblicato uno studio intitolato "Measuring the Residual Jailbreak Surface of Frontier Large Language Models".

La ricerca ha utilizzato la piattaforma open source HackAgent. I ricercatori hanno simulato centinaia di migliaia di tentativi di "jailbreak". Questi attacchi miravano a superare le restrizioni di sicurezza dei modelli linguistici più potenti. Sono stati impiegati 7.826 intenti dannosi. Questi intenti coprivano dieci diverse categorie di rischio, spaziando dalla cybersicurezza alla diffusione di disinformazione.

Efficacia delle difese IA e persistenza delle minacce

I risultati della sperimentazione hanno evidenziato un quadro complesso. I modelli analizzati dimostrano una notevole capacità di difesa. Bloccano la stragrande maggioranza degli attacchi simulati. Nel caso di Claude Opus 4.8, oltre l'88% delle minacce è stato neutralizzato. Per Fable 5, la percentuale di successo delle difese ha superato il 93%. Nonostante queste cifre incoraggianti, lo studio ha comunque identificato centinaia di risposte dannose.

Queste risposte sono state ottenute sfruttando tecniche automatizzate. Ciò indica che, sebbene le difese siano robuste, esistono ancora falle sfruttabili. La ricerca ha anche messo in luce un'evoluzione nelle tattiche di attacco. I metodi tradizionali, basati su codifiche e manipolazioni linguistiche, risultano ormai in gran parte inefficaci. Sono stati superati da attacchi più sofisticati.

Attacchi adattivi e necessità di vigilanza continua

Gli attacchi che si sono dimostrati ancora efficaci sono quelli definiti "adattivi". Questi tipi di attacco sono in grado di apprendere dalle interazioni con il modello. Modificano progressivamente le proprie strategie in base alle risposte ricevute. Questo rende la difesa un processo dinamico e in continua evoluzione.

Nicola Franco ha sottolineato l'importanza di un approccio rigoroso alla sicurezza dell'IA. «La sicurezza dei sistemi di Intelligenza Artificiale richiede valutazioni indipendenti, continue e basate su evidenze empiriche», ha affermato. «Misurare la robustezza dei modelli in condizioni avversariali è una componente essenziale della governance dell'IA e della fiducia necessaria per la sua adozione su larga scala».

La ricerca suggerisce che la sicurezza dell'IA non è uno stato permanente. Non può essere considerata una conquista definitiva. Richiede invece un processo costante di verifica e miglioramento. Fabio Pammolli ha aggiunto che lo sviluppo di capacità autonome di valutazione per i sistemi IA avanzati è cruciale. Lo considera «una componente essenziale della sovranità tecnologica» per l'Italia e l'Europa.