Adversarial Artificial Intelligence: cos'è e perchè è importante

: Miki G.; > Intelligenza Artificiale; > 28 Novembre 2022

Con il concetto di Adversarial AI si intende racchiudere tutte quelle tecniche che mirano a influire sul comportamento dell'intelligenza artificiale applicata ad un determinato modello con l'obiettivo di portare a termine con successo attacchi informatici.

L'attaccante cerca quindi di ingannare il modello attraverso degli esempi avversari, creati proprio per portare ad una previsione errata. Utilizzando dati ingannevoli, avanzando per tentativi, si cerca di creare un determinato effetto variando gli input fino a quando si ottiene il risultato desiderato, ingannando l'intelligenza artificiale. In questo modo è di fatto possibile sfruttare vulnerabilità legate ad un determinato comportamento ignorate dagli sviluppatori, tutto a vantaggio dei criminali informatici. L'intelligenza artificiale non è immune dai rischi legati alla cybersecurity: sappiamo bene che i criminali sono sempre estremamente attivi nell'individuare potenzialità di attacco superando le continue misure di sicurezza messe in atto da chi deve tutelare l'integrità dei dati e delle reti.

La portata della minaccia.

La gravità di questo senario è ben intuibile se si pensa agli ambiti di applicazione dell'intelligenza artificiale: sanità, finanza, sicurezza nazionale, trasporti. Si tratta di settori altamente evoluti e sensibili, dove un attacco informatico supera i confini della rete e del dato virtuale mentre può avere ripercussioni dirette sull'incolumità delle persone. Infatti le applicazioni di AI crescono in questi settori proprio perché possono avere un impatto diretto semplificando l'operatività quotidiana degli addetti. Pensiamo alle applicazioni nelle auto a guida autonoma, piuttosto che nel settore finanziario per determinare il rischio correlato all'emissione di un prestito. e gli esempi potrebbero tranquillamente continuare.

Sono ipotesi, al momento, ma altamente documentate nella loro fattibilità da studi accademici che hanno analizzato e studiato questi scenari. Ad oggi la maggior parte degli studi si sono concentrati sul riconoscimento delle immagini, e hanno dimostrato con esempi pratici come attacchi di questo tipo siano effettivamente possibili. All'interno di uno scenario in cui il Machine Learning avanza velocemente coinvolgendo settori pubblici e privati, gli studi hanno preso in considerazione sia attacchi di tipo whitebox, in cui l'attaccante ha accesso al modello target, sia attacchi di tipo blackbox, in cui l'attaccante non ha alcun accesso se non quello agli output del target. Grandi aziende come Google o IBM sono già avanti con investimenti nel settore per proteggere le applicazioni di Machine Learning: più queste sono attive nello sviluppo di modelli di Intelligenza Artificiale più devono necessariamente investire nella sicurezza di tali modelli.

Pensiamo al caso in cui l'algoritmo di riconoscimento utilizzato su una vettura a guida autonoma viene ingannato e non riconosce un ostacolo sulla strada. Ecco a questo link lo studio sperimentale in proposito condotto già alcuni anni fa.

I diversi tipi di attacco di Adversarial AI.

Esistono diversi tipi di attacco all'Intelligenza artificiale, tuttavia la distinzione più comune riguarda il momento in cui l'attacco avviene.

Attacchi di avvelenamento

Consiste nell'utilizzo di dati ingannevoli destinati a contaminare l'apprendimento dei sistemi di Machine Learning durante il periodo di training, influenzandone il comportamento. L'attacco avviene cioè nel momento dell'apprendimento, sia inserendo dati "avvelenati" che modificando i dati di input oppure ancora agendo direttamente sull'algoritmo, cambiandolo a seconda dei suoi obiettivi.

Attacchi di evasione

Questi attacchi avvengono non nel momento dell'apprendimento ma in quello di testing. Si tratta degli attacchi più comuni.