Svelato il ‘Skeleton Key’, un nuovo attacco per aggirare le salvaguardie AI di Microsoft

auroraoddi

2 anni fa

Svelato il 'Skeleton Key', un nuovo attacco per aggirare le salvaguardie AI di Microsoft

Microsoft ha recentemente svelato una nuova tipologia di attacco per aggirare le misure di sicurezza delle sue intelligenze artificiali, denominato “Skeleton Key”. Questa tecnica, in grado di eludere la maggior parte delle salvaguardie integrate nei sistemi AI, sottolinea la necessità cruciale di adottare robuste misure di sicurezza in tutti gli strati dello stack tecnologico delle IA.

Lo Skeleton Key è un attacco multilivello che riesce a convincere un modello AI a ignorare i suoi stessi meccanismi di sicurezza integrati. Una volta che l’attacco ha avuto successo, il modello diventa incapace di distinguere tra richieste dannose e legittime, concedendo così agli aggressori il pieno controllo sull’output dell’intelligenza artificiale.

Il team di ricerca di Microsoft ha testato con successo questa tecnica su diversi modelli AI di spicco, inclusi quelli di Meta, Google, OpenAI, Mistral, Anthropic e Cohere. Tutti i modelli presi di mira hanno pienamente assolto alle richieste in varie categorie di rischio, come esplosivi, armi biologiche, contenuti politici, autolesionismo, razzismo, droghe, sesso esplicito e violenza.

Come funziona lo Skeleton Key

L’attacco Skeleton Key istruisce il modello AI ad aumentare e modificare le proprie linee guida comportamentali, convincendolo a rispondere a qualsiasi richiesta di informazioni o contenuti, fornendo al massimo un avvertimento se l’output potrebbe essere considerato offensivo, dannoso o illegale. Questa tecnica, nota come “Istruzione forzata esplicita”, si è dimostrata efficace attraverso molteplici sistemi AI.

“Aggirando le salvaguardie, lo Skeleton Key consente all’utente di far produrre al modello comportamenti normalmente vietati, che possono andare dalla creazione di contenuti dannosi all’annullamento delle sue normali regole decisionali”, ha spiegato Microsoft.

Contromisure di Microsoft

In risposta a questa scoperta, Microsoft ha implementato diverse misure di protezione nei suoi servizi AI, inclusi gli assistenti virtuali Copilot. L’azienda afferma inoltre di aver condiviso i propri risultati con altri fornitori di IA attraverso procedure di divulgazione responsabile e di aver aggiornato i suoi modelli gestiti da Azure per rilevare e bloccare questo tipo di attacco utilizzando Prompt Shields.

Raccomandazioni per mitigare i rischi

Per mitigare i rischi associati allo Skeleton Key e a tecniche simili di evasione delle salvaguardie, Microsoft raccomanda un approccio a più livelli per i progettisti di sistemi AI:

Filtraggio degli input

Rilevare e bloccare input potenzialmente dannosi o malevoli.

Attenta ingegneria dei prompt

Rafforzare il comportamento appropriato attraverso i messaggi di sistema.

Filtraggio dell’output

Prevenire la generazione di contenuti che violano i criteri di sicurezza.

Sistemi di monitoraggio degli abusi

Addestrati su esempi di attacchi avversari per rilevare e mitigare contenuti problematici ricorrenti.

Microsoft ha inoltre aggiornato il suo strumento PyRIT (Python Risk Identification Toolkit) per includere lo Skeleton Key, consentendo così agli sviluppatori e ai team di sicurezza di testare i propri sistemi AI contro questa nuova minaccia.

Importanza della sicurezza AI

La scoperta della tecnica di evasione dello Skeleton Key sottolinea le sfide continue nella protezione dei sistemi AI man mano che diventano più diffusi in varie applicazioni. Mentre l’IA generativa offre numerosi vantaggi, la sua adozione diffusa richiede una particolare attenzione alla sicurezza per prevenire potenziali abusi e danni.

Fonte dell’articolo qui.